CN104536904B

CN104536904B - 一种数据管理的方法、设备与系统

Info

Publication number: CN104536904B
Application number: CN201410848147.6A
Authority: CN
Inventors: 杜培亮; 王提政
Original assignee: Hangzhou Huawei Digital Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-12-29
Filing date: 2014-12-29
Publication date: 2018-01-09
Anticipated expiration: 2034-12-29
Also published as: CN104536904A

Abstract

本发明实施例提供了一种数据管理的方法、设备与系统。获知冷数据片段在第一存储设备中所在的数据分区；在冷数据片段所在的数据分区中查找或分离出特殊数据分区，特殊数据分区包含的数据片段全部为冷数据片段；将特殊数据分区从第一存储设备迁移到第二存储设备，第一存储设备的数据处理能力强于第二存储设备；将特殊数据分区设置为离线模式，以使特殊数据分区中的冷数据片段不被访问。本发明通过设置冷数据片段所在分区为离线模式，无需借助外部存储介质，无需进行手动转移冷数据片段，也不需要复杂的操作流程，就可以达到在计划内访问热数据时不会对冷数据片段意外访问的目的，进而避免了由此引发的查询响应时间延长和查询性能降低。

Description

一种数据管理的方法、设备与系统

技术领域

本发明涉及通信技术领域，尤其涉及一种数据管理的方法、设备与系统。

背景技术

随着移动终端、云计算和物联网的普及，以及随之而来行业监管要求的跟进，我们正进入一个数据飞速膨胀的时代。如何针对大量膨胀的数据，设计出更高性价比的存储和访问策略，是存储和数据领域的热点研究课题。根据数据的冷热程度，可以简单分为热数据和冷数据。实际上，经常访问的热数据往往是占比例较小的，一般是10％-15％，剩下的大部分数据都是冷数据。针对这些冷数据，并没有太多的计算能力需求，一般只需将其很好的存储和管理起来。现实中对于按照时间先后生成，并由此区分出了冷热数据之分的数据模型，一般采取分区表的形式管理，即新数据、热数据在新分区，老数据、冷数据在旧分区。

为了减少冷数据的开销，一般会将冷数据迁移至慢速、低成本和低功耗的存储设备，例如一个数据管理系统包含很多个硬盘，转速慢的硬盘用来存储冷数据；并对冷数据进行软件优化，如采取更好的压缩比、去重等，使得存放数据一样的数据块只保留一个。应用程序针对热数据和冷数据的访问，一般都会按照计划进行：常规计划内的操作都会针对热数据，针对冷数据的操作需要另外单独的计划。

这样也带来一个问题，即如果应用程序意外查询冷数据，例如用户查询范围过大或者误写，意外地包含了冷数据，由于冷数据存储在运行速度较慢的设备上，会由于冷数据存储设备更慢的读取速度、更长的解压时间，整体上数量级地延长了查询结果的响应时间。以某企业2014年01月-12月的数据的分布管理为例：

假设只在快速存储设备上保留p2014-07～p2014-12这最近6个月的数据，则p2014-01～p2014-06六个分区的数据位于慢速的冷数据存储设备上，如果应用程序需要访问2014下半年的数据，必须输入如下SQL语句：

select*from sales_info where sale_day>＝“2014-07-01”；

如果应用程序需要访问最近半年的数据，但是不慎输入了：

select*from sales_info where sale_day>＝“2014-01-01”；

或者

select*from sales_info；

此时由于实际过多访问了数据位于慢速的冷数据存储设备的p2014-01～p2014-06六个分区，会使得本次查询的响应速度降低，响应时间延长，得到多余的数据，不符合应用程序的需求，降低了用户体验。

类似于上述例子的问题可归纳为有计划的应用程序和欠缺计划的数据之间，遭遇到了计划外的应用逻辑时产生的矛盾。查询范围有误意外访问冷数据，查询速度会变慢或查询结果出现错误，用户如果发觉可以中途撤回重新输入查找，但是这样已经浪费了时间，并且意识到自己查找出现问题概率也不是很高，用户采用中途撤回重新输入这种操作，从输入到相应可能达到十秒的级别，甚至数十秒。

现有技术中，在确保减少冷数据开销的前提下，为了防止查询热数据时意外访问冷数据，可以通过定期地手动操作从本地冷数据存储设备移走冷数据，备份到外部冷数据存储设备，然而备份以及日后的再次读取都需要重新连接外部的冷数据存储设备，数据需要定期移走、移来，整个操作流程复杂，读写操作消耗很长的时间。

发明内容

有鉴于此，本发明实施例提供了一种数据管理的方法、设备与系统，能够简化操作流程并有效减少读写操作消耗的时间。

根据本发明实施例的第一方面，提供了一种数据管理的方法，该方法包括：获知冷数据片段在第一存储设备中所在的数据分区，数据片段是组成数据分区的基本单位；所述冷数据片段为访问频率小于预设阈值的数据片段；在所述冷数据片段所在的数据分区中确定出特殊数据分区，所述特殊数据分区包含的数据片段全部为冷数据片段；将所述特殊数据分区从所述第一存储设备迁移到第二存储设备，所述第一存储设备的数据处理能力强于所述第二存储设备；将所述特殊数据分区设置为离线模式，以使所述特殊数据分区中的冷数据片段不被访问。

结合第一方面，在第一方面的第一种可能的实现方式中，所述在所述冷数据片段所在的数据分区中确定出特殊数据分区包括：目标数据分区中存在M个冷数据片段，将所述M个冷数据片段分为N个冷数据片段组，M为大于0的整数，N为大于0的整数，且M大于等于N；将所述N个冷数据片段组从所述目标数据分区中分离出来，形成N个新的数据分区，每一个冷数据片段组对应一个新的数据分区，每一个新的数据分区都是所述特殊数据分区。

结合第一方面，在第一方面的第二种可能的实现方式中，所述将所述至少一个冷数据片段分为N个冷数据片段组具体包括：按照所述M个冷数据片段的数据类型、数据生成日期、创建者或名称中的一个或者多个，将所述M个冷数据片段分为N个冷数据片段组。

结合第一方面，或者结合第一方面的上述任何一种可能的实现方式，在第一方面的第三种可能的实现方式中，所述将所述特殊数据分区设置为离线模式具体包括：数据管理设备对所述特殊数据分区执行离线命令，所述离线命令中携带使所述特殊数据分区强制离线的标识。

结合第一方面，或者结合第一方面的上述任何一种可能的实现方式，在第一方面的第四种可能的实现方式中，所述将所述特殊数据分区设置为离线模式具体包括：数据管理设备对所述特殊数据分区执行离线命令，将所述离线命令中的权限字段设置为“0”或“1”，使所述特殊数据分区强制离线。

结合第一方面，或者结合第一方面的上述任何一种可能的实现方式，在第一方面的第五种可能的实现方式中，在所述将所述特殊数据分区设置为离线模式后，若数据管理设备需要查询所述特殊数据分区中的冷数据片段，所述数据管理设备将所述特殊数据分区由离线模式设置为在线模式，以使所述特殊数据分区中的冷数据片段能够被访问。

结合第一方面，或者结合第一方面的上述任何一种可能的实现方式，在第一方面的第六种可能的实现方式中，在所述将所述特殊数据分区由离线模式设置为在线模式之后，所述数据管理设备将所述特殊数据分区从所述第二存储设备迁移到所述第一存储设备中。

根据本发明实施例的第二方面，提供了一种数据管理设备，该设备包括：获知模块，用于获知冷数据片段在第一存储设备中所在的数据分区，数据片段是组成数据分区的基本单位；所述冷数据片段为访问频率小于预设阈值的数据片段；确定模块，用于在所述冷数据片段所在的数据分区中确定出特殊数据分区，所述特殊数据分区包含的数据片段全部为冷数据片段；迁移模块，用于将所述特殊数据分区从所述第一存储设备迁移到第二存储设备，所述第一存储设备的数据处理能力强于所述第二存储设备；设置模块，用于将所述迁移模块迁移到所述第二存储设备中的特殊数据分区设置为离线模式，以使所述特殊数据分区中的冷数据片段不被访问。

结合第二方面，在第二方面的第一种可能的实现方式中，所述确定模块包括分组单元和分离单元；目标数据分区中存在M个冷数据片段；所述分组单元用于将所述M个冷数据片段分为N个冷数据片段组，M为大于0的整数，N为大于0的整数，且M大于等于N；所述分离单元用于将所述分组单元分得的N个冷数据片段组从所述目标数据分区中分离出来，形成N个新的数据分区，每一个冷数据片段组对应一个新的数据分区，每一个新的数据分区都是所述特殊数据分区。

结合第二方面，在第二方面的第二种可能的实现方式中，所述分组单元具体用于按照冷数据片段的数据类型、数据生成日期、创建者或名称中的一个或者多个，将所述M个冷数据片段分为N个冷数据片段组。

结合第二方面，或者结合第二方面的上述任何一种可能的实现方式，在第一方面的第三种可能的实现方式中，所述设置模块具体用于对所述特殊数据分区执行离线命令，所述离线命令中携带使所述特殊数据分区强制离线的标识。

结合第二方面，或者结合第二方面的上述任何一种可能的实现方式，在第一方面的第四种可能的实现方式中，所述设置模块具体用于对所述特殊数据分区执行离线命令，将所述离线命令中的权限字段设置为“0”或“1”，使所述特殊数据分区强制离线。

结合第二方面，或者结合第二方面的上述任何一种可能的实现方式，在第一方面的第五种可能的实现方式中，数据管理设备需要查询所述特殊数据分区中的冷数据片段时，所述设置模块还用于将所述特殊数据分区由离线模式设置为在线模式，以使所述特殊数据分区中的冷数据片段能够被访问。

结合第二方面，或者结合第二方面的上述任何一种可能的实现方式，在第一方面的第六种可能的实现方式中，所述所述设置模块用于将所述特殊数据分区由离线模式设置为在线模式之后，所述迁移模块还用于将所述特殊数据分区中的全部冷数据片段迁移到所述第一存储设备中。

根据本发明实施例的第三方面，提供了一种数据管理系统，上述系统包括：终端，数据管理设备；上述数据管理设备用于：获知冷数据片段在第一存储设备中所在的数据分区，数据片段是组成数据分区的基本单位；所述冷数据片段为访问频率小于预设阈值的数据片段；在所述冷数据片段所在的数据分区中确定出特殊数据分区，所述特殊数据分区包含的数据片段全部为冷数据片段；将所述特殊数据分区从所述第一存储设备迁移到第二存储设备，所述第一存储设备的数据处理能力强于所述第二存储设备；将所述特殊数据分区设置为离线模式，以使所述特殊数据分区中的冷数据片段不被访问；

所述终端用于向所述数据管理设备发送数据查询请求；

所述数据管理设备用于根据所述数据查询请求进行数据查询。

根据本发明实施例提供的技术方案，从冷数据片段所在的数据分区中确定出特殊数据分区，特殊数据分区包含的数据片段全部为冷数据片段，将特殊数据分区从数据处理能力强的热数据存储设备迁移到数据处理能力弱的冷数据存储设备；将特殊数据分区设置为离线模式，以使特殊数据分区中的冷数据片段不被访问，可以达到在计划内访问热数据时不会对冷数据片段意外访问的目的，进而避免了由此引发的查询响应时间延长和查询性能降低。本方案无需借助外部存储介质且无需进行手动转移冷数据片段，简化了复杂的操作流程；此外，将数据设置为离线模式，降低了系统的运行负荷，提高了系统运行效率。

附图说明

图1为本发明实施例中一种数据库管理系统中的数据层级图；

图2为本发明实施例中一种用户访问数据库的应用场景图；

图3为本发明实施例中一种数据管理方法的流程图；

图4为本发明实施例中一种分离出特殊数据分区的示意图；

图5为本发明实施例中一种分离出特殊数据分区的示意图；

图6为本发明实施例中一种寻找出特殊数据分区的示意图；

图7为本发明实施例中一种分离出特殊数据分区的示意图；

图8为本发明实施例中一种计划内访问热数据方法流程图；

图9为本发明实施例中一种计划内访问冷数据的方法流程图；

图10为本发明实施例中一种计划内快速访问冷数据的方法流程图；

图11为本发明实施例中一种数据管理设备的结构示意图；

图12为本发明实施例中一种数据管理设备中确定模块的结构示意图；

图13为本发明实施例中一种数据管理系统的示意图；

图14为本发明实施例中一种数据管理设备结构示意图。

具体实施方式

本发明实施例提供了一种数据管理的方法、设备与系统。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分优选实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例中一种数据库管理系统中的数据层级图。

数据库管理系统的数据库对象可以划分为表空间、表、索引层级，在数据库中，表空间与表的概念非常容易混淆。表空间是文件系统中的存储位置，可以用来存储数据库对象(比如表、索引等)的数据文件。建立表空间后，可以再创建数据库对象(比如表、索引等)。一个数据库中可以包括多个表空间，一个表空间中可以包含很多个表，表又包括分区表和非分区表，分区表中又包含有很多的分区。

数据库管理系统中所说的分区，是把大表和大索引切分成更小且更加容易管理的子区称为分区，分区的本质是分而治之，分区是将大表的数据分成称为分区的许多小的子集，是将表的逻辑属性和物理属性进行分离的结果。每个分区都共享表级的逻辑属性，如表定义，同时每个分区的都有自己的物理属性比如表的空间。数据库管理系统中可以保存多个数据库，数据库中用一个或多个表保存用户数据，索引是对表中用户数据按照某种方式(如：B树索引B-Tree/哈希hash等)建立索引项，方便对表中数据的查找。如果表中的数据量很大，可以采取分区表的方式，指定表的一列或多列作为分区键，表中数据按照分区键的范围要求，进入各个分区中，表空间建立在设备目录上，作为承载表、索引和分区的容器。每个分区中包含若干个片段，片段是组成分区的基本单位。以下本发明实施例中将热数据所在的片段称为热数据片段，将冷数据所在的片段称为冷数据片段。

在数据管理设备和数据中心的庞大数据中，根据数据的访问频度给数据打上不同的数据热度标签：一些数据经常被系统实时使用，称为热数据；另外一些数据则很少、甚至有可能永远不被系统使用，称为冷数据。通过数据库管理系统提供的冷数据检测框架，用户可以自定义冷数据检测的策略，例如数据片段的在一个小时内的访问次数小于100次，则该数据文件段被认为是冷数据文件段。

请参阅图2，图2为本发明实施例中用户访问数据库的应用场景图。

其中分区1、2都是热数据，分区3中为冷数据。热数据由于当前一段时间会常常被用户访问，因此为了增加响应速度，数据库管理体系中的热数据通常存储在快速的存储设备(也称为热数据存储设备、快设备)中，而冷数据由于长时间不会被访问，为了节省资源和功耗，可以将冷数据存放在慢速的存储设备(也称为冷数据存储设备、慢设备)中，所谓慢速的存储设备是指相对快速的存储设备来说数据处理能力较弱，例如数据的传输速度和处理速度较低，硬件本身的配置和性能较低，成本也较为低廉；如此一来，一方面不占用优良设备，一方面能够对信息永久保留，现实中一种常见的冷热数据区分方法，可以按照时间先后生成，并由此区分出了冷热数据之分的数据模型，一般采取分区表的形式管理，即新数据、热数据在新分区，老数据、冷数据在旧分区。

由于热数据都存在于快的存储设备，冷数据存在于慢的存储设备，因此就会带来一个问题，如果用户想按照自己的访问计划访问分区1、2中的热数据时，但最终访问数据库的时候由于一些特殊因素意外访问了分区3中的冷数据，那么整个访问结果的返回速度就是冷数据的响应速度，这种情形下，很明显给用户带来不好的访问体验。

本发明的实施例就是建立在分区表中的分区级别，通过建立冷数据的分区离线模式，避免计划内访问热数据时意外访问冷数据，为解决这一问题本发明提供了一种数据管理的方法、设备与系统。

请参阅图3，图3为本发明实施例中一种数据管理方法的流程图。该方法包括：

S101：获知冷数据片段在第一存储设备中所在的数据分区。

数据片段是组成数据分区的基本单位，也是冷热数据检测的基本单位，一个数据分区的数据文件可以按照固定的大小(例如1GB)分成多个片段。热数据片段为访问频率大于或等于第一预设阈值的数据片段，冷数据片段为访问频率小于第二预设阈值的数据片段，其中第一预设阈值大于等于第二预设阈值。

在具体实现过程中，上述第一存储设备一般指热数据存储设备，可以根据访问频率检测到热数据存储设备中的热数据片段变为冷数据片段时，对冷数据片段添加标记，通过查看标记数据管理设备就可以获得冷数据片段所在的数据分区；此外冷数据片段和热数据片段可以由数据库管理员根据访问用户的需求来确定，也可以通过对数据访问情况的长期观察来确定。数据管理设备由专门的检测机制，如收到数据库管理员发来的请求，或者通过预先设置的定时信息，对数据进行冷热归类。

S102：在冷数据片段所在的数据分区中确定出特殊数据分区，特殊数据分区包含的数据片段全部为冷数据片段；。

S103：将特殊数据分区从第一存储设备迁移到第二存储设备，第一存储设备的数据处理能力强于第二存储设备。

S104：将特殊数据分区设置为离线模式，以使特殊数据分区中的冷数据片段不被访问。

由于冷数据片段在被归类为冷数据片段之前，本身属于热数据，而热数据片段大多存储在性能优良、响应速度快的存储设备中，因此为了节约资源同时达到留存数据的目的，因此要将冷数据片段迁移到性能相对较低、响应速度较慢的低成本存储设备中；冷数据片段放在慢速的存储设备中时，但在逻辑上仍然存在于原来的数据分区。

在具体实现过程中，离线操作这是将冷数据片段迁移到慢速存储设备后新增的一个步骤，即在完成S102之后，把特殊数据分区迁移至慢速的冷数据存储设备后，进一步地，把冷数据片段所在特殊数据分区设置为分区离线模式，将分区设置为离线模式的第一种实现形式是将特殊数据分区设置为离线模式具体包括：数据管理设备对特殊数据分区执行离线命令，离线命令中携带使特殊数据分区强制离线的标识；将分区设置为离线模式的第二种实现形式是数据管理设备对特殊数据分区执行离线命令，将离线命令中的权限字段设置为“0”或“1”，使特殊数据分区强制离线。

此外可以通过增加一个分区级的离线命令，可以采用设置分区离线的SQL(结构化查询语言)命令，例如：ALTER TABLE table_name OFFLINE partition_name；其中table_name表示分区所存储在的表的名字，partition_name表示分区的名字，可见该命令的设置是在分区层级上的，控制粒度比较小，不影响其他在线分区的使用，这样使冷数据片段所在的分区为离线模式，不会被用户直接访问。

在S102中，构建出特殊数据分区是数据管理的关键步骤，构建方法可以采用分离法、等待法、人工设定等方案，能够通过这三种方法构建或确定出来特殊分区的数据分区称为目标数据分区。

第一种方案，分离法：

1)当一个数据分区中存在至少一个冷数据片段和至少一个热数据片段时，将该数据分区中的至少一个冷数据片段分为N个冷数据片段组，该数据分区中的冷数据片段数大于等于N，N为大于0的整数，将N个冷数据片段组从数据分区中分离出来，形成N个新的数据分区，每一个冷数据片段组对应一个新的数据分区，N个新的数据分区作为特殊数据分区。

在具体实现过程中，每个冷数据片段组都至少包含一个冷数据片段，进行分组是由于一个数据分区中的数据文件段可能隶属于不同的数据分类范畴，可以按照冷数据片段的数据类型、数据生成日期、创建者或名称中的一个或者多个，将冷数据片段分为N个冷数据片段组。例如其中几个数据片段为6月份的业务统计数据，另外几个数据片段是7月份的业务统计数据；再如其中几个数据片段是部门A的数据，另外几个数据片段是部门B的数据。将片段进行一定程度的分组更有利于对数据的管理，尤其是后期的计划内访问特定冷数据的情形下，可以有效地节约查找和恢复为热数据的工作量。

具体例子可以参阅图4，图4为本发明实施例中一种分离出特殊数据分区的示意图；原数据分区P1中有s1-s8共8个数据片段，其中s1、s2为热数据片段，s3-s8为冷数据片段，按照数据的分类，s3、s4为一组，s5-s8为一组，且每一组的数据文件都很完整，此时就可以将s3、s4，s5-s8分离出来，形成两个新的特殊数据分区P1a、P1b，其余的两个热数据片段还保留在原来的数据分区P1中。

2)当一个数据分区中存在至少一个冷数据片段和至少一个热数据片段时，将该数据分区中的至少两个冷数据片段分为一个冷数据片段组，将一个冷数据片段组从数据分区中分离出来，形成一个过渡数据分区；将过渡数据分区中的全部冷数据片段分为N个冷数据片段组，过渡数据分区中的全部冷数据片段数量大于等于N，N为大于1的自然数，将N个冷数据片段组从过渡数据分区中分离出来，形成N个新的数据分区，每一个冷数据片段组对应一个分区，将N个新的数据分区作为特殊数据分区。

具体例子可以参阅图5，图5为本发明实施例中一种分离出特殊数据分区的示意图；原数据分区P1中有s1-s8共8个数据片段，其中s1、s2为热数据片段，s3-s8为冷数据片段，此时先将s3-s8片段分离出来形成一个过渡的数据分区P1a，其余的两个热数据片段还保留在原来的数据分区P1中；接下来按照数据的分类，s3、s4为一组，s5-s8为一组，且每一组的数据文件都很完整，此时就可以将s3、s4，s5-s8分离出来，形成两个新的特殊数据分区P1aa、P1ab。

第二种方案，等待法：

1)等待一个数据分区中所有的热数据片段全部变为冷数据片段后，将该数据分区作为一个特殊数据分区。其中该数据分区中的热数据片段可以是在一段时间内，由于访问频率下降，但访问频率各不相同，不同的热数据片段逐个被标记为冷数据片段；也可以是在某一个时刻，由于访问频率下降且访问频率相同，所有的热数据片段一同被标记为冷数据片段。

具体例子可以参阅图6，图6为本发明实施例中一种寻找出特殊数据分区的示意图。原数据分区P1中有s1-s8共8个数据片段，其中s1-s8全部为热数据片段；后来s1-s8可能同时全部变为了冷数据片段，或者可能s1-s4先变成了冷数据片段，过一段时间后s5-s8也变为了冷数据片段。在该种等待方法中，s1-s8通常归类为同一个数据范畴。

2)等待一个数据分区中所有的热数据片段全部变为冷数据片段后，采用分离法，将该数据分区中的全部冷数据片段分为N个冷数据片段组，N为大于1的自然数，将N个冷数据片段组从该数据分区中分离出来，从原来的一个数据分区变为N个新的数据分区，每一个冷数据片段组对应一个新的数据分区，将N个新的数据分区作为特殊数据分区。

具体例子可以参阅图7，图7为本发明实施例中一种分离出特殊数据分区的示意图；原数据分区P1中有s1-s8共8个数据片段，后来s1-s8可能全部变为了冷数据片段，其中根据数据分类，s1-s4、s5-s8各组成一组数据，将其分离开来，形成两个新的特殊数据分区P1a、P1b。

第三种方案，人工设定法，此种方法需要人工进行干预和设定，这是为了实现数据管理个性化的需求特殊指定的，此种情形下，冷热数据的判定不再以访问频率为准，而是以一种人工定义的方式进行冷热数据的区分，当人为地将热数据片段变为冷数据片段时，通常都是大片地设定，并且会参照一些数据库管理的特殊策略，可能会涉及到访问数据的加密或隐私，不想让某些数据在一定的时间内被访问到，就可以进行人工设置为分区离线，这种方式往往将多个分区的热数据片段全部变为冷数据片段，并且将冷数据片段迁移到冷数据存储设备后，直接变为离线模式。

在采用以上策略构建出特殊数据分区之后，通过S104将特殊数据分区设置为离线模式之后，用户可能会面临4种访问情形，简述如下：

A.按照访问计划，访问范围为热数据片段，但由于用户的搜索范围过宽或输入失误，导致用户访问范围意外变大，使得用户最终访问的数据超出了访问计划，意外包含了局部的冷数据片段；

B.按照访问计划，访问范围为冷数据片段，且最终访问的数据不超出访问计划；

C.按照访问计划，访问范围为热数据片段，且最终访问的数据不超出访问计划；

D.按照访问计划，访问范围为冷数据片段，但由于用户的搜索范围过宽或输入失误，导致用户访问范围意外变大，使得用户最终访问的数据超出了访问计划，意外包含了局部的热数据片段。

其中C情况是相当常见的访问场景，D情况对用户来说也不会带来任何影响访问的因素，因此下文仅讨论A、B两种情形下，本发明是如何具体实现的。

A情形：首先，用户会有自己的一个访问热数据计划，用户按照访问计划在应用程序中输入查询条件进行搜索查找，应用程序在底层生成相应的语句，将底层语句发送给数据库，在数据库中进行数据匹配；但是由于用户的输入查询范围过宽或输入失误，可能在搜索的过程中，在数据库中匹配到了冷数据片段，在该种情形下请参照图8，图8为本发明实施例中一种计划内访问热数据方法流程图。

S201：数据管理设备根据用户的查询条件，进行剪枝。

分区剪枝是指：针对分区表来说，所有数据库都有的一个优化器，针对用户查询生成最适合的查询计划，与之对应的还有执行器，可以从FROM和WHERE子句中根据分区键去除无需扫描的分区，提取出需要扫描的分区，这个过程称为分区剪枝。分区剪枝的好处是避免全表扫描，减少扫描数据块，缩短运行时间，提高查询性能。

S202：在剪枝后的分区中，过滤掉处于离线模式的数据分区。

由于在上述S104中，冷数据片段所在的特殊数据分区已经设置为离线模式，因此数据库在剪枝后的分区中能够过滤掉离线模式的分区，执行S203。

S203：遍历查询所有剪枝后的在线分区。

由于上述S103、S104的操作，冷数据片段在离线模式不可访问，热数据片段都在在线分区中，因此遍历在线分区，只能查询到热数据片段，有效地避免了查询热数据时意外查询到冷数据而导致整个响应速度变慢。

S204：返回查询结果。

当完成了热数据的匹配后，数据库再通过应用程序将用户所要访问的热数据返回给用户。

本发明实施例中查询数据时仅仅只显示热数据部分，要么在显示结果中进行提示，提示用户访问内容部分为冷数据，可查验是否查询错误疑惑将其变为热数据，如果用户确实有意地访问了冷数据要么可以进行提前的设置，参见下面的B情形。

B情形：首先，用户会有自己的一个访问冷数据计划，用户按照访问计划在应用程序中输入查询条件进行搜索查找，应用程序在底层生成相应的语句，将底层语句发送给数据库，在数据库中进行数据匹配；若数据管理设备需要查询所述特殊数据分区中的冷数据片段，则数据管理设备将特殊数据分区由离线模式设置为在线模式，以使特殊数据分区中的冷数据片段能够被访问。具体情形请参照图9，图9为本发明实施例中一种计划内访问冷数据的方法流程图。

S301：查看离线模式分区的视图。

通过此步骤可以对整个数据库中的每一个分区的在线离线模式有清晰的掌握，尤其是掌握需要查询的冷数据片段所在的离线模式分区。

S302：将要查询的离线数据分区设置为在线模式。

根据用户的查询冷数据需求，首先根据应用程序的相应底层语句，确定冷数据所在的分区，锁定分区后，将离线模式变为在线模式。可以通过设置分区在线的SQL(结构化查询语言)命令，例如：ALTER TABLE table_name ONLINE partition_name；其中table_name表示表的名字，partition_name表示分区的名字，可见该命令的设置是在分区层级上的，控制粒度比较小，可以仅仅将要查询的冷数据片段所在的分区变为在线模式，从而不影响其他离线分区的使用。

S303：对在线模式分区的冷数据片段进行访问。

当冷数据所在的分区由离线模式变为在线模式时，用户就可以在冷数据存储设备上访问冷数据片段。

但是若访问的冷数据量比较大，或者由于一些特殊原因，一些冷数据在当前一段时间内又要变成热数据，例如一个教授的讲座一夜爆火，那么他之前在学校网站上连载的点击量不高的博文很可能突然成为互联网用户的搜索热点；在该种情形下，数据管理设备将特殊数据分区设置为在线模式后，将该分区迁移到热数据存储设备中，使所述冷数据片段变为热数据片段请参照图10，图10为本发明实施例中一种计划内快速访问冷数据的方法流程图。

S401：同S301。

S402：同S302。

S403：将上述在线模式的特殊数据分区迁移到热数据的存储设备中。

此过程可以认为是冷数据片段向热数据片段的一个转变，由于用户将要大量访问或者当下会频繁使用，因此为了提高用户的访问速度，将冷数据片段迁移到速度更快的热数据存储区域。

S404：对热数据存储设备中的原冷数据片段进行访问。

此时搬移到热数据存储设备中的原冷数据片段实际上已经转换成了热数据片段，因此此后的访问方式与计划内热数据的访问方式相同，直到该部分数据再度变为冷数据片段，则执行S101-S104的步骤重新对冷数据进行管理。

由此可见，冷数据的处理是可以根据用户的需求灵活转变的，用户可以组合地运用上述S101-S104、S201-S204、S301-S303、S401-S404中的方法。例如若用户并非失误地选择了过宽的范围，确实要访问的数据既包含了热数据片段也包含了冷数据片段，此时访问热数据就可以按照正常的流程进行访问，而对于访问冷数据部分数据管理设备会返回给用户一个提示框，使用户可以选择性S301-S303或者S401-S404中方法。

在具体实现过程中，用来存储冷热数据片段的存储设备包括硬盘，硬盘根据硬盘接口不同可以划分为：IDE集成驱动电子设备、串行集成电路SATA、小型机系统接口SCSI、串列小型机系统接口SAS磁盘。

本发明实施例提供的技术方案，从冷数据片段所在的数据分区中确定出特殊数据分区，特殊数据分区包含的数据片段全部为冷数据片段，将特殊数据分区从数据处理能力强的存储设备迁移到数据处理能力弱的存储设备；将特殊数据分区设置为离线模式，以使特殊数据分区中的冷数据片段不被访问。无需借助外部存储介质，无需进行手动转移冷数据片段，也不需要复杂的操作流程，就可以达到在计划内访问热数据时不会对冷数据片段意外访问的目的，进而避免了由此引发的查询响应时间延长和查询性能降低，不仅降低了系统的运行负荷，提高了系统运行效率，避免了由此引发的查询响应时间延长和查询性能降低；为用户节约了大量的时间，同时也增加了用户的体验。

请参阅图11，图11为本发明实施例中一种数据管理设备的结构示意图，该设备500包括：

获得模块501，用于获知冷数据片段在第一存储设备中所在的数据分区。

数据片段是组成数据分区的基本单位；冷数据片段为访问频率小于预设阈值的数据片段；其中，数据片段是组成数据分区的基本单位；热数据片段为访问频率大于或等于第一预设阈值的数据片段，冷数据片段为访问频率小于第二预设阈值的数据片段；第一预设阈值大于或等于第二预设阈值。

在具体实现过程中，数据管理设备可以根据访问频率检测到热数据存储设备中的热数据片段变为冷数据片段时，对冷数据片段添加标记。添加标记可以通过设置对应数据片段头码中的字段的状态位，如收到数据库管理员发来的请求，或者通过预先设置的定时信息，或者根据一定的访问规则对数据进行冷热归类。

确定模块502，用于在获得模块501获得的冷数据片段所在的数据分区中确定出特殊数据分区，特殊数据分区包含的数据片段全部为冷数据片段。

迁移模块503，用于将特殊数据分区从第一存储设备迁移到第二存储设备，第一存储设备的数据处理能力强于第二存储设备。

通常第一存储设备为热数据存储设备，第二存储设备为冷数据存储设备。

设置模块504，用于将迁移模块迁移到第二存储设备中的特殊数据分区设置为离线模式，以使特殊数据分区中的冷数据片段不被访问。

在一个数据管理设备中，存在有很多的存储设备，其中硬盘是比较常用的存储设备，用于评价速度快慢的指标包括硬盘的转速、数据传输速率、数据处理速度等等。冷数据存储设备相对热数据存储设备来说，转速较低、数据传输速度较低、存储空间较小、成本较低。

在具体实现过程中，确定模块502可以包含：检测单元5021、分组单元5022、分离单元5023；请参阅图12，图12为本发明实施例中一种数据管理设备中确定模块的结构示意图。

以一种构建特殊数据分区的方式为例，当检测单元5021检测到一个数据分区中所有的热数据片段全部变为冷数据片段时，就查找到了特殊的数据分区。

在一种实现方式中，分组单元5022用于将M个冷数据片段分为N个冷数据片段组，M为大于0的整数，N为大于0的整数，且M大于等于N；分离单元5023用于将分组单元5022分得的N个冷数据片段组从目标数据分区中分离出来，形成N个新的数据分区，每一个冷数据片段组对应一个新的数据分区，每一个新的数据分区都是特殊数据分区，可以由检测单元5021检测出来。

在另一种实现方式中，当检测单元5021检测到一个数据分区中还存在热数据片段时，分组单元5022将数据分区中的至少一个冷数据片段分为N个冷数据片段组，该数据分区中的冷数据片段数量大于N，N为自然数，分组单元5022具体用于按照冷数据片段的数据类型、数据生成日期、创建者或名称中的一个或者多个进行分组；分离单元5023将分组单元5022分得的N个冷数据片段组从数据分区中分离出来，形成N个新的数据分区，每一个冷数据片段组对应一个新的数据分区，每一个新的数据分区都是特殊数据分区，可以由检测单元5021检测出来。

在具体实现过程中，设置模块504可以通过设置分区离线使能命令将上述冷数据片段所在的冷数据存储设备中的分区设置为离线模式。这是相对传统的数据管理设备中新增的一个模块，在以往的数据管理过程中，在迁移模块完成迁移之后就没有任何操作了。

设置模块504可以对特殊数据分区执行离线命令，离线命令中携带使特殊数据分区强制离线的标识。设置模块504还可以对特殊数据分区执行离线命令，将离线命令中的权限字段设置为“0”或“1”，使特殊数据分区强制离线。该设置模块504还可以通过设置分区级的离线命令，例如采用设置分区离线的SQL(结构化查询语言)命令，仅将上述冷数据片段所在的特殊数据分区设置为离线，使得用户无法直接访问该离线模式的分区以及该分区中的数据片段。

此外，设备500还包括查询模块505、剪枝模块506、过滤模块507和视图模块508，查询模块505用于查询热数据片段或冷数据片段。综合上一实施例提到的A、B、C、D四种情形的论述，我们只考虑A、B情形。

A情形：用户按照热数据访问计划在应用程序中输入查询条件进行搜索查找，应用程序在底层生成相应的语句，将底层语句发送给数据库，在数据库中进行数据匹配；但是由于用户的输入查询范围过宽或输入失误，可能在搜索的过程中，在数据库中匹配到了冷数据。

该情形下，剪枝模块506用于针对用户查询生成最适合的查询计划，去除无需扫描的分区，提取出需要扫描的分区；过滤模块507用于在剪枝后的分区中，过滤掉处于离线模式的分区，使查询模块505只针对在线状态的热数据片段进行查询，避免了查询热数据片段时意外查询到冷数据片段而导致整个响应速度变慢。当完成了热数据的匹配后，应用程序将用户所要访问的热数据片段中的相关数据文件返回给用户。

B情形：用户按照冷数据访问计划在应用程序中输入查询条件进行搜索查找，应用程序在底层生成相应的语句，将底层语句发送给数据库，在数据库中进行数据匹配。

该情形下，视图模块508用于查看离线模式分区的视图，可以呈现出每一个分区的在线和离线模式，尤其是掌握所要查询的冷数据片段所在的离线模式分区；上述设置模块504将要访问的冷数据片段所在的分区由离线模式设置成在线模式，接下来查询模块505可以对在线模式模式中的冷数据进行查询。

若访问的冷数据量比较大，或者由于一些特殊原因，一些冷数据片段需要再当前一段时间内成为热数据片段，此时上述设置模块504将需要访问的冷数据片段所在的分区由离线模式设置成在线模式后，上述迁移模块503还用于将冷数据片段所在的特殊数据分区从慢速的冷数据存储设备中迁移到快速的热数据存储设备中，因此用户访问该部分的数据时可以以访问热数据的方式进行，提高用户的访问速度。

本发明实施例提供了一种数据管理设备，通过从冷数据片段所在的数据分区中确定出特殊数据分区，特殊数据分区包含的数据片段全部为冷数据片段，将特殊数据分区从数据处理能力强的存储设备迁移到数据处理能力弱的存储设备；将特殊数据分区设置为离线模式，以使特殊数据分区中的冷数据片段不被访问。无需借助外部存储介质，无需进行手动转移冷数据片段，也不需要复杂的操作流程，就可以达到在计划内访问热数据时不会对冷数据片段意外访问的目的，进而避免了由此引发的查询响应时间延长和查询性能降低；为用户节约了大量的时间，同时也增加了用户的体验。此外，将数据设置为离线模式，降低了系统的运行负荷，提高了系统运行效率；在意向计划内查询冷数据片段时，可以恢复特殊数据分区为在线方式，根据访问需求在慢速的冷数据存储设备上进行慢速访问，或将特殊数据分区迁移快速的热数据存储设备上进行快速访问，实现了用户的个性化需求。

请参阅图13，图13为本发明实施例中一种数据管理系统的示意图，该系统600包括：

数据管理设备601，获知冷数据片段在第一存储设备中所在的数据分区，数据片段是组成数据分区的基本单位；冷数据片段为访问频率小于预设阈值的数据片段；在冷数据片段所在的数据分区中确定出特殊数据分区，特殊数据分区包含的数据片段全部为冷数据片段；将特殊数据分区从所述第一存储设备迁移到第二存储设备，第一存储设备的数据处理能力强于第二存储设备；将特殊数据分区设置为离线模式，以使特殊数据分区中的冷数据片段不被访问；

终端602，用于向数据管理设备发送数据查询请求；

数据管理设备601用于根据该数据查询请求进行数据查询。

一般来说，应用的使用人员或者开发人员都可以持有终端，对于用户的查询搜索，终端中的应用程序将用户输入的查询条件转换为底层代码，发送给数据管理设备，根据用户的查询需求可以分为热数据查询和冷数据查询。例如某公司的财务报表，今年的所有数据可以作为热数据，而去年以及以前的数据由于应用很少，因此可以作为冷数据。

当用户通过终端向数据管理设备发送数据查询请求为热数据查询请求，且查询范围包含了冷数据片段时，数据管理设备601用于对上述冷数据片段所在的分区之外的查询范围执行遍历查询，只针对热数据片段所在的分区进行查询，匹配数据。

当上述访问终端向数据管理设备发送数据查询请求为冷数据查询请求时，数据管理设备601用于将冷数据所在的特殊数据分区由离线模式设置成在线模式。如果访问冷数据时间很短或信息量很少，则数据管理设备601可以直接在冷数据片段所在的冷数据存储区上进行访问；如果冷数据要被大量或者长期访问，那么可以将上述冷数据片段搬移到热数据存储设备中，供用户进行快速的查询访问。

本发明实施例提供了一种数据管理系统，该系统通过数据管理设备从冷数据片段所在的数据分区中确定出特殊数据分区，特殊数据分区包含的数据片段全部为冷数据片段，将特殊数据分区从数据处理能力强的存储设备迁移到数据处理能力弱的存储设备；将特殊数据分区设置为离线模式，以使特殊数据分区中的冷数据片段不被访问。无需借助外部存储介质，无需进行手动转移冷数据片段，也不需要复杂的操作流程，就可以达到在计划内访问热数据时不会对冷数据片段意外访问的目的，进而避免了由此引发的查询响应时间延长和查询性能降低；此外，将数据设置为离线模式，降低了系统的运行负荷，提高了系统运行效率；用户采用本发明的技术方案能够将查询热数据意外访问冷数据的查询用时由数十秒提升为秒级甚至微秒级别，为用户节约了大量的时间，同时也增加了用户的体验。还可以让用户根据自己的意向选择如何访问冷数据，在提高查询性能的同时满足用户的需求。

请参阅图14，图14为本发明实施例中一种数据管理设备结构示意图。该设备700包括：

处理器701，用于产生相应的操作控制信号，发给计算处理设备相应的部件，读取以及处理软件中的数据，尤其是读取和处理存储器702中的数据和程序，以使其中的各个功能模块执行相应的功能，从而控制相应的部件按指令的要求进行动作。

存储器702，用于存储程序和各种数据，主要存储操作系统、应用程序和功能指令等软件单元、或者他们的子集、或者他们的扩展集。操作系统包括各种系统程序如windows系列等，用于实现各种基础业务以及处理基于硬件的任务器，还可以包括非易失性随机存取存储器(NVRAM)，向处理器701提供包括管理计算处理设备中的硬件、软件及数据资源，支持控制软件和应用程序的运行。

收发器703，用于采集、获取或发送信息，可以在不同的单元或模块之间用来传递信息。

上述各个硬件单元可以通过总线连接进行通信。

如此一来，通过调用存储器702存储的程序或指令，处理器701能够根据存储器702中存储的冷热数据划分标准，当出现冷数据片段时，对冷数据片段的文件头添加标记；处理器701根据上述标记构建出包含数据片段全部为冷数据片段的特殊数据分区；一旦出现特殊数据分区，处理器701能够根据这些标记获知冷数据片段在第一存储设备中所在的数据分区，处理器701在冷数据片段所在的数据分区中确定出特殊数据分区，其中特殊数据分区包含的数据片段全部为冷数据片段；处理器701将特殊数据分区从存储器702中的快速存储部分迁移到存储器702中慢速存储部分中；处理器701设置分区离线使能命令，将存储器702中慢速存储部分中的特殊数据分区设置为离线模式。

当收发器703接收到用户的热数据查询请求时，处理器701将根据用户需求先进行分区剪枝，锁定待查找分区从中过滤掉所有处于离线模式的特殊数据分区，只对热数据片段所在的分区进行查询，收发器703将查询到的匹配数据发送给终端。

当收发器703接收到用户的冷数据查询请求时，收发器703首先会返回用户提示信息“查询范围为冷数据”，若收发器703接收到用户的确认信息后，将处于离线模式的特殊数据分区设置成为在线状态，并对该分区的冷数据片段进行查询，收发器703将查询到的匹配数据发送给用户终端；若收发器703接收到用户的“冷数据变为热数据”的请求时，处理器701将处于离线模式的特殊数据分区设置成为在线状态，并将特殊数据分区从存储器702中的慢速存储部分迁移到快速存储部分中，在对该快速存储部分中对原冷数据片段(新的热数据片段)进行查询，收发器703将查询到的匹配数据发送给终端。

本领域普通技术人员可知，上述方法中的全部或部分步骤可以通过程序指令相关的硬件完成，该程序可以存储于一计算机可读存储介质中。通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可以用硬件实现，或固件实现，或它们的组合方式来实现。

以上仅为本发明技术方案的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种数据管理方法，其特征在于，所述方法包括：

获知冷数据片段在第一存储设备中所在的数据分区，数据片段是组成数据分区的基本单位；所述冷数据片段为访问频率小于预设阈值的数据片段；

在所述冷数据片段所在的数据分区中确定出特殊数据分区，所述特殊数据分区包含的数据片段全部为冷数据片段；

将所述特殊数据分区从所述第一存储设备迁移到第二存储设备，所述第一存储设备的数据处理能力强于所述第二存储设备；

将所述第二存储设备中的特殊数据分区设置为离线模式，以使所述特殊数据分区中的冷数据片段不被访问。

2.如权利要求1所述方法，其特征在于，所述在所述冷数据片段所在的数据分区中确定出特殊数据分区包括：

将目标数据分区中包含的M个冷数据片段分为N个冷数据片段组，M为大于0的整数，N为大于0的整数，且M大于等于N；

将所述N个冷数据片段组从所述目标数据分区中分离出来，形成N个新的数据分区，每一个冷数据片段组对应一个新的数据分区，每一个新的数据分区都是所述特殊数据分区。

3.如权利要求2所述方法，其特征在于，所述将目标数据分区中包含的M个冷数据片段分为N个冷数据片段组具体包括：

按照所述M个冷数据片段的数据类型、数据生成日期、创建者或名称中的一个或者多个，将所述M个冷数据片段分为N个冷数据片段组。

4.如权利要求1-3任一项所述方法，其特征在于，所述将所述第二存储设备中的特殊数据分区设置为离线模式具体包括：对所述第二存储设备中的特殊数据分区执行离线命令，所述离线命令中携带使所述特殊数据分区强制离线的标识。

5.如权利要求1-3任一项所述方法，其特征在于，所述将所述第二存储设备中的特殊数据分区设置为离线模式具体包括：对所述第二存储设备中的特殊数据分区执行离线命令，将所述离线命令中的权限字段设置为“0”或“1”，使所述特殊数据分区强制离线。

6.如权利要求1-3任一项所述方法，其特征在于，在所述将所述第二存储设备中的特殊数据分区设置为离线模式后，所述方法还包括：若需要查询所述特殊数据分区中的冷数据片段，将所述第二存储设备中的特殊数据分区由离线模式设置为在线模式，以使所述特殊数据分区中的冷数据片段能够被访问。

7.如权利要求6所述方法，其特征在于，在所述将所述第二存储设备中的特殊数据分区由离线模式设置为在线模式之后，所述方法还包括：所述数据管理设备将所述特殊数据分区从所述第二存储设备迁移到所述第一存储设备中。

8.一种数据管理设备，其特征在于，所述设备包括：

获知模块，用于获知冷数据片段在第一存储设备中所在的数据分区，数据片段是组成数据分区的基本单位；所述冷数据片段为访问频率小于预设阈值的数据片段；

确定模块，用于在所述冷数据片段所在的数据分区中确定出特殊数据分区，所述特殊数据分区包含的数据片段全部为冷数据片段；

迁移模块，用于将所述特殊数据分区从所述第一存储设备迁移到第二存储设备，所述第一存储设备的数据处理能力强于所述第二存储设备；

设置模块，用于将所述迁移模块迁移到所述第二存储设备中的特殊数据分区设置为离线模式，以使所述特殊数据分区中的冷数据片段不被访问。

9.如权利要求8所述设备，其特征在于，所述确定模块包括分组单元和分离单元；目标数据分区中存在M个冷数据片段；

所述分组单元用于将所述M个冷数据片段分为N个冷数据片段组，M为大于0的整数，N为大于0的整数，且M大于等于N；

所述分离单元用于将所述分组单元分得的N个冷数据片段组从所述目标数据分区中分离出来，形成N个新的数据分区，每一个冷数据片段组对应一个新的数据分区，每一个新的数据分区都是所述特殊数据分区。

10.如权利要求9所述设备，其特征在于，所述分组单元具体用于按照冷数据片段的数据类型、数据生成日期、创建者或名称中的一个或者多个，将所述M个冷数据片段分为N个冷数据片段组。

11.如权利要求8-10任一项所述设备，其特征在于，所述设置模块具体用于对所述特殊数据分区执行离线命令，所述离线命令中携带使所述特殊数据分区强制离线的标识。

12.如权利要求8-10任一项所述设备，其特征在于，所述设置模块具体用于对所述特殊数据分区执行离线命令，将所述离线命令中的权限字段设置为“0”或“1”，使所述特殊数据分区强制离线。

13.如权利要求8-10任一项所述设备，其特征在于，数据管理设备需要查询所述特殊数据分区中的冷数据片段时，所述设置模块还用于将所述特殊数据分区由离线模式设置为在线模式，以使所述特殊数据分区中的冷数据片段能够被访问。

14.如权利要求13所述设备，其特征在于，所述所述设置模块用于将所述特殊数据分区由离线模式设置为在线模式之后，所述迁移模块还用于将所述特殊数据分区中的全部冷数据片段迁移到所述第一存储设备中。

15.一种数据管理系统，其特征在于，所述系统包括：

终端，数据管理设备；

所述数据管理设备用于：

将所述特殊数据分区设置为离线模式，以使所述特殊数据分区中的冷数据片段不被访问；

所述终端用于向所述数据管理设备发送数据查询请求；