CN109977078A

CN109977078A - 一种数据的处理方法、装置、计算机设备和存储介质

Info

Publication number: CN109977078A
Application number: CN201910230878.7A
Authority: CN
Inventors: 黄全; 陈勇华
Original assignee: Guangzhou Li Zhi Network Technology Co Ltd
Current assignee: Guangzhou Li Zhi Network Technology Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-05
Anticipated expiration: 2039-03-26
Also published as: CN111459884A; CN109977078B; CN111459884B; CN111459885A; CN111459885B

Abstract

本发明实施例提供了一种数据的处理方法、装置、计算机设备和存储介质，一文件划分至少两个逻辑分区，所述至少两个逻辑分区独立映射至内存，所述至少两个逻辑分区具有索引文件，所述方法包括：接收待存储的数据；遍历所述至少两个逻辑分区，以查找可存储所述数据的空闲块，所述空闲块为所述逻辑分区中未存储记录、且偏移量范围连续的区域；将所述数据存储至所述空闲块中，以生成新的记录；在所述索引文件中记录所述记录与所述记录在所述空闲块中所占用的偏移量范围之间的索引信息；将所述空闲块映射的偏移量范围更新为未被所述记录占用的偏移量范围。逻辑分区之间的操作互不影响，可灵活处理大文件的局部记录。

Description

一种数据的处理方法、装置、计算机设备和存储介质

技术领域

本发明涉及数据库技术领域，尤其涉及一种数据的处理方法、装置、计算机设备和存储介质。

背景技术

在当今互联网行业中，各种各样的数据越来越多，无论是使用MySQL(一个关系型数据库管理系统)、Oracle(一款关系数据库管理系统)等数据库存储数据，还是使用HDFS(Hadoop分布式文件系统)、Elasticsearch(一个基于Lucene的搜索服务器)等大数据产品存储数据，随着时间推移，某一类数据的存储量会越来越大，往往会出现单个文件体积非常大，达到几十GB(Gigabyte，吉咖字节)、上百GB甚至几TB(Terabyte，太字节)的情况。

对于文件的读写，目前通常是把整份文件加载到内存中再操作，但是对于几十GB、上百GB甚至TB级的超大文件，受限于内存大小的限制，不仅难以将整份文件加载到内存，即便将整份文件加载到内存中，占用资源过多，造成操作效率低。

发明内容

本发明实施例公开了一种数据的处理方法、装置、计算机设备和存储介质，以解决文件的体积大导致操作效率低的问题。

第一方面，本发明实施例提供了一种数据的处理方法，一文件划分至少两个逻辑分区，所述至少两个逻辑分区独立映射至内存，所述至少两个逻辑分区具有索引文件，所述方法包括：

接收待存储的数据；

遍历所述至少两个逻辑分区，以查找可存储所述数据的空闲块，所述空闲块为所述逻辑分区中未存储记录、且偏移量范围连续的区域；

将所述数据存储至所述空闲块中，以生成新的记录；

在所述索引文件中记录所述记录与所述记录在所述空闲块中所占用的偏移量范围之间的索引信息；

将所述空闲块映射的偏移量范围更新为未被所述记录占用的偏移量范围。

可选地，所述遍历所述至少两个逻辑分区，以查找可存储所述数据的空闲块，包括：

确定所述逻辑分区中最大的空闲块，作为基准块；

若所述数据的长度小于或等于所述基准块的大小，则确定所述逻辑分区中具有可存储所述数据的空闲块；

在所述逻辑分区中确定符合预设的存储条件的空闲块，其中，所述存储条件为所述空闲块的大小大于所述数据的长度，并且，所述空闲块的大小与所述数据的长度之间的差值最小；

若所述数据的长度大于所述基准块的大小，则确定所述逻辑分区中不具有可存储所述数据的空闲块。

可选地，所述索引文件为B+树数据结构，所述B+树数据结构包括叶子节点与非叶子节点，所述非叶子节点用于存储叶子节点的引用信息，所述叶子节点用于存储所述记录的索引信息。

可选地，还包括：

接收作用于一记录的更新操作；

根据所述更新操作，更新所述记录，以确定原记录与新记录，所述原记录为更新前的记录，所述新记录为更新后的记录；

若所述新记录的长度小于或等于所述原记录的长度，则在所述原记录所占用的偏移量范围内存储所述新记录；

在所述索引文件中记录所述新记录与所述新记录在所述原记录的偏移量范围内中所占用的偏移量范围之间的索引信息；

新增空闲块，所述空闲块映射至未被所述新记录占用的偏移量范围；

若所述新记录的长度大于所述原记录的长度，则遍历所述至少两个逻辑分区，以查找可存储所述新记录的空闲块；

将所述新记录存储至所述空闲块中；

在所述索引文件中记录所述新记录与所述新记录在所述空闲块中所占用的偏移量范围之间的索引信息；

将所述空闲块映射的偏移量范围更新为未被所述新记录占用的偏移量范围；

在所述索引文件中删除所述原记录与所述原记录所占用的偏移量范围之间的索引信息；

确定所述原记录所占用的偏移量范围产生新的空闲块。

可选地，所述遍历所述至少两个逻辑分区，以查找可存储所述新记录的空闲块，包括：

确定所述逻辑分区中最大的空闲块，作为基准块；

若所述新记录的长度小于或等于所述基准块的大小，则确定所述逻辑分区中具有可存储所述新记录的空闲块；

在所述逻辑分区中确定符合预设的存储条件的空闲块，其中，所述存储条件为所述空闲块的大小大于所述新记录的长度，并且，所述空闲块的大小与所述新记录的长度之间的差值最小；

若所述新记录的长度大于所述基准块的大小，则确定所述逻辑分区中不具有可存储所述数据的空闲块。

可选地，还包括：

接收作用于一记录的删除操作；

根据所述删除操作，在所述索引文件中删除所述记录与所述记录所占用的偏移量范围之间的索引信息；

确定所述偏移量范围产生新的空闲块。

可选地，还包括：

统计所述逻辑分区中空闲块的存储特征值；

若所述存储特征值符合预设的扩展条件，则对所述文件扩大偏移量范围；

对所述偏移量范围新增逻辑分区；

其中，所述存储特征值包括空闲块的大小的总值和/或特征空闲块的数量，所述特征空闲块的大小大于预设的第一阈值；

所述扩展条件包括所述总值小于预设的第二阈值和/或所述数量小于预设的第三阈值。

可选地，还包括：

将所述逻辑分区中的记录缓存至内存中；

将所述内存中的记录写入所述逻辑分区中，以使所述记录在所述逻辑分区中占用连续的偏移量范围；

在所述索引文件中记录所述记录、以及所述记录在所述逻辑分区中所占用的偏移量范围之间的索引信息；

确定所述逻辑分区中未存储所述记录的偏移量范围产生新的空闲块。

可选地，还包括：

确定第一分区与第二分区，所述第一分区为待迁入记录的逻辑分区，所述第二分区为待迁出记录的逻辑分区；

读取所述第二分区中的所有记录；

将所述记录写入所述第一分区的空闲块中；

在所述索引文件中更新所述记录、以及所述记录在所述空闲块中所占用的偏移量范围之间的索引信息；

确定目标偏移量范围产生新的空闲块，所述目标偏移量范围包含所述记录在所述第二分区中所占用的偏移量范围；

若位于所述逻辑分区未存储记录，则取消所述逻辑分区映射至内存；

在所述文件中缩小所述逻辑分区对应的偏移量范围，以取消所述逻辑分区。

可选地，还包括：

接收查询操作；

根据所述查询操作，在所述索引文件中确定待查询的记录所表达的偏移量范围；

在所述偏移量范围中读取所述记录。

第二方面，本发明实施例还提供了一种数据的处理装置，一文件划分至少两个逻辑分区，所述至少两个逻辑分区独立映射至内存，所述至少两个逻辑分区具有索引文件，所述装置包括：

数据接收模块，用于接收待存储的数据；

第一空闲块查找模块，用于遍历所述至少两个逻辑分区，以查找可存储所述数据的空闲块，所述空闲块为所述逻辑分区中未存储记录、且偏移量范围连续的区域；

数据存储模块，用于将所述数据存储至所述空闲块中，以生成新的记录；

第一索引信息记录模块，用于在所述索引文件中记录所述记录与所述记录在所述空闲块中所占用的偏移量范围之间的索引信息；

第一空闲块更新模块，用于将所述空闲块映射的偏移量范围更新为未被所述记录占用的偏移量范围。

可选地，所述第一空闲块查找模块包括：

第一基准块确定子模块，用于确定所述逻辑分区中最大的空闲块，作为基准块；

第一逻辑分区块确定子模块，用于若所述数据的长度小于或等于所述基准块的大小，则确定所述逻辑分区中具有可存储所述数据的空闲块；

第一存储条件确定子模块，用于在所述逻辑分区中确定符合预设的存储条件的空闲块，其中，所述存储条件为所述空闲块的大小大于所述数据的长度，并且，所述空闲块的大小与所述数据的长度之间的差值最小；

第二逻辑分区块确定子模块，用于若所述数据的长度大于所述基准块的大小，则确定所述逻辑分区中不具有可存储所述数据的空闲块。

可选地，还包括：

更新操作接收模块，用于接收作用于一记录的更新操作；

记录更新模块，用于根据所述更新操作，更新所述记录，以确定原记录与新记录，所述原记录为更新前的记录，所述新记录为更新后的记录；

第一新记录存储模块，用于若所述新记录的长度小于或等于所述原记录的长度，则在所述原记录所占用的偏移量范围内存储所述新记录；

第二索引信息记录模块，用于在所述索引文件中记录所述新记录与所述新记录在所述原记录的偏移量范围内中所占用的偏移量范围之间的索引信息；

空闲块新增模块，用于新增空闲块，所述空闲块映射至未被所述新记录占用的偏移量范围；

第二空闲块查找模块，用于若所述新记录的长度大于所述原记录的长度，则遍历所述至少两个逻辑分区，以查找可存储所述新记录的空闲块；

第二新记录存储模块，用于将所述新记录存储至所述空闲块中；

第三索引信息记录模块，用于在所述索引文件中记录所述新记录与所述新记录在所述空闲块中所占用的偏移量范围之间的索引信息；

第二空闲块更新模块，用于将所述空闲块映射的偏移量范围更新为未被所述新记录占用的偏移量范围；

第一索引信息删除模块，用于在所述索引文件中删除所述原记录与所述原记录所占用的偏移量范围之间的索引信息；

第一空闲块产生模块，用于确定所述原记录所占用的偏移量范围产生新的空闲块。

可选地，所述第二空闲块查找模块包括：

第二基准块确定子模块，用于确定所述逻辑分区中最大的空闲块，作为基准块；

第三逻辑分区块确定子模块，用于若所述新记录的长度小于或等于所述基准块的大小，则确定所述逻辑分区中具有可存储所述新记录的空闲块；

第二存储条件确定子模块，用于在所述逻辑分区中确定符合预设的存储条件的空闲块，其中，所述存储条件为所述空闲块的大小大于所述新记录的长度，并且，所述空闲块的大小与所述新记录的长度之间的差值最小；

第四逻辑分区块确定子模块，用于若所述新记录的长度大于所述基准块的大小，则确定所述逻辑分区中不具有可存储所述数据的空闲块。

可选地，还包括：

删除操作接收模块，用于接收作用于一记录的删除操作；

第二索引信息删除模块，用于根据所述删除操作，在所述索引文件中删除所述记录与所述记录所占用的偏移量范围之间的索引信息；

第二空闲块产生模块，用于确定所述偏移量范围产生新的空闲块。

可选地，还包括：

存储特征值统计模块，用于统计所述逻辑分区中空闲块的存储特征值；

文件扩大模块，用于若所述存储特征值符合预设的扩展条件，则对所述文件扩大偏移量范围；

逻辑分区新增模块，用于对所述偏移量范围新增逻辑分区；

可选地，还包括：

记录缓存模块，用于将所述逻辑分区中的记录缓存至内存中；

记录重写模块，用于将所述内存中的记录写入所述逻辑分区中，以使所述记录在所述逻辑分区中占用连续的偏移量范围；

第四索引信息记录模块，用于在所述索引文件中记录所述记录、以及所述记录在所述逻辑分区中所占用的偏移量范围之间的索引信息；

第三空闲块产生模块，用于确定所述逻辑分区中未存储所述记录的偏移量范围产生新的空闲块。

可选地，还包括：

迁移分区确定模块，用于确定第一分区与第二分区，所述第一分区为待迁入记录的逻辑分区，所述第二分区为待迁出记录的逻辑分区；

记录迁出模块，用于读取所述第二分区中的所有记录；

记录迁入模块，用于将所述记录写入所述第一分区的空闲块中；

索引信息更新模块，用于在所述索引文件中更新所述记录、以及所述记录在所述空闲块中所占用的偏移量范围之间的索引信息；

第四空闲块产生模块，用于确定目标偏移量范围产生新的空闲块，所述目标偏移量范围包含所述记录在所述第二分区中所占用的偏移量范围；

内存映射取消模块，用于若位于所述逻辑分区未存储记录，则取消所述逻辑分区映射至内存；

逻辑分区取消模块，用于在所述文件中缩小所述逻辑分区对应的偏移量范围，以取消所述逻辑分区。

可选地，还包括：

查询操作接收模块，用于接收查询操作；

偏移量范围查询模块，用于根据所述查询操作，在所述索引文件中确定待查询的记录所表达的偏移量范围；

记录读取模块，用于在所述偏移量范围中读取所述记录。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的数据的处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的数据的处理方法。

在本发明实施例中，将文件划分至少两个逻辑分区，每个逻辑分区独立映射至内存，可以独立操作该逻辑分区中的记录，而无需把整个文件加载入内存再操作，减少资源的占用，并且，逻辑分区之间的操作互不影响，可灵活处理大文件的局部记录。

此外，将逻辑区域中设置空闲块，可灵活选择空闲块添加数据，可减少数据的擦除等操作，提高数据的存储效率。

附图说明

图1为本发明实施例一提供的一种数据的处理方法的流程图；

图2为本发明实施例一提供的一种逻辑分区映射至内存的示意图；

图3为本发明实施例一提供的一种B+树数据结构的示例图；

图4为本发明实施例二提供的一种数据的处理方法的流程图；

图5为本发明实施例三提供的一种数据的处理方法的流程图；

图6为本发明实施例四提供的一种数据的处理方法的流程图；

图7为本发明实施例五提供的一种数据的处理方法的流程图；

图8A至图8E为本发明实施例五提供的一种分区碎片整理和分区压缩的示例图；

图9为本发明实施例六提供的一种数据的处理方法的流程图；

图10为本发明实施例七提供的一种数据的处理装置的结构示意图；

图11为本发明实施例八提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种数据的处理方法的流程图，本实施例可适用于在文件中增加记录的情况，该方法可以由数据的处理装置来执行，该数据的处理装置可以配置在计算机设备中，如服务器、工作站等，在该计算机设备的数据库中存储一文件，该文件用于存储与业务相关的记录，如网站日志等。

如图2所示，该文件可按照大小等方式划分至少两个逻辑分区，逻辑分区与逻辑分区之间的数据互不影响，每个逻辑分区偏移量范围。

例如，逻辑分区1的偏移量范围为0-1073741824，即0-1GByte，逻辑分区2的偏移量范围为1073741824-2147483648，即1GByte-2GByte。

至少两个逻辑分区采用内存映射文件(Memory Mapped File，MMF)独立映射至内存，从而操作逻辑分区里的记录。

内存映射文件，是由一个文件到进程地址空间的映射，应用程序在操作映射区域内的数据时，像操作本地数组一样，而不需要应用程序对文件执行I/O(input/output，输入端口/输出端口)操作，由系统负责把映射的记录同步到文件，因而效率高。

在本发明实施例中，在内存映射逻辑分区后，可以独立操作该逻辑分区中的记录，而无需把整个文件加载入内存再操作，逻辑分区之间的操作互不影响，包括对记录的增加、删除、修改、查询以及碎片整理等。

并且，划分大小和数量适当的逻辑分区，在碎片整理时效率会更高，并且多个逻辑分区可以同时进行碎片整理，互不影响，并发效率高。

一般而言，对单个内存映射区域的大小是有限制的，而采用划分为多个逻辑分区以及映射逻辑分区的操作方式，不但操作记录的效率更高，而且处理大文件的局部记录也更加灵活。

如图1所示，该方法具体包括如下步骤：

S101、接收待存储的数据。

应用程序根据业务需求产生新的数据，如生成新的网站日志，并将该新的数据写入数据库的文件中，以在该文件中存储该新的数据。

S102、遍历所述至少两个逻辑分区，以查找可存储所述数据的空闲块。

在本发明实施例中，空闲块为逻辑分区中未存储记录、且偏移量范围连续的区域，该空闲块可用于存储新的记录。

需要说明的是，所谓未存储记录，可以指未存储有数据，也可以指存储有数据，并且，该数据已经失效。

可选地，可针对每个逻辑分区设置一空闲块链表，在该空闲块链表中记录空闲块在该逻辑分区中的偏移量范围。

例如，在一个逻辑分区中，0-1024、3072-7168、8192-10534等偏移量范围存储有记录，此时，1024-3072，7168-8192等偏移量范围存在空闲块。

在接收到待存储的数据之后，可逐个逻辑分区检查空闲块链表，判断是否存在大小大于或等于该数据的长度的空闲块。

如果有，则预分配该空闲块，用于存储该数据，此时，修改该空闲块的状态为“预分配”。

在本发明的一种优选实施例中，S102包括如下步骤：

S1021、确定所述逻辑分区中最大的空闲块，作为基准块。

S1022、若所述数据的长度小于或等于所述基准块的大小，则确定所述逻辑分区中具有可存储所述数据的空闲块。

在空闲块链表中，可以根据业务情况对空闲块按照大小进行排序，因为空闲块链表中的空闲块是有序的，因此，可通过排序确定基准块。

例如，如果空闲块链表中的空闲块按照大小从小到大进行排序，则空闲块链表中最后一个空闲块为基准块。

在检查逻辑分区时，先比较数据的长度与基准块的大小。

如果数据的长度小于或等于基准块的大小，则确定逻辑分区中具有可存储数据的空闲块，继续从空闲块链表查找合适的空闲块。

S1023、在所述逻辑分区中确定符合预设的存储条件的空闲块。

其中，存储条件为空闲块的大小大于数据的长度，并且，空闲块的大小与数据的长度之间的差值最小。

例如，假设数据的长度为70，某个逻辑分区的空闲块链表中的空闲块的大小为[10,150,75,30,90,120,45,100]，即从该逻辑分区分配大小大于或等于70的空闲块给该数据进行存储。

如果经过排序，则大小为75的空闲块会被选中，则存储空间会被利用得更加充分。

S1024、若所述数据的长度大于所述基准块的大小，则确定所述逻辑分区中不具有可存储所述数据的空闲块。

如果数据的长度大于基准块的大小，则确定所辑分区中不具有可存储数据的空闲块，继续检查下一个逻辑分区。

S103、将所述数据存储至所述空闲块中，以生成新的记录。

在查询到合适的空闲块后，把数据写入该空闲块表示的偏移量范围中，作为该文件中新的记录。

一般情况下，该数据从该空闲块表示的偏移量范围的起始偏移量开始写入，使得该数据与相邻的记录在偏移量范围上连续，减少空闲块的数量，提高存储空间的利用率。

此外，如果在所有的逻辑分区中未查询到合适的空闲块后，则可以把数据存储到文件的末尾，生成扩展请求，请求扩展逻辑分区，重新查找合适的空闲块。

S104、在所述索引文件中记录所述记录与所述记录在所述空闲块中所占用的偏移量范围之间的索引信息。

在本发明实施例中，至少两个逻辑分区具有索引文件，在存储数据之后，可更新索引文件中的索引信息，该索引信息包括逻辑分区的编号、偏移量范围、记录的长度等。

可选地，该索引文件为B+树数据结构，B+树数据结构包括叶子节点(如图3所示的第三层所有节点)与非叶子节点(如图3所示的第一层的根节点[10]和第二层中节点的[5]、[14,19])。

需要说明的是，图3中的数字表示记录的唯一标识，如记录的ID。

非叶子节点用于存储叶子节点的引用信息，而不存储记录数据，所以，单个非叶子节点可以存储更多的叶子节点的引用信息，这样B+树数据结构的高度更低，查询叶子节点中的索引信息时，经过的层次更少，查询效率更高。

在读取文件某条记录时，会基于空间局部性原理，把待读取的记录后面的其他记录也读取到一个磁盘块中，供应用操作。由于B+树数据结构的非叶子节点不存储记录数据，体积比较小，所以一个磁盘块可以存储更多的非叶子节点。在查询索引信息时，通过较少的磁盘块，就能查询到相应的信息，减少了I/O读写的操作次数。

叶子节点用于存储所述记录的索引信息，而每次查询索引信息时，从根节点到叶子节点所经过的路径长度相同，所以每次查询的效率都很接近，保证查询效率稳定。

每个叶子节点可记录下一个叶子节点的引用信息(也叫指针)，所有叶子节点组合起来，是一条有序的链表。范围查询时，横向遍历链表即可，查询效率更高。

在分区碎片整理过程中，基于B+树的叶子节点链表查询某逻辑分区下的索引信息时，特别适用。

S105、将所述空闲块映射的偏移量范围更新为未被所述记录占用的偏移量范围。

在具体实现中，可确认对空闲块分配新的数据，从而生成记录。

在一种情况中，如果记录的长度与空闲块的大小相等，则在空闲块链表中删除该空闲块。

在另一种情况中，如果记录的长度小于空闲块的大小，则确定原空闲块映射的偏移量范围中、未被记录占用的偏移量范围，将该未被记录占用的偏移量范围更新到空闲块链表中。

实施例二

图4为本发明实施例二提供的一种数据的处理方法的流程图，本实施例以前述实施例为基础，进一步增加记录的更新操作。该方法具体包括如下步骤：

S401、接收作用于一记录的更新操作。

应用程序根据业务需求对文件中存储的记录进行更新，以此针对该记录触发更新操作。

S402、根据所述更新操作，更新所述记录，以确定原记录与新记录。

在本发明实施例中，响应于更新操作，对相应的记录进行更新，此时，确定原记录与新记录。

其中，原记录为更新前的记录，新记录为更新后的记录。

S403、若所述新记录的长度小于或等于所述原记录的长度，则在所述原记录所占用的偏移量范围内存储所述新记录。

S404、在所述索引文件中记录所述新记录与所述新记录在所述原记录的偏移量范围内中所占用的偏移量范围之间的索引信息。

S405、新增空闲块。

在具体实现中，可判断更新后、新记录的长度，将该新纪录的长度与原记录的长度进行比较。

如果新纪录的长度小于或等于原记录的长度，则可以直接在原来的存储位置(原记录表达的偏移量范围)上写入新的记录。

一般情况下，该新记录从该原记录表示的偏移量范围的起始偏移量开始写入。

在索引文件中，更新新记录的索引信息，包括逻辑分区的编号、偏移量范围、记录的长度等。

进一步地，如果新纪录的长度小于原记录的长度，在索引文件中更新完新记录的索引信息后，会产生一个新的空闲块，该空闲块映射至未被新记录占用的偏移量范围，此时，可将该新的空闲块加入空闲块链表中。

需要说明的是，如果原记录与其它空闲块在偏移量范围连续，使得该新的空闲块与其它空闲块在偏移量范围连续，则可以将该新的空闲块与其它空闲块合并，并相应更新空闲块链表。

S406、若所述新记录的长度大于所述原记录的长度，则遍历所述至少两个逻辑分区，以查找可存储所述新记录的空闲块。

如果新纪录的长度大于原记录的长度，则不在原来的存储位置(原记录表达的偏移量范围)上写入新的记录，此时，可逐个逻辑分区检查空闲块链表，判断是否存在大小大于或等于该新记录的长度的空闲块。

如果有，则预分配该空闲块，用于存储该新记录，此时，修改该空闲块的状态为“预分配”。

在本发明的一种优选实施例中，S406包括如下步骤：

S4061、确定所述逻辑分区中最大的空闲块，作为基准块。

S4062、若所述新记录的长度小于或等于所述基准块的大小，则确定所述逻辑分区中具有可存储所述新记录的空闲块。

S4063、在所述逻辑分区中确定符合预设的存储条件的空闲块。

其中，存储条件为空闲块的大小大于新记录的长度，并且，空闲块的大小与新记录的长度之间的差值最小。

S4064、若所述新记录的长度大于所述基准块的大小，则确定所述逻辑分区中不具有可存储所述数据的空闲块。

在本发明实施例中，由于S4061-S4064与S1021-S1024的应用基本相似，所以S4061-S4064描述的比较简单，相关之处参见方法实施例S1021-S1024的部分说明即可，本发明实施例在此不加以详述。

S407、将所述新记录存储至所述空闲块中。

在查询到合适的空闲块后，把新记录写入该空闲块表示的偏移量范围中，从而实现更新。

一般情况下，该新记录从该空闲块表示的偏移量范围的起始偏移量开始写入，使得该新记录与相邻的记录在偏移量范围上连续，减少空闲块的数量，提高存储空间的利用率。

此外，如果在所有的逻辑分区中未查询到合适的空闲块后，则可以把新记录存储到文件的末尾，生成扩展请求，请求扩展逻辑分区，重新查找合适的空闲块。

S408、在所述索引文件中记录所述新记录与所述新记录在所述空闲块中所占用的偏移量范围之间的索引信息。

在存储新记录之后，可更新索引文件中的索引信息，该索引信息包括逻辑分区的编号、偏移量范围、新记录的长度等。

S409、将所述空闲块映射的偏移量范围更新为未被所述新记录占用的偏移量范围。

在具体实现中，可确认对空闲块分配新记录。

在一种情况中，如果新记录的长度与空闲块的大小相等，则在空闲块链表中删除该空闲块。

在另一种情况中，如果新记录的长度小于空闲块的大小，则确定原空闲块映射的偏移量范围中、未被新记录占用的偏移量范围，将该未被新记录占用的偏移量范围更新到空闲块链表中。

S410、在所述索引文件中删除所述原记录与所述原记录所占用的偏移量范围之间的索引信息。

S411、确定所述原记录所占用的偏移量范围产生新的空闲块。

对于原记录，可在索引文件中删除该原记录的索引信息。

需要说明的是，该原记录并不会擦除，而是处于失效的状态，该原记录在文件中的偏移量范围成为一个新的空闲块，并把该空闲块加入空闲块链表中。

当其他记录被操作(如新增、更新)时，可分配该偏移量范围，覆盖该记录，从而重复利用存储空间。

在本发明实施例中，可灵活选择原记录或空闲块存储新记录，可减少记录的擦除等操作，提高记录的更新效率。

实施例三

图5为本发明实施例三提供的一种数据的处理方法的流程图，本实施例以前述实施例为基础，进一步增加记录的删除操作。该方法具体包括如下步骤：

S501、接收作用于一记录的删除操作。

应用程序根据业务需求对文件中存储的记录进行删除，以此针对该记录触发删除操作。

S502、根据所述删除操作，在所述索引文件中删除所述记录与所述记录所占用的偏移量范围之间的索引信息。

S503、确定所述偏移量范围产生新的空闲块。

响应删除操作，可在索引文件中删除该记录的索引信息。

需要说明的是，该记录并不会擦除，而是处于失效的状态，该记录在文件中的偏移量范围成为一个新的空闲块，并把该空闲块加入空闲块链表中。

实施例四

图6为本发明实施例四提供的一种数据的处理方法的流程图，本实施例以前述实施例为基础，进一步增加分区扩展操作。该方法具体包括如下步骤：

S601、统计所述逻辑分区中空闲块的存储特征值。

在具体实现中，可以每间隔一段时间或接收到扩展请求时，查询各逻辑分区的空闲块链表，统计逻辑分区中空闲块的存储特征值，该存储特征值用于表示记录存储的特征。

在一个示例中，存储特征值包括空闲块的大小的总值和/或特征空闲块的数量，其中，特征空闲块的大小大于预设的第一阈值。

S602、若所述存储特征值符合预设的扩展条件，则对所述文件扩大偏移量范围。

S603、对所述偏移量范围新增逻辑分区。

应用本发明实施例，可预先针对存储特征值设置扩展条件，用于表示扩展逻辑分区的条件。

在一个示例中，扩展条件包括总值小于预设的第二阈值和/或数量小于预设的第三阈值。

将该存储特征值与扩展条件进行比较，如果存储特征值符合扩展条件，则可以调用文件操作函数扩大文件的偏移量范围，将扩大的偏移量范围设置为新的逻辑分区，并采用内存映射文件的方式映射该新的逻辑分区。

实施例五

图7为本发明实施例五提供的一种数据的处理方法的流程图，本实施例以前述实施例为基础，进一步增加分区碎片整理操作和分区压缩操作，在文件的使用过程中，因为新增操作、更新操作、删除操作等，会使得逻辑分区中存在大量零散的空闲块(即碎片)，不利于存储较大的记录，通过分区碎片整理操作，可将零散的空闲块整合为一个大的空闲块，从而将记录在逻辑分区之间进行迁移，进一步节约存储空间，该方法具体包括如下步骤：

S701、将所述逻辑分区中的记录缓存至内存中。

S702、将所述内存中的记录写入所述逻辑分区中，以使所述记录在所述逻辑分区中占用连续的偏移量范围。

S703、在所述索引文件中记录所述记录、以及所述记录在所述逻辑分区中所占用的偏移量范围之间的索引信息。

S704、确定所述逻辑分区中未存储所述记录的偏移量范围产生新的空闲块。

对单个逻辑分区内进行碎片整理操作时，将有效的记录往逻辑分区的起始偏移量迁移，紧凑地存储在一起，使得偏移量范围连续，每两个记录之间不存在空闲块，而零散的空闲块往逻辑分区的截止偏移量迁移，并合并成一个完成的空闲块。

碎片整理完成后，该逻辑分区的空闲块就可以存储更多的新记录，从而提高存储空间的利用率。

在具体实现中，可对待进行碎片整理的逻辑分区添加的独占锁，以防止业务层操作逻辑分区中的记录。

遍历索引文件(如B+树数据结构的叶子节点)，查询出该逻辑分区下所有记录的索引信息。

根据索引信息，从逻辑分区中查询记录，并把记录缓存在内存中。

把缓存在内存中的记录，重新按顺序批量写入逻辑分区中，一般从分区的起始偏移量开始写入。

批量更新记录的索引信息，以及，删除缓存在内存中的记录。

等记录全部写入完成后，则表示记录迁移完成，此时，会在最后一条记录的截止偏移量与逻辑分区的截止偏移量之间形成一个完整的空闲块。

清空该逻辑分区的空闲块链表中的元素，再把空闲块加入空闲块链表中。

至此，该逻辑分区的碎片整理操作完成，解除该逻辑分区的独占锁。

在一个示例中，如图8A所示，某个文件中具有3个逻辑分区，针对某个逻辑分区，具有多个记录(记录1、记录2、记录3、记录4……)和两个空闲块(空闲块1、空闲块2)，

在碎片整理时，如箭头方向，将记录按照顺序往该逻辑分区的起始偏移量迁移，将空闲块往逻辑分区的截止偏移量迁移，并合并成一个完成的空闲块。

如图8B所示，对文件中的3个逻辑分区(逻辑分区1、逻辑分区2、逻辑分区3)进行碎片整理，每个逻辑分区形成一个偏移量范围连续的、用于存储记录的存储区域，一个完整的空闲块。

S705、确定第一分区与第二分区。

应用本发明实施例，可以预先设置压缩条件，如相邻的两个逻辑分区，后一个逻辑分区中记录的总长度小于一阈值，该阈值为前一个逻辑分区中空闲块的大小取指定比例(该比例可根据业务需求进行配置)。

如果满足该压缩条件，则可以选定第一分区与第二分区。

其中，第一分区为待迁入记录的逻辑分区，第二分区为待迁出记录的逻辑分区。

一般情况下，为提高压缩的效率，可按照顺序依次将位于后一个的逻辑分区中的记录迁移至上一个逻辑分区中的空闲块。

因此，针对某个逻辑分区，在某些情况下，该逻辑分区可以为第一分区，在某些情况下，该逻辑分区可以为第二分区。

例如，如图8B所示，在将逻辑分区2中的记录迁移至逻辑分区1时，逻辑分区2为第二分区，逻辑分区1为第一分区，在将逻辑分区3中的记录迁移至逻辑分区2时，逻辑分区3为第二分区，逻辑分区2为第一分区。

S706、读取所述第二分区中的所有记录。

S707、将所述记录写入所述第一分区的空闲块中。

S708、在所述索引文件中更新所述记录、以及所述记录在所述空闲块中所占用的偏移量范围之间的索引信息。

S709、确定目标偏移量范围产生新的空闲块，所述目标偏移量范围包含所述记录在所述第二分区中所占用的偏移量范围。

在本发明实施例中，第一分区的空闲块的大小大于第二分区中所有记录的总长度，因此，可根据索引信息，把第二分区的所有记录读取出来，再写入第一分区的空闲块中，此后，更新记录的索引信息，以及第一分区和第二分区的空闲块链表。

S710、若所述逻辑分区未存储记录，则取消所述逻辑分区映射至内存。

S711、在所述文件中缩小所述逻辑分区对应的偏移量范围，以取消所述逻辑分区。

按照S705-S709，遍历文件中的所有逻辑分区，直至所有逻辑分区中的记录迁移完成。

此时，可对文件中的逻辑分区进行检测，如果逻辑分区未存储记录，即整个逻辑分区为一个完整的空闲块，此时，可取消该逻辑分区的内存映射，以及调用文件操作函数压缩文件的偏移量范围，从而取消该逻辑分区，释放磁盘空间。

一般情况下，如果按照顺序对文件中的逻辑分区进行记录迁移，那么，未存储记录的逻辑分区一般处于文件的末位。

在一个示例中，如图8C所示，逻辑分区2中的记录(总长度)小于逻辑分区1中空闲块(大小)的指定比例，则可按照箭头指示，将逻辑分区2中的记录迁移至逻辑分区1中的空闲块中。

如图8D所示，逻辑分区3中的记录(总长度)小于逻辑分区2中空闲块(大小)的指定比例，则可按照箭头指示，将逻辑分区3中的记录迁移至逻辑分区2中的空闲块中。

此时，逻辑分区3未存储记录，为一个完整的空闲块。

如图8E所示，取消逻辑分区3的内存映射，压缩文件的大小，从而取消逻辑分区3，保留逻辑分区1、逻辑分区2。

实施例六

图9为本发明实施例六提供的一种数据的处理方法的流程图，本实施例以前述实施例为基础，进一步增加记录的查询操作。该方法具体包括如下步骤：

S901、接收查询操作。

应用程序根据业务需求对文件中存储的记录进行查询，以此针对该记录触发查询操作。

S902、根据所述查询操作，在所述索引文件中确定待查询的记录所表达的偏移量范围。

S903、在所述偏移量范围中读取所述记录。

在本发明实施例中，响应于查询操作，在索引文件中，查询出该记录的索引信息，从而确定其所处的逻辑分区及其偏移量范围。

在该逻辑分区中的该偏移量范围内，读取出该记录。

实施例七

图10为本发明实施例七提供的一种数据的处理装置的结构示意图，一文件划分至少两个逻辑分区，所述至少两个逻辑分区独立映射至内存，所述至少两个逻辑分区具有索引文件，所述装置具体可以包括如下模块：

数据接收模块1001，用于接收待存储的数据；

第一空闲块查找模块1002，用于遍历所述至少两个逻辑分区，以查找可存储所述数据的空闲块，所述空闲块为所述逻辑分区中未存储记录、且偏移量范围连续的区域；

数据存储模块1003，用于将所述数据存储至所述空闲块中，以生成新的记录；

第一索引信息记录模块1004，用于在所述索引文件中记录所述记录与所述记录在所述空闲块中所占用的偏移量范围之间的索引信息；

第一空闲块更新模块1005，用于将所述空闲块映射的偏移量范围更新为未被所述记录占用的偏移量范围。

可选地，所述第一空闲块查找模块1002包括：

可选地，还包括：

更新操作接收模块，用于接收作用于一记录的更新操作；

可选地，所述第二空闲块查找模块包括：

可选地，还包括：

删除操作接收模块，用于接收作用于一记录的删除操作；

可选地，还包括：

逻辑分区新增模块，用于对所述偏移量范围新增逻辑分区；

可选地，还包括：

记录迁出模块，用于读取所述第二分区中的所有记录；

可选地，还包括：

查询操作接收模块，用于接收查询操作；

记录读取模块，用于在所述偏移量范围中读取所述记录。

本发明实施例提供的数据的处理装置能够实现图1-9的方法实施例中的各个过程，为避免重复，这里不再赘述。

实施例八

图11为本发明实施例八提供的一种计算机设备的结构示意图。图11示出了适于用来实现本发明实施方式的示例性计算机设备1100的框图。图11显示的计算机设备1100仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机设备1100以通用计算设备的形式表现。计算机设备1100的组件可以包括但不限于：一个或者多个处理器或者处理单元160，系统存储器280，连接不同系统组件(包括系统存储器280和处理单元160)的总线180。

总线180表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备1100典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备1100访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器280可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)300和/或高速缓存存储器320。计算机设备1100可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示，通常称为“硬盘驱动器”)。尽管图11中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线180相连。存储器280可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块420的程序/实用工具400，可以存储在例如存储器280中，这样的程序模块420包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块420通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备1100也可以与一个或多个外部设备140(例如键盘、指向设备、显示器240等)通信，还可与一个或者多个使得用户能与该计算机设备120交互的设备通信，和/或与使得该计算机设备120能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口220进行。并且，计算机设备120还可以通过网络适配器200与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器200通过总线180与计算机设备120的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备120使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元160通过运行存储在系统存储器280中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的数据的处理方法。

实施例九

本发明实施例九还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的数据的处理方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据的处理方法，其特征在于，一文件划分至少两个逻辑分区，所述至少两个逻辑分区独立映射至内存，所述至少两个逻辑分区具有索引文件，所述方法包括：

接收待存储的数据；

将所述数据存储至所述空闲块中，以生成新的记录；

2.根据权利要求1所述的方法，其特征在于，所述遍历所述至少两个逻辑分区，以查找可存储所述数据的空闲块，包括：

确定所述逻辑分区中最大的空闲块，作为基准块；

3.根据权利要求1所述的方法，其特征在于，所述索引文件为B+树数据结构，所述B+树数据结构包括叶子节点与非叶子节点，所述非叶子节点用于存储叶子节点的引用信息，所述叶子节点用于存储所述记录的索引信息。

4.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

接收作用于一记录的更新操作；

将所述新记录存储至所述空闲块中；

确定所述原记录所占用的偏移量范围产生新的空闲块。

5.根据权利要求4所述的方法，其特征在于，所述遍历所述至少两个逻辑分区，以查找可存储所述新记录的空闲块，包括：

确定所述逻辑分区中最大的空闲块，作为基准块；

6.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

接收作用于一记录的删除操作；

确定所述偏移量范围产生新的空闲块。

7.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

统计所述逻辑分区中空闲块的存储特征值；

对所述偏移量范围新增逻辑分区；

8.一种数据的处理装置，其特征在于，一文件划分至少两个逻辑分区，所述至少两个逻辑分区独立映射至内存，所述至少两个逻辑分区具有索引文件，所述装置包括：

数据接收模块，用于接收待存储的数据；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的数据的处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的数据的处理方法。