CN107861959A - 数据处理方法、装置及系统 - Google Patents

数据处理方法、装置及系统 Download PDF

Info

Publication number
CN107861959A
CN107861959A CN201610842658.6A CN201610842658A CN107861959A CN 107861959 A CN107861959 A CN 107861959A CN 201610842658 A CN201610842658 A CN 201610842658A CN 107861959 A CN107861959 A CN 107861959A
Authority
CN
China
Prior art keywords
keyword
data
data file
subrange
subregion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610842658.6A
Other languages
English (en)
Inventor
庞柱
杨世泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610842658.6A priority Critical patent/CN107861959A/zh
Publication of CN107861959A publication Critical patent/CN107861959A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本方案实施例提供了一种数据处理方法、装置及系统。一方面,本方案实施例通过在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足所述触发条件的关键字子范围各自对应的数据文件分别进行重整处理,能够更快地减少分区中的数据文件数量,以及降低分区中的总数据量,从而提高了查询速度,达到了提高查询性能的效果,解决了现有技术中较大并且访问频繁的分区的查询性能低的问题。

Description

数据处理方法、装置及系统
【技术领域】
本方案涉及数据库技术领域,尤其涉及一种数据处理方法、装置及系统。
【背景技术】
在分布式存储系统中,分区(Partition)用于存储一定关键字范围(Key Range)的数据文件(DataFile)。不同的分区可以运行在不同的硬件环境(Partition Server)来解决容量和服务能力的问题。
在单个分区内,存储空间分为内存和磁盘两部分。单个分区的数据写入过程如图1所示。参见图1,要写入的数据被写入日志文件(Log)中,并被写入到记忆表(MemoryTable)。当记忆表中的数据达到一定大小之后,系统将记忆表中的数据转储(Dump)到磁盘中。转储之后,记忆表中的数据被清空,记忆表所占用的内存空间被释放。
每次转储会产生一个新的数据文件。查询速度和分区中关键字范围重叠的数据文件的个数成线性的关系,所以系统需要定期对分区中的数据文件进行重整(Compaction)。需要说明的是,当关键字范围不重叠时,查询速度与数据文件的个数无关。
在实现本方案过程中,方案人发现现有技术中至少存在如下问题:
请参考图2,其为现有技术中对单个分区中数据文件的重整过程示意图。如图2所示,假设磁盘中有两个数据文件,即数据文件1和数据文件2,在合并时,将数据文件1和数据文件2的数据读取到内存中,将这两个文件中的数据重整到一个新建的数据文件3中,然后将数据文件3写入磁盘。参见图3,假设图2中数据文件1包含的关键字为Key1~Key9,且关键字Key1~Key9对应的值(value)均为1,数据文件2包含的关键字为Key1和Key3,且Key1和Key3对应的值均为2,并且假设数据文件2的版本比数据文件1的版本新,在对数据文件1和数据文件2进行重整处理时,将数据文件1和数据文件2的全部数据读取到内存中,重整后得到图3中的数据文件3,然后将数据文件3存储到磁盘中。重整完成后,释放内存中数据文件1、数据文件2和数据文件3所占用的空间。
需要说明的是,重整处理涉及两个方面:一是,将多个数据文件(例如图2中的数据文件1和数据文件2)合并成一个数据文件(例如图2中的数据文件3);二是,用新数据覆盖旧数据,即对于同一关键字对应的数据记录,保留最新数据记录,丢弃旧的数据记录。
在较大并且访问频繁的分区中,会出现重整的速度跟不上转储的速度,数据文件越来越多,从而导致该分区的查询性能降低。
【发明内容】
有鉴于此,本方案实施例提供了一种数据处理方法、装置及系统,用以解决现有技术中较大并且访问频繁的分区的查询性能低的问题。
第一方面,本方案实施例提供一种数据处理方法,所述方法包括:
在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足所述触发条件的关键字子范围各自对应的数据文件分别进行重整处理;
其中,所述满足所述触发条件的关键字子范围均属于所述单个分区的关键字总范围。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在对所述单个分区对应的数据转储时,根据所述关键字总范围对应的各个关键字子范围将所述数据分别存储到相对应的数据文件中。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述对满足所述触发条件的关键字子范围各自对应的数据文件分别进行重整处理之前,还包括:
根据预设的划分参数,将所述单个分区的关键字总范围划分为至少两个关键字子范围。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述划分参数为进入所述单个分区的数据流量、所述单个分区对应的热点数量、所述单个分区当前的总数据量三种参数中的任意一个或多个的组合。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在根据所述关键字总范围对应的各个关键字子范围分别生成相对应的数据文件之后,还包括:
判断第一关键字子范围划分方式与第二关键字子范围划分方式是否相同;其中,第一关键字子范围划分方式对应于新存储的数据文件,第二关键字子范围划分方式对应于已存储的数据文件;
当第一关键字子范围划分方式与第二关键字子范围划分方式不相同时,将所述新存储的数据文件与已存储的数据文件分开存储。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述将所述新存储的数据文件与已存储的数据文件分开存储,包括:
将所述新存储的数据文件存储在与所述已存储的数据文件不同的数据层中。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,还包括:
在对所述单个分区进行查询时,在最新存储的数据文件中进行首次查询;
当在最新存储的数据文件中未查询到目标数据或未查询到全部目标数据时,在除所述最新存储的数据文件外的其它已存储数据文件中进行二次查询;
对所述首次查询的结果和所述二次查询的结果进行合并。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述触发条件包括满足进入所述关键字子范围的数据流量达到第一设定阈值、所述关键字子范围对应的热点数量达到第二设定阈值、所述关键字子范围当前的总数据量达到第三设定阈值三个子条件中的任意一个,或同时满足所述三个子条件中的至少两个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述单个分区对应一个日志文件。
第二方面,本方案实施例提供一种数据处理装置,所述装置包括:
重整模块,用于在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足所述触发条件的关键字子范围各自对应的数据文件分别进行重整处理;
其中,所述满足所述触发条件的关键字子范围均属于所述单个分区的关键字总范围。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括:
转储模块,用于在对所述单个分区对应的数据转储时,根据所述关键字总范围对应的各个关键字子范围将所述数据分别存储到相对应的数据文件中。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括:
子范围划分模块,用于根据预设的划分参数,将所述单个分区的关键字总范围划分为至少两个关键字子范围。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述划分参数为进入所述单个分区的数据流量、所述单个分区对应的热点数量、所述单个分区当前的总数据量三种参数中的任意一个或多个的组合。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括:
存储模块,用于判断第一关键字子范围划分方式与第二关键字子范围划分方式是否相同;其中,第一关键字子范围划分方式对应于新存储的数据文件,第二关键字子范围划分方式对应于已存储的数据文件;当第一关键字子范围划分方式与第二关键字子范围划分方式不相同时,将所述新存储的数据文件与已存储的数据文件分开存储。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述存储模块在将所述新存储的数据文件与已存储的数据文件分开存储时,具体用于:
将所述新存储的数据文件存储在与所述已存储的数据文件不同的数据层中。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括:
查询模块,用于在对所述单个分区进行查询时,在最新存储的数据文件中进行首次查询;当在最新存储的数据文件中未查询到目标数据或未查询到全部目标数据时,在除所述最新存储的数据文件外的其它已存储数据文件中进行二次查询;对所述首次查询的结果和所述二次查询的结果进行合并。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述触发条件包括满足进入所述关键字子范围的数据流量达到第一设定阈值、所述关键字子范围对应的热点数量达到第二设定阈值、所述关键字子范围当前的总数据量达到第三设定阈值三个子条件中的任意一个,或同时满足所述三个子条件中的至少两个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述单个分区对应一个日志文件。
第三方面,本方案实施例提供一种数据处理系统,所述系统包括至少一个服务器,所述服务器包括上述第二方面提供的数据处理装置。
本方案实施例具有以下有益效果:
本方案实施例通过在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足触发条件的关键字子范围各自对应的数据文件分别进行重整处理,能够更快地减少分区中的数据文件数量,以及降低分区中的总数据量,从而提高了查询速度,达到了提高查询性能的效果。本方案实施例提供的数据处理方法,使得一个分区仍然使用一个日志文件,因此仍然可以合并多个操作产生的日志记录,从而保持良好的写性能。
【附图说明】
为了更清楚地说明本方案实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本方案的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是单个分区的数据写入过程示意图;
图2是现有技术中对单个分区中数据文件的重整过程示意图;
图3是重整前后的数据文件示例图;
图4是本方案实施例提供的数据处理方法的实施例一的流程示意图;
图5是本方案实施例提供的关键字总范围及其关键字子范围对应的数据文件的示例图。
图6是本方案实施例提供的关键字子范围对应的数据文件的重整示例图之一;
图7是本方案实施例提供的关键字子范围对应的数据文件的重整示例图之二;
图8是本方案实施例所提供的数据处理方法的实施例二的流程示意图;
图9是本方案实施例提供的转储过程示例图;
图10是本方案实施例所提供的数据处理方法的实施例三的流程示意图;
图11是本方案实施例所提供的数据处理方法的实施例四的流程示意图;
图12是本方案实施例所提供的数据处理方法的实施例五的流程示意图;
图13是本方案实施例提供的不同关键字子范围划分方式的示例图;
图14是本方案实施例所提供的数据处理装置的实施例的功能方块图;
图15是本方案实施例所提供的数据处理系统的实施例的功能方块图;
图16为服务器100的简化框图。
【具体实施方式】
为了更好的理解本方案的技术方案,下面结合附图对本方案实施例进行详细描述。
应当明确,所描述的实施例仅仅是本方案一部分实施例,而不是全部的实施例。基于本方案中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本方案保护的范围。
在本方案实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本方案。在本方案实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例一
本方案实施例给出一种数据处理方法。本实施例可以作为数据处理系统(例如数据库管理系统)实现单个分区的数据处理方法的一个具体实现方式。请参考图4,其为本方案实施例所提供的数据处理方法的实施例一的流程示意图。如图4所示,本实施例中,数据处理方法可以包括以下步骤:
S401,在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足触发条件的关键字子范围各自对应的数据文件分别进行重整处理。
其中,满足触发条件的关键字子范围均属于该单个分区的关键字总范围。
其中,单个分区对应一个log文件(即日志文件)。
单个分区对应一个关键字总范围。关键字子范围是该关键字总范围的子区间。例如,一个分区的关键字总范围表示为[1,2,3,……9](这里1~9为9个关键字,例如,这些关键字可以表示用户ID、学生的学号等),可以将关键字总范围[1,2,3,……9]划分为3个关键字子范围:[1,2,3]、[4,5,6]、[7,8,9]。图5是本方案实施例提供的关键字总范围及其关键字子范围对应的数据文件的示例图。在将关键字总范围[1,2,3,……9]划分成[1,2,3]、[4,5,6]、[7,8,9]这3个关键字子范围后,各关键字子范围所对应的数据文件如图5所示。
其中,关键字子范围[1,2,3]对应的数据文件是由关键字1、2和/或3的键值对(即关键字-数值对,也可以称为K-V记录)数据组成的数据文件,例如图6所示的数据文件A1、数据文件B1和数据文件C1都是关键字子范围[1,2,3]对应的数据文件。
在本方案实施例中,在对关键字子范围对应的数据文件进行重整处理之前,可以对关键字子范围是否满足触发条件进行检测。
其中,触发条件是指能够触发对关键字子范围对应的数据文件进行重整处理的条件。例如,触发条件可以包括满足进入关键字子范围的数据流量达到第一设定阈值、关键字子范围对应的热点数量达到第二设定阈值、关键字子范围当前的总数据量达到第三设定阈值三个子条件中的任意一个,或同时满足三个子条件中的至少两个。
举例说明。假设触发条件为关键字子范围当前的总数据量达到第三设定阈值。在一个具体的实现过程中,执行数据处理方法的系统可以定期对分区的关键字子范围进行检测,例如,每5分钟进行一次检测。当检测到至少一个关键字子范围当前的总数据量达到第三设定阈值时,对总数据量达到第三设定阈值的关键字子范围各自对应的数据文件分别进行重整处理。
其中,重整处理是指将待重整的数据文件中的数据重写到新的数据文件中,并且在重写过程中,对于同一关键字对应的数据记录,重写到新数据文件中的数据为该关键字对应的最新数据记录,丢弃该关键字对应的旧数据记录。例如图6中,数据文件A1和数据文件C1中分别存在一条关于关键字“2”的K-V记录,在重整时,数据文件C1中关于关键字“2”的K-V记录“2:青岛”被写入新的数据文件D1中,而数据文件A1中关于关键字“2”的K-V记录“2:北京”被丢弃,因为数据文件C1中关于关键字“2”的K-V记录“2:青岛”在需要重整的所有数据文件中是最新的。
在一个具体的实现过程中,可以根据时间戳判断数据的新旧。例如,对于一条K-V记录,可以将该K-V记录所在数据文件的时间戳作为该K-V记录的时间戳。以时间戳所显示的时间作为该K-V记录的生成时间。
在一个具体的实现过程中,数据文件的时间戳可以为数据文件的生成时间。时间戳越新,数据文件中的数据越新。
举例说明。图6中,对于关键字“1”,数据文件A1和数据文件B1中分别存在一条K-V记录,数据文件A1中的K-V记录为“1:上海”,数据文件B1中的K-V记录为“1:成都”。“1:上海”这条K-V记录的时间戳为数据文件A1的时间戳2016.08.05(表示2016年8月5日),“1:成都”这条K-V记录的时间戳为数据文件B1的时间戳2016.08.26。
可以理解的是,上述时间戳为本方案实施例列举的一个示例,不用于对本方案实施例进行限定。例如,在其他示例中,时间戳也可以精确到具体的小时、分或秒,等等。
在对图6中的数据文件A1和数据文件B1进行重整处理时,对于关键字“1”,将该关键字对应的最新数据“1:成都”写入新的数据文件中,而将关键字“1”对应的旧数据“1:上海”丢弃。
图6是本方案实施例提供的关键字子范围对应的数据文件的重整示例图之一。参见图6,数据文件A1、数据文件B1和数据文件C1为重整前关键字子范围的[1,2,3]对应的数据文件,数据文件D1为数据文件A1、数据文件B1和数据文件C1重整后的新数据文件。其中,数据文件D1中的三条数据“1:成都”、“2:青岛”和“3:沈阳”都是数据文件A1、数据文件B1和数据文件C1中的最新数据。数据文件A1、数据文件B1和数据文件C1中的旧数据,例如“1:上海”、“2:北京”“3:天津”被丢弃。关键字子范围的[1,2,3]对应的数据文件被重整处理完后,分区内在关键字子范围[1,2,3]中就不存在冗余数据了,这一方面可以节省分区的存储空间,另一方面又减少了数据文件的数量,从而可以加快查询速度,达到提高查询性能的效果。
参见图6,在重整完成后,新数据文件D1会被写入磁盘中,而旧的数据文件A1、数据文件B1和数据文件C1将依据系统的删除机制被删除。在一个具体的实现过程中,在重整完成后,可以为数据文件A1、数据文件B1和数据文件C1设置删除标记,然后由系统定期将设置了删除标记的数据文件进行删除。
图7是本方案实施例提供的关键字子范围对应的数据文件的重整示例图之二。图7中,运用本方案实施例提供的数据处理方法对前述图3中的数据文件1和数据文件2进行重整。
参见图7,将分区的关键字总范围Key1~Key9划分为三个关键字子范围Key1~Key3、Key4~Key6、Key7~Key9,对应地,图3中的数据文件1在图7中被分为三个数据文件,即数据文件11、数据文件12和数据文件13,数据文件11对应关键字子范围Key1~Key3,数据文件12对应关键字子范围Key4~Key6,数据文件13对应关键字子范围Key7~Key9。图3中的数据文件2在图7中对应关键字子范围Key1~Key3,记为数据文件21(可以认为图3中的数据文件2在图7中也被分成了分别对应关键字子范围Key1~Key3、Key4~Key6、Key7~Key9的三个文件,但由于对应关键字子范围Key4~Key6和Key7~Key9的数据文件内容为空,因此被舍弃了)。
参见图7,假设关键字子范围Key1~Key3满足了触发条件,则对关键字子范围Key1~Key3对应的数据文件11和数据文件21进行重整处理,从磁盘中读取数据文件11和数据文件21,重整为数据文件31,然后将数据文件31存储到磁盘中,数据文件31仍然对应关键字子范围Key1~Key3。图7和图3中重整处理完成后磁盘中存储的数据是完全相同的,只是图7中用3个数据文件存储了与图3中一个数据文件相同的数据。
需要说明的是,在数据不存在冗余的情况下,相同的数据用一个数据文件还是用两个以上的数据文件存储不影响对这些数据的查询性能,查询性能是相同的。换句话说,相同且不存在冗余的数据的查询性能与管理这些数据的数据文件的个数无关。例如,图3中的数据文件1与图7中的数据文件11、数据文件12和数据文件13的查询速度是相同的,图3中的数据文件3与图7中的数据文件31、数据文件12和数据文件13的查询速度是相同的。
参见图7,在运用本方案实施例提供的数据处理方法对前述图3中的数据文件1和数据文件2进行重整时,从磁盘读取的数据量(数据文件11和数据文件21的数据量之和)、内存处理的数据量(数据文件11、数据文件21和数据文件31的数据量之和)以及内存写入磁盘的数据量(数据文件31的数据量)均小于运用图2的过程对图3中的数据文件1和数据文件2进行重整的相应数据量,显著降低了内存的读写数据量(即I/O数据),从而能够更快地完成重整,更快地减少数据冗余,更快地减少磁盘中影响查询性能的数据文件的个数,进而提高分区中数据的查询速度,达到提高分区的查询性能的效果。
在上述的图7中,重整处理过程中只对分区中部分关键字(图7中的Key1~Key3)对应的数据进行了重写。这里假设一种极端情况,即需要对分区中全部关键字(覆盖分区的整个关键字总范围)对应的数据进行重写。假设一个分区的整个关键字总范围被划分为4个关键字子范围,每个关键字子范围对应5个数据文件,每个数据文件的数据量相同(假设数据文件中每个关键字对应的数据也相同),均为10M,重整相同数据量的时间相同,完成分区所有数据文件的重整处理需要20分钟,则运用本方案实施例提供的数据处理方法(假设各个关键字子范围的重整处理串行执行,记为方案A)与运用图2的过程进行重整处理的方案(即一次性对分区中的全部数据重整处理,记为方案B)在各时间点分区中支持查询的数据文件数量与支持查询的总数据量分别如表1和表2所示。
表1和表2中,以重整开始时刻为0时刻记录时间,两表中的时间均为距离重整开始时刻的时间。假设两种方案的重整同时开始。
表1方案A与方案B在各时间点对应的支持查询的数据文件数量对比表
表2方案A与方案B在各时间点对应的支持查询的总数据量对比表
时间点 方案A 方案B
0分钟 200M 200M
5分钟 160M 200M
10分钟 120M 200M
15分钟 80M 200M
20分钟 40M 40M
需要说明的是,在表1中,方案B在重整全部完成时刻(即20分钟时)支持查询的数据文件数量实际上为1个,为了对比的方便,这里遵循前述的相同且不存在冗余的数据的查询性能与管理这些数据的数据文件的个数无关的原则,将这1个数据文件视为4个数据文件。
由表1和表2可见,即使是在需要对分区中全部关键字对应的数据进行重写的极端情况下,运用本方案实施例提供的数据处理方法也能够将分区中支持查询的数据文件数量与支持查询的总数据量更快地降下来,从而能够支持更快速的查询,达到提高查询性能的效果。
例如,在距离重整开始时刻10分钟时,方案A已经将分区中支持查询的数据文件数量降至12个,将分区中支持查询的总数据量降至120M,而方案B由于还没有完成重整过程,此时分区中支持查询的数据文件数量仍然是重整之前的20个,分区中支持查询的总数据量仍然是重整之前的200M。
本方案实施例提供的数据处理方法,通过在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足触发条件的关键字子范围各自对应的数据文件分别进行重整处理,能够更快地减少分区中的数据文件数量,以及降低分区中的总数据量,从而提高了查询速度,达到了提高查询性能的效果。本方案实施例提供的数据处理方法,使得一个分区仍然使用一个log文件,因此仍然可以重整多个操作产生的日志记录,从而保持良好的写性能。
实施例二
本方案实施例进一步给出一种数据处理方法。本实施例对于在将单个分区的关键字总范围划分为若干个关键字子范围后的转储操作进行说明。
请参考图8,其为本方案实施例所提供的数据处理方法的实施例二的流程示意图。如图8所示,本实施例中,数据处理方法可以包括以下步骤:
S801,在对单个分区对应的数据转储时,根据关键字总范围对应的各个关键字子范围将所述数据分别存储到相对应的数据文件中;
S802,在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足触发条件的关键字子范围各自对应的数据文件分别进行重整处理。
其中,满足触发条件的关键字子范围均属于该单个分区的关键字总范围。
需要说明的是,在具体的实现过程中,S801可以在S802之前执行,也可以在S802之后执行,还可以与S802同时执行。例如,在一个新的存储数据为0的空白分区中,先要对写入分区的数据执行转储操作,然后在分区的存储空间有一定量数据的情况下再对存储空间的数据文件进行重整操作。在分区的存储空间有一定量数据的情况下,也可以同时对存储空间的数据文件进行重整操作和对新写入分区的数据执行转储操作。在分区的存储空间有一定量数据的情况下,还可以先对存储空间的数据文件进行重整操作,再对新写入分区的数据执行转储操作。
图9是本方案实施例提供的转储过程示例图。参见图9,本示例中,分区对应的关键字总范围是Key1~Key9,将该关键字总范围划分为三个关键字子范围Key1~Key3、Key4~Key6、Key7~Key9。假设当前要转储的数据为如下的9条K-V记录:
Key1:1,Key2:2,Key3:3,Key4:4,Key5:5,
Key6:6,Key7:7,Key8:8,Key9:9。
则根据关键字所在的子范围,分别将K-V记录存储到相应关键字子范围对应的数据文件中。例如,如图9所示,将“Key1:1”、“Key2:2”、“Key3:3”这三条记录存储到关键字子范围Key1~Key3对应的数据文件n1中,将“Key4:4”、“Key5:5”、“Key6:6”这三条记录存储到关键字子范围Key4~Key6对应的数据文件n2中,将“Key7:7”、“Key8:8”、“Key9:9”这三条记录存储到关键字子范围Key7~Key9对应的数据文件n3中。
假设当前要转储的数据为如下的5条K-V记录:
Key1:1,Key2:2,Key3:3,Key4:4,Key5:5。
则将“Key1:1”、“Key2:2”、“Key3:3”这三条记录存储到关键字子范围Key1~Key3对应的数据文件n1中,将“Key4:4”、“Key5:5”、这两条记录存储到关键字子范围Key4~Key6对应的数据文件n2中,数据文件n3为空,直接丢弃。
由上可见,本方案实施例提供的数据处理方法中,对于需要进行转储的数据,分别存储到与各个关键字子范围相对应的数据文件中,以便在需要重整数据文件时,分别对各关键字子范围对应的数据文件进行重整处理,以达到重整时快速减少数据文件数量、提高分区查询性能的效果。
实施例三
本方案实施例进一步给出一种数据处理方法。本实施例对单个分区的关键字子范围的划分操作进行说明。
请参考图10,其为本方案实施例所提供的数据处理方法的实施例三的流程示意图。如图10所示,本实施例中,数据处理方法可以包括以下步骤:
S1001,根据预设的划分参数,将单个分区的关键字总范围划分为至少两个关键字子范围;
S1002,在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足触发条件的关键字子范围各自对应的数据文件分别进行重整处理。
其中,满足触发条件的关键字子范围均属于该单个分区的关键字总范围。
划分参数是划分关键字子范围的依据。在一个具体的实现过程中,划分参数可以为进入单个分区的数据流量、单个分区对应的热点数量、单个分区当前的总数据量三种参数中的任意一个或多个的组合。
例如,划分参数可以为进入单个分区的数据流量。此时,如果进入单个分区的数据流量越大,则可以将该单个分区划分为越多的关键字子范围。因为分区的数据流量越大,则写入分区中的数据越频繁,相应地,该分区的转储就越快。转储越快,就需要对数据文件进行更快的重整。在分区对应的关键字总范围一定的情况下,划分的关键字子范围越多,则重整速度越快。
例如,划分参数可以为单个分区对应的热点数量。此种情况下,单个分区对应的热点数量越多,则可以将该单个分区划分为越多的关键字子范围。因为分区对应的热点数量越多,则分区的数据流量就可能越大,写入分区中的数据越频繁,相应地,该分区的转储就越快。转储越快,就需要对数据文件进行更快的重整。
例如,划分参数可以为单个分区当前的总数据量。此种情况下,单个分区当前的总数据量越大,则可以将该单个分区划分为越多的关键字子范围。
实施例四
本方案实施例进一步给出一种数据处理方法。本实施例对单个分区在未存储数据的情况下的数据处理操作进行说明。
请参考图11,其为本方案实施例所提供的数据处理方法的实施例四的流程示意图。如图11所示,本实施例中,数据处理方法可以包括以下步骤:
S1101,根据预设的划分参数,将单个分区的关键字总范围划分为至少两个关键字子范围;
S1102,在对单个分区对应的数据转储时,根据关键字总范围对应的各个关键字子范围将所述数据分别存储到相对应的数据文件中;
S1103,在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足触发条件的关键字子范围各自对应的数据文件分别进行重整处理。
其中,满足触发条件的关键字子范围均属于该单个分区的关键字总范围。
对于一个新启用的分区,分区中还未写入数据,并且还未存储数据的情况下,可以先将该分区的关键字总范围划分为两个以上的关键字子范围。划分了关键字子范围后,当有数据写入该分区,需要转储时,分区的内存根据关键字总范围对应的各个关键字子范围分别生成相对应的数据文件。随着数据的不断写入,分区磁盘中的数据文件会逐渐增多,当存在至少一个关键字子范围满足触发条件时,对满足触发条件的关键字子范围各自对应的数据文件分别进行重整处理。
新启用的分区采用本方案实施例的数据处理方法后,重整速度快,从而能够更快地减少分区中的数据文件数量,进而提高分区的数据查询性能。
实施例五
本方案实施例进一步给出一种数据处理方法。本实施例对单个分区在关键字子范围划分方式改变的情况下的数据处理操作进行说明。
请参考图12,其为本方案实施例所提供的数据处理方法的实施例五的流程示意图。如图12所示,本实施例中,数据处理方法可以包括以下步骤:
S1201,在对单个分区对应的数据转储时,根据关键字总范围对应的各个关键字子范围将所述数据分别存储到相对应的数据文件中;
S1202,判断第一关键字子范围划分方式与第二关键字子范围划分方式是否相同;其中,第一关键字子范围划分方式对应于新存储的数据文件,第二关键字子范围划分方式对应于已存储的数据文件;当第一关键字子范围划分方式与第二关键字子范围划分方式不相同时,将新存储的数据文件与已存储的数据文件分开存储;
S1203,在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足触发条件的关键字子范围各自对应的数据文件分别进行重整处理。
其中,满足触发条件的关键字子范围均属于该单个分区的关键字总范围。
图13是本方案实施例提供的不同关键字子范围划分方式的示例图。假设一个分区对应的关键字总范围是A~Z,本示例中将按不同划分方式划分的关键字子范围用不同的层表示。参见图13,在L0层,关键字总范围A~Z被划分为A~G、G~T、T~Z三个关键字子范围,在L1层,关键字总范围A~Z被划分为A~D、D~G、G~T、T~Z四个关键字子范围,在L2层,关键字总范围A~Z被划分为A~D、D~T、T~Z三个关键字子范围。其中,L0层为最旧的层,L2层为最新的层。
在转储时,总是按照最新层的关键字子范围划分方式存储数据文件。在一次转储中,如果发现本次转储所依据的关键字子范围划分方式与已存储的数据文件的关键字子范围划分方式不相同,则将本次转储新存储的数据文件与已存储的数据文件分开存储。
举例说明,将新存储的数据文件与已存储的数据文件分开存储的方法包括但不限于:将新存储的数据文件存储在与已存储的数据文件不同的数据层中。
在一个具体的实现过程中,在关键字子范围划分方式发生改变、将新存储的数据文件与已存储的数据文件分开存储的情况下,在对单个分区进行查询时,在最新存储的数据文件中进行首次查询;当在最新存储的数据文件中未查询到目标数据或未查询到全部目标数据时,在除最新存储的数据文件外的其它已存储数据文件中进行二次查询;对首次查询的结果和二次查询的结果进行合并。如果在最新存储的数据文件中进行首次查询时查询到了全部目标数据,就不需要再在除最新存储的数据文件外的其它已存储数据文件中进行二次查询了。
在一个具体的实现过程中,系统可以按照设置的层间重整策略,对不同数据层的数据文件进行重整。
对于一个在使用本方案实施例提供的数据处理方法前已经存储了一定量数据的分区(例如,通过系统升级后使用本方案实施例提供的数据处理方法的分布式存储系统中的分区),可以将使用本方案实施例提供的数据处理方法后存储的数据文件存储在与使用本方案实施例提供的数据处理方法前存储的数据文件所存储的数据层不同的数据层中,然后由系统按照层间重整策略,对使用本方案实施例提供的数据处理方法后存储的数据文件存储在与使用本方案实施例提供的数据处理方法前存储的数据文件进行重整。其中,该分区中在使用本方案实施例提供的数据处理方法前存储的数据文件可以看作是按照该分区对应的关键字总范围存储的数据文件。
本方案实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
实施例六
本方案实施例给出一种数据处理装置。本实施例所提供的数据处理装置可以位于服务器。请参考图14,其为本方案实施例所提供的数据处理装置的实施例的功能方块图。如图14所示,该装置包括:
重整模块10,用于在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足触发条件的关键字子范围各自对应的数据文件分别进行重整处理。其中,满足触发条件的关键字子范围均属于单个分区的关键字总范围。
在一个具体的实现过程中,触发条件包括满足进入关键字子范围的数据流量达到第一设定阈值、关键字子范围对应的热点数量达到第二设定阈值、关键字子范围当前的总数据量达到第三设定阈值三个子条件中的任意一个,或同时满足三个子条件中的至少两个。
其中,单个分区对应一个log文件。
参见图14,在一个具体的实现过程中,数据处理装置还包括:
转储模块20,用于在对单个分区对应的数据转储时,根据关键字总范围对应的各个关键字子范围将所述数据分别存储到相对应的数据文件中。
参见图14,在一个具体的实现过程中,数据处理装置还包括:
子范围划分模块30,用于根据预设的划分参数,将单个分区的关键字总范围划分为至少两个关键字子范围。
举例说明,划分参数为进入单个分区的数据流量、单个分区对应的热点数量、单个分区当前的总数据量三种参数中的任意一个或多个的组合。
参见图14,在一个具体的实现过程中,数据处理装置还包括:
存储模块40,用于判断第一关键字子范围划分方式与第二关键字子范围划分方式是否相同;其中,第一关键字子范围划分方式对应于新存储的数据文件,第二关键字子范围划分方式对应于已存储的数据文件;当第一关键字子范围划分方式与第二关键字子范围划分方式不相同时,将新存储的数据文件与已存储的数据文件分开存储。
在一个具体的实现过程中,存储模块40在将新存储的数据文件与已存储的数据文件分开存储时,具体用于:
将新存储的数据文件存储在与已存储的数据文件不同的数据层中。
参见图14,在一个具体的实现过程中,数据处理装置还包括:
查询模块50,用于在对单个分区进行查询时,在最新存储的数据文件中进行首次查询;当在最新存储的数据文件中未查询到目标数据或未查询到全部目标数据时,在除最新存储的数据文件外的其它已存储数据文件中进行二次查询;对首次查询的结果和二次查询的结果进行合并。
由于本实施例中的数据处理装置能够执行前述实施例中的数据处理方法,本实施例未详细描述的部分,可参考对前述实施例中数据处理方法的相关说明。
本方案实施例提供的数据处理装置,通过在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足触发条件的关键字子范围各自对应的数据文件分别进行重整处理,能够更快地减少分区中的数据文件数量,以及降低分区中的总数据量,从而提高了查询速度,达到了提高查询性能的效果。本方案实施例提供的数据处理装置,使得一个分区仍然使用一个log文件,因此仍然可以重整多个操作产生的日志记录,从而保持良好的写性能。
实施例七
本方案实施例给出一种数据处理系统。本实施例所提供的数据处理系统可以是分布式存储系统中的数据库管理系统。请参考图15,其为本方案实施例所提供的数据处理系统的实施例的功能方块图。如图15所示,该系统包括服务器。该服务器包括实施例六提供的数据处理装置。
其中,数据处理系统中包括的服务器的数量可以为一个,也可以为两个以上。
实施例八
图16为服务器100的简化框图。该服务器100可以包括与一个或多个数据存储工具连接的处理器101,该数据存储工具可以包括存储介质106和内存单元104。服务器100还可以包括输入接口105和输出接口107,用于与另一装置或系统进行通信。被处理器101的CPU执行的程序代码可存储在内存单元104或存储介质106中。
服务器100中的处理器101调用存储在内存单元104或存储介质106的程序代码,以执行下面各步骤:
在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足触发条件的关键字子范围各自对应的数据文件分别进行重整处理;
其中,满足触发条件的关键字子范围均属于单个分区的关键字总范围。
在一个具体的实现方案中,所述处理器101还用于在对单个分区对应的数据转储时,根据关键字总范围对应的各个关键字子范围将数据分别存储到相对应的数据文件中。
在一个具体的实现方案中,所述处理器101在所述对满足所述触发条件的关键字子范围各自对应的数据文件分别进行重整处理之前,还用于根据预设的划分参数,将所述单个分区的关键字总范围划分为至少两个关键字子范围。
在一个具体的实现方案中,划分参数为进入所述单个分区的数据流量、所述单个分区对应的热点数量、所述单个分区当前的总数据量三种参数中的任意一个或多个的组合。
在一个具体的实现方案中,所述处理器101在根据所述关键字总范围对应的各个关键字子范围将数据分别存储到相对应的数据文件中之后,还用于判断第一关键字子范围划分方式与第二关键字子范围划分方式是否相同;其中,第一关键字子范围划分方式对应于新存储的数据文件,第二关键字子范围划分方式对应于已存储的数据文件;当第一关键字子范围划分方式与第二关键字子范围划分方式不相同时,将所述新存储的数据文件与已存储的数据文件分开存储。
在一个具体的实现方案中,所述处理器101还用于将所述新存储的数据文件存储在与所述已存储的数据文件不同的数据层中。
在一个具体的实现方案中,所述处理器101还用于在对所述单个分区进行查询时,在最新存储的数据文件中进行首次查询;当在最新存储的数据文件中未查询到目标数据或未查询到全部目标数据时,在除所述最新存储的数据文件外的其它已存储数据文件中进行二次查询;对所述首次查询的结果和所述二次查询的结果进行合并。
在一个具体的实现方案中,触发条件包括满足进入所述关键字子范围的数据流量达到第一设定阈值、所述关键字子范围对应的热点数量达到第二设定阈值、所述关键字子范围当前的总数据量达到第三设定阈值三个子条件中的任意一个,或同时满足所述三个子条件中的至少两个。
在一个具体的实现方案中,所述单个分区对应一个log文件。
上述实施例中,存储介质可以是只读存储器(Read-Only Memory,ROM),或是可读写的,例如硬盘、闪存。内存单元可为随机存取存储器(Random Access Memory,RAM)。内存单元可与处理器物理集成或集成在存储器中或构建为单独的单元。
处理器为上述设备(该设备为上述服务器或者上述客户端)的控制中心,并提供处理装置,用于执行指令,进行中断操作,提供计时功能以及多种其他功能。可选地,处理器包括一个或多个中央处理单元(CPU),例如图16中示出的CPU 0和CPU 1。上述设备中包括一个或者多个的处理器。处理器可为单核(单CPU)处理器或多核(多CPU)处理器。除非另有声明,描述为用于执行任务的例如处理器或存储器的部件可实现为通用部件,其暂时用于在给定时间执行任务,或实现为专门制造用于执行该任务的特定部件。此处所用的术语“处理器”指一个或多个装置,电路和/或处理核,用于处理数据,例如计算机程序指令。
被处理器的CPU执行的程序代码可存储在内存单元或存储介质中。可选地,存储在存储介质中的程序代码可以被复制入内存单元以便处理器的CPU执行。处理器可执行至少一个内核(例如LINUXTM、UNIXTM、WINDOWSTM、ANDROIDTM、IOSTM),众所周知,该内核用于通过控制其他程序或过程的执行、控制与外围装置的通信以及控制计算机设备资源的使用来控制上述设备的操作。
上述设备中的上述元件可通过总线彼此连接,总线例如数据总线、地址总线、控制总线、扩展总线和局部总线之一或其任意组合。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本方案所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本方案各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述仅为本方案的较佳实施例而已,并不用以限制本方案,凡在本方案的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本方案保护的范围之内。

Claims (11)

1.一种数据处理方法,其特征在于,所述方法包括:
在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足所述触发条件的关键字子范围各自对应的数据文件分别进行重整处理;
其中,所述满足所述触发条件的关键字子范围均属于所述单个分区的关键字总范围。
2.根据权利要求1所述的方法,其特征在于,还包括:
在对所述单个分区对应的数据转储时,根据所述关键字总范围对应的各个关键字子范围将所述数据分别存储到相对应的数据文件中。
3.根据权利要求1所述的方法,其特征在于,在所述对满足所述触发条件的关键字子范围各自对应的数据文件分别进行重整处理之前,还包括:
根据预设的划分参数,将所述单个分区的关键字总范围划分为至少两个关键字子范围。
4.根据权利要求3所述的方法,其特征在于,所述划分参数为进入所述单个分区的数据流量、所述单个分区对应的热点数量、所述单个分区当前的总数据量三种参数中的任意一个或多个的组合。
5.根据权利要求2所述的方法,其特征在于,在根据所述关键字总范围对应的各个关键字子范围将所述数据分别存储到相对应的数据文件中之后,还包括:
判断第一关键字子范围划分方式与第二关键字子范围划分方式是否相同;其中,第一关键字子范围划分方式对应于新存储的数据文件,第二关键字子范围划分方式对应于已存储的数据文件;
当第一关键字子范围划分方式与第二关键字子范围划分方式不相同时,将所述新存储的数据文件与已存储的数据文件分开存储。
6.根据权利要求5所述的方法,其特征在于,所述将所述新存储的数据文件与已存储的数据文件分开存储,包括:
将所述新存储的数据文件存储在与所述已存储的数据文件不同的数据层中。
7.根据权利要求5所述的方法,其特征在于,还包括:
在对所述单个分区进行查询时,在最新存储的数据文件中进行首次查询;
当在最新存储的数据文件中未查询到目标数据或未查询到全部目标数据时,在除所述最新存储的数据文件外的其它已存储数据文件中进行二次查询;
对所述首次查询的结果和所述二次查询的结果进行合并。
8.根据权利要求1所述的方法,其特征在于,所述触发条件包括满足进入所述关键字子范围的数据流量达到第一设定阈值、所述关键字子范围对应的热点数量达到第二设定阈值、所述关键字子范围当前的总数据量达到第三设定阈值三个子条件中的任意一个,或同时满足所述三个子条件中的至少两个。
9.根据权利要求1所述的方法,其特征在于,所述单个分区对应一个日志文件。
10.一种数据处理装置,其特征在于,所述装置包括:
重整模块,用于在单个分区内,当存在至少一个关键字子范围满足触发条件时,对满足所述触发条件的关键字子范围各自对应的数据文件分别进行重整处理;
其中,所述满足所述触发条件的关键字子范围均属于所述单个分区的关键字总范围。
新存储的数据文件新存储的数据文件新存储的数据文件新存储的数据文件新存储的数据文件新存储的数据文件新存储的数据文件
11.一种数据处理系统,其特征在于,所述系统包括至少一个服务器,所述服务器包括权利要求10所述的数据处理装置。
CN201610842658.6A 2016-09-22 2016-09-22 数据处理方法、装置及系统 Pending CN107861959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610842658.6A CN107861959A (zh) 2016-09-22 2016-09-22 数据处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610842658.6A CN107861959A (zh) 2016-09-22 2016-09-22 数据处理方法、装置及系统

Publications (1)

Publication Number Publication Date
CN107861959A true CN107861959A (zh) 2018-03-30

Family

ID=61699000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610842658.6A Pending CN107861959A (zh) 2016-09-22 2016-09-22 数据处理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN107861959A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015708A (zh) * 2020-10-30 2020-12-01 北京金山云网络技术有限公司 一种分布式存储系统数据均衡的方法和相关装置
WO2022206170A1 (zh) * 2021-03-29 2022-10-06 华为技术有限公司 一种数据处理方法、服务端及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110121A (zh) * 2009-12-24 2011-06-29 阿里巴巴集团控股有限公司 一种数据处理方法及其系统
CN103279582A (zh) * 2013-06-24 2013-09-04 浙江宇天科技股份有限公司 一种基于Oracle分区的数据存储方法及装置
CN103577454A (zh) * 2012-08-01 2014-02-12 华为技术有限公司 一种文件合并方法和装置
CN103593436A (zh) * 2013-11-12 2014-02-19 华为技术有限公司 文件合并方法和装置
US20140324890A1 (en) * 2013-04-28 2014-10-30 International Business Machines Corporation Data Driven Parallel Sorting System and Method
CN104424219A (zh) * 2013-08-23 2015-03-18 华为技术有限公司 一种数据文件的管理方法及装置
CN105159915A (zh) * 2015-07-16 2015-12-16 中国科学院计算技术研究所 可动态适应的lsm树合并方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110121A (zh) * 2009-12-24 2011-06-29 阿里巴巴集团控股有限公司 一种数据处理方法及其系统
CN103577454A (zh) * 2012-08-01 2014-02-12 华为技术有限公司 一种文件合并方法和装置
US20140324890A1 (en) * 2013-04-28 2014-10-30 International Business Machines Corporation Data Driven Parallel Sorting System and Method
CN103279582A (zh) * 2013-06-24 2013-09-04 浙江宇天科技股份有限公司 一种基于Oracle分区的数据存储方法及装置
CN104424219A (zh) * 2013-08-23 2015-03-18 华为技术有限公司 一种数据文件的管理方法及装置
CN103593436A (zh) * 2013-11-12 2014-02-19 华为技术有限公司 文件合并方法和装置
CN105159915A (zh) * 2015-07-16 2015-12-16 中国科学院计算技术研究所 可动态适应的lsm树合并方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015708A (zh) * 2020-10-30 2020-12-01 北京金山云网络技术有限公司 一种分布式存储系统数据均衡的方法和相关装置
CN112015708B (zh) * 2020-10-30 2021-02-19 北京金山云网络技术有限公司 一种分布式存储系统数据均衡的方法和相关装置
WO2022206170A1 (zh) * 2021-03-29 2022-10-06 华为技术有限公司 一种数据处理方法、服务端及系统

Similar Documents

Publication Publication Date Title
US6651075B1 (en) Support for multiple temporal snapshots of same volume
CN100495400C (zh) 一种全文检索系统的索引在线更新方法
CN102184260B (zh) 一种云计算环境下的海量数据存取方法
CN101189584B (zh) 内存页面管理
CN104160397B (zh) 位置独立文件
CN104298681B (zh) 一种数据存储方法及装置
CN103559231B (zh) 一种文件系统配额管理方法、装置及系统
CN108140040A (zh) 存储器中数据库的选择性数据压缩
CN101443761A (zh) 对文件系统的支持qos的生命周期管理
CN103593449B (zh) 一种数据库资源回收方法及系统
CN106970958B (zh) 一种流文件的查询与存储方法和装置
CN104765794B (zh) 一种数据库分区方法及装置
JP2000003321A (ja) 高性能なメッセ―ジ格納構造
EP2562657B1 (en) Management of update transactions and crash recovery for columnar database
CN104424219B (zh) 一种数据文件的管理方法及装置
WO2000063760A2 (en) A device driver for accessing computer files
CN106407355A (zh) 一种数据存储方法及装置
CN106407224A (zh) 一种键值存储系统中文件压实的方法和装置
US20100058023A1 (en) Efficiently managing modular data storage systems
CN108875077A (zh) 数据库的列存储方法、装置、服务器及存储介质
CN102253985B (zh) 一种文件系统数据的管理方法及系统
US12093286B2 (en) Time series data management systems and methods
CN107861959A (zh) 数据处理方法、装置及系统
CN106815232A (zh) 目录管理方法、装置及系统
US20180011897A1 (en) Data processing method having structure of cache index specified to transaction in mobile environment dbms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180330