CN110832473A - 日志结构管理系统及方法 - Google Patents

日志结构管理系统及方法 Download PDF

Info

Publication number
CN110832473A
CN110832473A CN201780092436.XA CN201780092436A CN110832473A CN 110832473 A CN110832473 A CN 110832473A CN 201780092436 A CN201780092436 A CN 201780092436A CN 110832473 A CN110832473 A CN 110832473A
Authority
CN
China
Prior art keywords
data
entry
data entry
log
certain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780092436.XA
Other languages
English (en)
Other versions
CN110832473B (zh
Inventor
拉尔夫·阿克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN110832473A publication Critical patent/CN110832473A/zh
Application granted granted Critical
Publication of CN110832473B publication Critical patent/CN110832473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2308Concurrency control
    • G06F16/2336Pessimistic concurrency control approaches, e.g. locking or multiple versions without time stamps
    • G06F16/2343Locking methods, e.g. distributed locking or locking implementation details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种管理存储数据条目的数据存储设备的装置,所述装置包括:存储日志结构的所述数据存储设备,所述日志结构包括分别存储数据条目的片段,每个数据条目包括存储数据的数据字段和指示存储在所述数据字段中的所述数据的年龄的时间参数;以及处理器,用于修改存储在所述日志结构的某个片段的某个数据条目的数据字段中的数据,并且根据所述已修改数据,更新所述某个数据条目的时间参数。将新数据和/或已修改数据添加到日志结构的单个日志头的其它方法导致争用并行写操作,相比之下,修改存储在所述日志结构的片段的数据字段中的数据(本文也称为原地更新)提高了计算性能(例如,缩短了处理时间)。

Description

日志结构管理系统及方法
背景技术
本发明在其一些实施例中涉及数据条目的管理,更具体地但不限于,管理存储数据条目的日志结构的系统和方法。
日志结构为一系列任意数据条目,按照可能具有固定大小的片段进行组织。日志结构的输入顺序保持属性使数据库系统具有几个优点:
*重做日志能力,便于一致性查询和在线迁移。
*高效多版本,直接支持并行事务。
*数据存储不可变,方便无锁读操作。
发明内容
本发明的目的在于提供一种管理存储包括数据条目的片段的日志结构的装置、方法、计算机程序产品和系统。
上述和其它目的通过独立权利要求的特征来实现。更多实施形式在从属权利要求、说明书和附图中显而易见。
根据第一方面,一种管理存储数据条目的数据存储设备的装置包括:存储日志结构的所述数据存储设备,所述日志结构包括分别存储数据条目的片段,每个数据条目包括存储数据的数据字段和指示存储在所述数据字段中的所述数据的年龄的时间参数;以及处理器,用于修改存储在所述日志结构的某个片段的某个数据条目的数据字段中的数据,并且根据所述已修改数据,更新所述某个数据条目的时间参数。
根据第二方面,一种管理存储数据条目的数据存储设备的方法包括:修改存储在日志结构的某个片段的某个数据条目的数据字段中的数据,以及根据所述已修改数据,更新所述某个数据条目的时间参数,其中,所述日志结构包括分别存储数据条目的片段,每个数据条目包括存储数据的数据字段和指示存储在所述数据字段中的所述数据的年龄的时间参数。
本文所描述的系统、装置、方法和/或代码指令提高了在写密集型工作量过程中处理日志结构的计算效率。将新数据和/或已修改数据添加到日志结构的单个日志头的其它方法导致争用并行写操作,相比之下,修改存储在所述日志结构的片段的数据字段中的数据(本文也称为原地更新)提高了计算性能(例如,缩短了处理时间)。更新存储在数据字段中的数据,提高了处理和/或内存利用率(例如,减少了存储空间和/或带宽),而不是将整个条目全部复制到日志头(即使在更新了一小部分数据的时候),后者产生了处理器开销和/或内存开销,这在写密集型工作量期间会非常大。
相比于将新数据和/或已修改数据添加到日志结构的日志头中的方法,修改存储在日志结构的片段的数据字段中的数据避免或减少了在日志结构中创建和累积过时条目。过时条目占用的内存空间通过计算成本大(例如,在处理器利用率和/或处理时间方面)的日志结构清理进程来回收。
修改存储在日志结构的片段的数据字段中的数据在任何时候都可以保持片段完整性,使得仍然有可能通过顺序扫描来访问片段进行一致性查询和在线迁移。
在所述第一和第二方面的另一实现方式中,所述处理器用于将所述正在读取的某个数据条目指定为固定用于读访问(pinned for reading access,R-Pin),其中,授权并行执行进程对所述具有R-Pin指定的某个数据条目进行读访问,拒绝所述并行执行进程对所述具有R-Pin指定的某个数据条目进行写访问。
R-Pin防止并行读取某个数据条目。R-Pin使条目在并行更新时暂时不可变。R-Pin使并行读进程稳定地进行读访问。
在所述第一和第二方面的另一实现方式中,当所述并行执行进程试图修改所述具有R-Pin指定的某个数据条目时,指示所述并行执行进程将所述已修改数据作为新数据条目写入位于所述日志结构头部的日志头片段中。
在所述第一和第二方面的另一实现方式中,所述方法还包括和/或所述处理器用于:根据位于所述日志头片段处的所述新数据条目的最新时间参数,更新将所述日志结构编入索引的索引结构。
在所述第一和第二方面的另一实现方式中,所述方法还包括和/或所述处理器用于将所述正在修改的某个数据条目指定为固定用于独占写(pinned for exclusivewrite,X-Pin)访问,其中,拒绝并行执行进程对所述具有X-Pin指定的某个数据条目进行写访问。
X-Pin使某个数据条目进行独占写访问,以便使用两阶段提交(two-phase-commit,2PC)协议并行提交分布式事务。X-Pin使条目在并行更新时暂时不可变。
在所述第一和第二方面的另一实现方式中,所述方法还包括和/或所述处理器用于:当在提交协议终止时移除所述X-Pin指定时,根据所述提交的某个数据条目的最新时间参数,更新将所述日志结构编入索引的索引结构。
在所述第一和第二方面的另一实现方式中,所述方法还包括和/或所述处理器用于:当执行所述更新操作或获得管脚(pin)时,锁定某个索引结构条目和/或数据条目。
在所述第一和第二方面的另一实现方式中,当存储在所述某个数据条目的所述数据字段中的所述已修改数据短于所述存储在所述某个条目的所述数据字段中的未修改数据时,所述处理器用于将空闲空间数据条目添加到所述某个片段中,所述空闲空间数据条目对应于所述已修改数据与所述未修改数据之间的大小之差。
添加空闲空间数据条目恢复了片段完整性。未修改其它实时数据和/或其它索引条目。锁定某个数据条目的索引条目和/或某个数据条目能够充分防止并行写入。
在所述第一和第二方面的另一实现方式中,所述方法还包括和/或所述处理器用于:根据所述已修改数据的大小,计算所述某个数据条目的条目长度参数;以及根据按照所述大小之差计算出的可用空闲空间,将值写入所述空闲空间数据条目的所述条目长度参数中。
在所述第一和第二方面的另一实现方式中,当存储在所述某个数据条目的所述数据字段中的所述已修改数据长于存储在所述某个数据条目的所述数据字段中的未修改数据时,所述方法还包括和/或所述处理器用于在下一个顺序空闲空间数据条目内写入。
在下一个顺序数据字段的空闲空间数据条目内写入恢复了片段完整性。未修改其它实时数据和/或其它索引条目。锁定某个数据条目的索引条目和/或某个数据条目能够充分防止并行写入。
在所述第一和第二方面的另一实现方式中,所述方法还包括和/或所述处理器用于:根据所述已修改数据的大小,并根据所述下一个顺序空闲空间数据字段的剩余空闲空间,计算所述某个数据条目的条目长度参数。
在所述第一和第二方面的另一实现方式中,所述时间参数包括以下中的一个或多个:指示存储在所述某个数据条目的所述数据字段中的所述数据的版本的版本参数,以及指示在所述某个数据条目的所述数据字段中存储所述数据的时间的时间戳。
在所述第一和第二方面的另一实现方式中,所述数据存储设备存储索引结构,所述数据存储设备存储索引结构,所述索引结构将与所述日志结构的每个数据条目相关联的唯一键映射到对应数据条目在所述日志结构上的存储位置;修改存储在所述某个数据条目的所述数据字段中的所述数据,无需更新所述索引结构到其它数据条目的映射关系,也无需更新所述日志结构上的其它数据条目。
在所述第一和第二方面的另一实现方式中,所述方法还包括和/或所述处理器用于指定整个日志结构用于严格日志记录,以允许顺序读访问;授权并行执行进程对所述日志结构进行读访问,拒绝所述并行执行进程对所述日志结构进行原地写访问。
在所述第一和第二方面的另一实现方式中,当所述并行执行进程需要严格日志记录的时候试图修改所述某个数据条目时,指示所述并行执行进程将所述已修改数据作为新数据条目写入位于所述日志结构头部的日志头片段中。
(基于其它方法)将新数据和/或已修改数据添加到日志结构的日志头中可以按需暂时激活,例如,在数据扫描和/或数据迁移期间。在某些场景下(例如,当没有扫描和/或迁移处于激活状态时),未执行(基于其它方法)将新数据和/或已修改数据添加到日志头,并且对存储在日志结构的片段的数据字段中的数据进行修改,以提高计算性能(例如降低处理器利用率、减少处理时间和/或降低数据存储要求)。
除非另有定义,否则本文使用的所有技术和/或科学术语具有与本发明所属领域的普通技术人员通常理解的相同含义。虽然与本文描述的方法和材料类似或等效的方法和材料可以用于本发明实施例的实践或测试,但下文描述了示例性方法和/或材料。如有冲突,专利说明书,包括定义,将予以控制。此外,这些材料、方法和示例仅是说明性的,并不一定具有限制性。
附图说明
本文仅通过举例结合附图描述本发明的一些实施例。现在具体结合附图,需要强调的是所示的详细说明作为示例,为了说明性地讨论本发明的实施例。这样,根据附图说明,如何实践本发明实施例对本领域技术人员而言是显而易见的。
附图中:
图1是描述日志结构的一个实现方式的示意图,有助于理解本发明一些实施例;
图2是描述日志结构的示例性实现方式的示意图,有助于理解本发明一些实施例;
图3是本发明一些实施例提供的通过对存储在日志结构中某个片段的某个数据条目的数据字段中的数据进行修改来管理存储数据条目的日志结构的方法流程图;
图4是本发明一些实施例提供的通过对存储在日志结构中某个片段的某个数据条目的数据字段中的数据进行修改来管理一个或多个日志结构的系统的组件的框图;
图5是本发明一些实施例提供的空间不变原地修改过程的图形表示、缩小数据条目以适应比某个数据字段短的数据修改过程的图形表示以及修改下一个顺序数据字段以适应比某个数据字段长的数据修改过程的图形表示;
图6是描述本发明一些实施例提供的R-Pin和X-Pin兼容性矩阵的图;以及
图7是本发明一些实施例提供的是否原地应用数据修改或是否将已修改数据添加到日志结构的日志头中的示例性决策过程的流程图。
具体实施方式
本发明在其一些实施例中涉及数据条目的管理,更具体地但不限于,管理存储数据条目的日志结构的系统和方法。
如本文所用,术语“修改数据”是指更改现有数据,和/或删除现有数据,和/或(可选地在现有数据上)写入新数据。
本发明一些实施例的一个方面涉及一种系统、装置、方法和/或代码指令(存储在可由一个或多个处理器执行的数据存储设备中),用于修改存储在日志结构内片段的数据条目的数据字段中的数据,本文也称为原地更新或修改。根据已修改数据来更新与数据条目相关联的、存储在数据字段中的数据的年龄的时间参数。
可选地,将正在读取的数据条目指定为固定用于读访问(本文表示为R-Pin)。授权并行执行进程对具有R-Pin指定的数据条目进行读访问,拒绝并行执行进程对具有R-Pin指定的数据条目进行写访问。可替代地或另外,将正在修改的数据条目指定为固定用于独占写访问(本文表示为X-Pin)。拒绝并行执行进程对具有X-Pin指定的数据条目进行写访问。
可选地,当存储在数据条目的数据字段中的已修改数据短于存储在该条目的数据字段中的未修改数据时,将空闲空间数据条目添加到片段中。可替代地,当存储在数据条目的数据字段中的已修改数据长于存储在该条目的数据字段中的未修改数据时,覆写下一个顺序数据字段的空闲空间数据条目。
执行数据修改时无需更新日志结构的其它数据条目,也无需更新索引结构到其它数据条目的映射关系(将与日志结构的每个数据条目相关联的唯一键映射到相应数据条目在日志结构中的存储位置)。
本文所描述的系统、装置、方法和/或代码指令提高了在写密集型工作量过程中处理日志结构的计算效率。将新数据和/或已修改数据添加到日志结构的单个日志头的其它方法导致争用并行写操作,相比之下,修改存储在所述日志结构的片段的数据字段中的数据(本文也称为原地更新)提高了计算性能(例如,缩短了处理时间)。更新存储在数据字段中的数据,提高了处理和/或内存利用率(例如,减少了存储空间和/或带宽),而不是将整个条目全部复制到日志头(即使在更新了一小部分数据的时候),后者产生了处理器开销和/或内存开销,这在写密集型工作量期间会非常大。
相比于将新数据和/或已修改数据添加到日志结构的日志头中的方法,修改存储在日志结构的片段的数据字段中的数据避免或减少了在日志结构中创建和累积过时条目。过时条目占用的内存空间通过计算成本大(例如,在处理器利用率和/或处理时间方面)的日志结构清理进程来回收。
修改存储在日志结构的片段的数据字段中的数据在任何时候都可以保持片段完整性,使得仍然有可能通过顺序扫描来访问片段进行一致性查询和在线迁移。
在详细解释本发明的至少一个实施例之前,应当理解,本发明不必将其应用限于下面描述中阐述的和/或在附图和/或示例中说明的部件和/或方法的结构和布置的细节。本发明可以有其它实施例或可以采用各种方式实践或执行。
本发明可以是一种系统、方法和/或计算机程序产品。所述计算机程序产品可以包括具有计算机可读程序指令的一个(或多个)计算机可读存储介质,所述指令用于使处理器执行本发明的各个方面。
计算机可读存储介质可以是能够保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或上述几者的任意合适组合。
可以从计算机可读存储介质将本文描述的计算机可读程序指令下载到各个计算/处理设备,或者通过网络下载到外部计算机或外部存储设备上,所述网络为因特网、局域网、广域网和/或无线网络等。
计算机可读程序指令可以完全在用户电脑上执行,或作为独立的软件包,部分在用户电脑上执行,部分在远程电脑上执行,或者完全在远程电脑或服务器上执行。在后一种场景下,远程电脑可以通过任何类型的网络与用户电脑连接,包括局域网(local areanetwork,LAN)或广域网(wide area network,WAN),或者可以(例如,通过使用特网服务提供商提供的因特网)在外部电脑上建立所述连接。在一些实施例中,包括可编程逻辑电路、现场可编程门阵列(feld programmable gate array,FPGA)或可编程逻辑阵列(programmable logic array,PLA)等的电子电路可以利用计算机可读程序指令的状态信息执行计算机可读程序指令以个性化所述电子电路,以便执行本发明的各方面。
本文结合本发明实施例的方法、装置(系统)以及计算机程序产品的流程图和/或框图描述了本发明的各方面。应当理解,流程图和/或框图中的每个步骤以及流程图和/或框图中的步骤的组合可以由计算机可读程序指令来实现。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。此时,流程图或框图中的每个步骤都可以代表一个模块、片段或部分指令,其包括一个或多个用于实现某个逻辑功能的可执行指令。在一些可选的实现方式中,步骤中指出的功能可以不按照图中的顺序实现。例如,事实上,连续示出的两个步骤可以大体上同时执行,或者步骤有时候可以按照相反的顺序执行,这取决于所涉及的功能。还应注意的是,框图和/或流程图中的每个步骤以及框图和/或流程图中步骤的组合可以由基于专用硬件的系统执行,该系统执行指定的功能或动作,或者执行专用硬件和计算机指令的组合。
现在参考图1,图1是描述日志结构102的一个实现方式的示意图,有助于理解本发明一些实施例。日志结构102包括一系列数据条目,即,在片段(为了清楚说明,示出一个片段106)大小固定的存储实体中组织的实时数据(为了清楚说明,示出一个条目104)。将新数据添加到日志头108中。每个片段在关闭时不可变。索引结构110访问存储在日志结构102中的数据条目。当数据条目更新时,调整索引结构110以指向日志头108处的新版本。
随着时间的推移添加新数据,部分新数据替换旧数据,日志结构102累积了过时条目112,即废弃数据。垃圾收集进程选择稀疏片段,这些片段存储有大部分废弃的数据。将实时数据条目移动到侧片段(side segment)114。相应地更新索引结构110。
当侧片段114充满了移动后的实时数据条目时,将侧片段114作为注入片段(injected segment)116添加到日志头108中。从日志结构102中移除实时数据条目已经从中移动且仅包括废弃数据的释放片段(released segment)118。事实上,日志结构102在交换片段之前和之后存储有相同的数据条目。
垃圾收集进程和添加操作的并行性在索引结构110和日志头108上同步。
数据条目在日志结构102内不断移动和重排序,这些是处理器密集型操作。
现在参考图2,图2是描述日志结构202的一个示例性实现方式的示意图,有助于理解本发明一些实施例。存储在片段中的每个数据条目204包括元数据头,存储有参数L、V、T、Key和Data。L表示关联数据条目的长度。V表示关联数据条目的版本。T表示关联数据条目的时间戳。Key表示唯一输入键,用于按索引结构210进行查找。Data表示存储在关联数据条目中的实时数据。
每个片段206存储一系列数据条目204。通过使用前一个数据条目的长度来计算下一个数据条目的开头,迭代数据条目204。当使用某个数据条目的键在索引结构210中进行的查找指向某个数据条目的开头时,某个数据条目处于激活状态。即使存在非激活数据条目,也保持了片段完整性,而且有可能迭代片段。
现在参考图3,图3是本发明一些实施例提供的通过对存储在日志结构的某个片段的某个数据条目的数据字段中的数据进行修改来管理存储数据条目的日志结构的方法流程图。还参考图4,图4为本发明一些实施例提供的系统400的组件的框图,系统400包括计算设备402,用于通过对存储在日志结构404A的某个片段的某个数据条目的数据字段中的数据进行修改来管理存储在一个或多个存储设备404和/或406中的一个或多个日志结构404A。
日志结构404A包括多个片段,每个片段存储一个或多个数据条目。每个数据条目包括存储数据的数据字段,以及可选地包括指示存储在数据字段中的数据的年龄的时间参数。时间参数例如可以为指示存储在数据条目的数据字段中的数据的版本的版本参数,和/或指示将数据存储在数据条目的数据字段中的时间的时间戳,等等。需要注意的是,时间参数可以存储在映射到日志结构的数据条目的其它数据结构中。
索引结构404B(可选地存储在存储设备404中和/或存储在数据存储设备406中)将与日志结构404A的每个数据条目相关联的唯一键映射到相应数据条目在日志结构上的存储位置。如本文所述,修改存储在某个数据条目的数据字段中的数据,无需更新索引结构404B到其它数据条目的映射关系,也无需更新日志结构404B上的其它数据条目。
计算设备402可以为例如以下中的一个或多个:单个计算设备、并排设置的一组计算设备、计算云、虚拟机、网络服务器、存储服务器、本地服务器、远程服务器、客户端、移动设备、固定设备、公用信息机、智能手机、笔记本、平板电脑、可穿戴计算设备、眼镜计算设备、手表计算设备和台式电脑。
存储设备404可以与计算设备402集成,例如安装在计算设备402内,例如,数据存储设备404安装在计算设备402的物理盒内。存储设备404可以由计算设备402独占使用,并且位于计算设备402的外部,例如外部硬盘驱动器和/或远程存储服务器。存储设备404可以由计算设备402共享和/或安装在其它计算系统(未示出)内,例如,在网络内。存储设备404通过本地总线、网络、直接链路、无线和/或有线方式等与计算设备402通信。
存储设备404可以存储索引结构404B,该索引结构404B将日志结构404A编入索引。
示例性存储设备404包括以下中的一个或多个:缓存、随机存取存储器(randomaccess memory,RAM)、固态硬盘(solid state drive,SSD)、硬盘驱动器(hard diskdrive,HDD)、可移动存储单元、远程存储设备、计算云、非易失性存储器、磁性介质、半导体存储器设备、硬盘驱动器、可移动存储器和光学介质。应注意,存储设备404可以与数据存储设备406集成和/或互换,和/或存储设备404可以是与数据存储设备406分离的唯一组件。
计算设备402包括一个或多个处理器408,例如,为中央处理器(centralprocessing unit,CPU)、图形处理器(graphics processing unit,GPU)、现场可编程门阵列(feld programmable gate array,FPGA)、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specifc integrated circuit,ASIC)、定制电路、与其它单元连接的处理器和/或专用硬件加速器等。处理器408可以为单个处理器、多核处理器和/或用于并行处理的处理器集群(可以包括同构和/或异构处理器架构)。应注意,可以设计处理器408在硬件中实现一个或多个存储为代码指令406A的特征。
数据存储设备(例如,存储器)406存储可由处理器408执行的代码指令,可选地为实现结合图3描述的方法的一个或多个动作的代码指令406A。存储器406可以为随机存取存储器(random access memory,RAM)、只读存储器(read-only memor,ROM)和/或存储设备,例如非易失性存储器、磁性介质、半导体存储器设备、硬盘驱动器、可移动存储器和光学介质(例如,DVD、CD-ROM)。
计算设备402可以与用户界面410通信,用户界面410向用户呈现数据和/或包括数据输入机制,例如触摸屏、显示器、键盘、鼠标、语音激活软件和麦克风中的一个或多个。
现在返回参考图3,在300A处,开始日志操作过程。
在300B处,在索引结构404B中执行查找,以确定要修改的某个数据条目在日志结构404A的片段中的位置。
在300C处,锁定识别出的条目。可以对识别出的条目执行三个操作。
在第一操作中,在302处,修改存储在日志结构404A的某个片段的某个数据条目的数据字段中的数据,例如,将已修改数据写入数据字段中,在现有数据之上写入新数据,删除现有数据,和/或更改现有数据。
直接原地执行空间不变更新。
相比于将新数据添加到日志结构的日志头的其它方法,原地修改存储在数据字段中的数据。
执行原地更新并不一定包括保持日志结构404A的完整性。除了更新与已修改数据相关的索引条目之外,不更新索引结构404B,例如避免与其它数据条目相关的更新,这在采用添加到日志头等其它方法时执行。
应注意,当不满足本文描述的执行原地修改的一个或多个条件时,可以基于标准方法将已修改数据添加到日志结构404A的日志头中。
在304A处,当存储在正在访问进行修改的某个数据条目的数据字段中的已修改数据短于存储在某个条目的数据字段中的未修改数据(即原始现有数据)(本文也称为收缩更新)时,将空闲空间数据条目添加到与数据条目相关联的片段中。可以在存储有已修改数据的数据条目之后依次添加空闲空间数据条目。空闲空间数据条目的大小对应于已修改数据与未修改数据(即原始现有数据)之间的大小之差。
添加空闲空间数据条目恢复了片段完整性。未修改其它实时数据条目和/或其它索引条目(即,除了存储已修改数据的数据条目和/或空闲空间数据条目之外)。锁定某个数据条目的索引条目和/或某个数据条目能够充分防止并行写入。
相比于将新数据添加到日志结构的日志头中的其它方法,原地修改存储在数据字段中的数据。更新数据条目的元数据,例如根据已修改数据来更新时间参数。
每个数据条目可以存储有和/或关联于条目长度参数,该参数表示存储在数据条目的数据字段中的数据的大小。长度参数可以存储为每个对应数据条目的元数据字段。可选地,根据已修改数据的大小来计算数据条目的条目长度参数。根据按照大小之差计算出的可用空闲空间,将值写入空闲空间数据条目的条目长度参数中。空闲空间数据条目的条目长度参数表示空闲空间数据条目内的可用存储空间量。
可替代地,在304B处,当存储在某个数据条目的数据字段中的已修改数据长于存储在某个条目的数据字段中的未修改数据(即原始现有数据)(本文还称为放大更新)时,将无法装入到现有数据空间内的其它已修改数据写入到下一个顺序数据字段的空闲空间数据条目内。应注意,下一个空闲空间数据条目可指一个独立的空闲数据条目,还可指能够合并为一个空闲数据条目的一系列空闲数据条目。数据条目的大小随着下一个顺序数据条目中可用的空闲空间增大而增大,以容纳已修改数据。根据已修改数据的大小并且根据下一个顺序空闲空间数据字段的剩余空闲空间,计算某个数据条目的条目长度参数。
在下一个顺序数据字段的空闲空间数据条目内写入恢复了片段完整性。未修改其它实时数据和/或其它索引条目(即,除了存储有已修改数据的数据条目和/或空闲空间数据条目之外)。锁定某个数据条目的索引条目和/或某个数据条目能够充分防止并行写入。
相比于将新数据添加到日志结构的日志头中的其它方法,原地修改存储在数据字段中的数据。更新数据条目的元数据,例如根据已修改数据来更新时间参数。
现在参考图5,图5包括本发明一些实施例提供的空间不变原地修改过程的图形表示502A和502B(如结合图3中的步骤302所述),缩小数据条目以容纳在修改后短于修改前的某个数据字段的数据字段的过程的图形表示504A和504B(如结合图3中的步骤304A所述),以及修改下一个未使用的顺序数据字段以容纳在修改后长于修改前的某个数据字段的数据字段的过程的图形表示506A和506B(如结合图3中的步骤304B所述)。应注意,索引数据结构到日志结构的数据条目的映射关系仍然不受修改的影响(即,索引未更新)。
在502A和502B处,用相同大小的新数据字段508B替换日志结构的旧数据字段508A。片段完整性不受影响。
在504A和504B处,用短数据字段510B以及空闲空间f510C替换日志结构的长数据字段510A,短数据字段510B的长度小于长数据字段510A。短数据字段510B的大小与空闲空间f510C之和等于长数据字段510A的大小。通过添加空闲空间f510C来恢复存储长数据字段510A的片段的完整性。
在506A和506B处,用长数据字段512C和大小减小的空闲空间数据字段512B’替换短数据字段512A和空闲空间数据字段512B。短数据字段512A的大小与空闲空间数据字段512B之和等于长数据字段512C的大小与大小减小的空闲空间数据字段512B’之和。通过将空闲空间数据字段512B修改成大小减小的空闲空间数据字段512B’,恢复了存储短数据字段512A的数据片段的完整性。
现在返回参考图3,在310处,根据已修改数据来更新某个数据条目的时间参数。更新数据条目的元数据,例如,根据修改数据的时间来更新时间参数,和/或根据已修改数据的版本来更新版本参数。
在312处,相应地更新索引结构404B。
在350处,解锁该条目。
在352处,日志操作结束。
可替代地,在对日志执行另一操作时,在306处,将某个数据条目指定为固定用于读访问(pinned for reading access,R-Pin)并解锁(306A)。授权并行执行进程对具有R-Pin指定的某个数据条目进行读访问。拒绝并行执行进程对具有R-Pin指定的某个数据条目进行写访问。
R-Pin防止并行读取某个数据条目(306B)。由于实际上是在覆写数据,因此并行执行进程和/或线程在修改数据条目时访问该数据条目会导致并行执行进程读取的数据不一致。R-Pin使条目在并行更新时暂时不可变。R-Pin使并行读进程稳定地进行读访问。
当并行执行进程试图修改具有R-Pin指定的某个数据条目,指示并行执行进程将已修改数据作为新数据条目写入位于日志结构404A头部的日志头片段中。更新索引结构404B以指向新数据条目在日志结构404A的日志头片段的位置。
锁定正在修改的某个数据条目的索引条目和/或某个数据条目(306C)。锁定充分防止了并行写入。
当从某个数据条目中移除R-Pin指定(306D),并且原始指定写入到某个数据条目中的已修改数据已写入到日志结构404A的日志头中,则将某个数据条目内的存储空间指定为空闲空间。
可替代地,在对日志执行又一操作时,在308处,将正在修改的某个数据条目指定为固定用于独占写(pinned for exclusive write,X-Pin)访问。将新版本添加到日志中(308A)。解锁该条目(308B),拒绝并行执行进程对具有X-Pin指定的某个数据条目进行写访问。X-Pin使某个数据条目进行独占写访问,以便使用两阶段提交(two-phase-commit,2PC)协议并行提交分布式事务(308C)。X-Pin使条目在并行更新时暂时不可变。锁定正在修改的某个数据条目的索引条目和/或某个数据条目(306D)。锁定充分防止了并行写入。从条目中移除(即释放(unpin))X-Pin(308E)。
现在参考图6,图6是描述本发明一些实施例提供的R-Pin和X-Pin兼容性矩阵的图表。R表示R-Pin,X表示X-Pin,y表示兼容,n表示不兼容。根据矩阵,可以兼容如下组合:R-Pin和R-Pin,R-Pin和X-Pin,X-Pin和R-Pin。X-Pin和X-Pin的组合不兼容。
现在返回参考图3,在312处,相应地更新索引结构404B。
如结合步骤306所述,当并行执行进程试图修改具有R-Pin指定的某个数据条目时,指示并行执行进程将已修改数据作为新数据条目写入位于日志结构404A头部的日志头片段。更新索引结构404B以指向新数据条目在日志结构404A的日志头片段的位置。根据日志头片段处新数据条目的最新时间参数来更新索引结构404B。
当步骤308(和308A至308E)执行完成后,更新索引结构404B,以映射到数据的最新已提交版本(312)。当从某个数据条目中移除X-Pin指定时,可选地,在提交协议终止时,可选地根据已提交的某个数据条目的最近时间参数,相应地重定向索引结构404B。
除了执行三个日志操作(302、306和208)之一之外,在314处,可选地,指定日志结构404A用于严格或宽松日志记录。严格日志记录可以按需切换,例如,通过代码指令切换。在指定严格日志记录期间,授权并行执行进程对日志结构进行读访问,以及拒绝并行执行进程对日志结构进行写访问。在指定严格日志记录的同时并行执行进程试图修改某个数据条目时,指示并行执行进程将已修改数据作为新数据条目写入位于日志结构404A头部的日志头片段中。
日志结构404A可以指定用于允许顺序读访问的严格日志记录,例如,支持查询的顺序扫描操作、分布式计算系统中的数据迁移和/或其它应用。检测顺序读访问操作的代码指令可以切换到严格日志记录。
(基于其它方法)将新数据和/或已修改数据添加到日志结构的日志头中可以按需暂时激活,例如,在数据扫描和/或数据迁移期间。在某些场景下(例如,当没有扫描和/或迁移处于激活状态时),未执行(基于其它方法)将新数据和/或已修改数据添加到日志头,并且对存储在日志结构的片段的数据字段中的数据进行修改,以提高计算性能(例如降低处理器利用率、减少处理时间和/或降低数据存储要求)。
现在参考图7,图7是本发明一些实施例提供的是否原地应用数据修改或是否将已修改数据添加到日志结构的日志头中的示例性决策过程的流程图。结合图7描述的决策过程可以包括和/或基于结合图3描述的一个或多个动作。结合图7描述的决策过程由执行存储在存储器406中的代码指令406A的计算设备402中的处理器408来实现,如结合图4所述。
在702处,开始向日志结构404A写入的过程。
在704处,在索引结构404B中执行查找,以确定要修改的某个数据条目在日志结构404A的片段中的位置。
在706处,例如当并行提交分布式事务(例如,基于两阶段提交协议)时决定是否将某个数据条目指定为X-Pin。在708处,某个数据条目获得X-Pin指定。在710处,将已修改数据添加到日志结构404A的日志头中,写操作在712处终止。步骤706、708和710可根据结合图3描述的步骤308来实现。
可替代地,当某个数据条目未指定为X-Pin时,在714处,确定某个数据条目是否存在于日志结构404A内。在716处,当不存在某个数据条目时,将已修改数据添加到日志结构404A的日志头中。在718处,将索引结构404B重定向到添加的已修改数据,写操作在712处终止。
可替代地,当某个数据条目存在于日志结构404A内时,例如在并行读进程执行时,确定某个数据条目是否已指定为R-Pin。获取用于并行读取的R-Pin可以根据结合图3描述的步骤306来实现。在716处,当某个数据条目指定为R-Pin时,将已修改数据添加到日志结构404A的日志头中。在718处,将索引结构404B重定向到添加的已修改数据,写操作在712处终止。步骤718可根据结合图3描述的步骤312来实现。
可替代地,当某个数据条目未指定为R-Pin时,在722处,通过添加到日志头片段,确定是否基于标准方法将已修改数据记录到日志结构404A中。在716处,将已修改数据添加到日志结构404A的日志头中。在718处,将索引结构404B重定向到添加的已修改数据,写操作在712处终止。
可替代地,当选择原地修改时,在724处,执行分析以确定某个数据条目的数据字段的长度是否足够容纳数据的修改,和/或下一个顺序数据条目(或多个条目)是否包括足以容纳数据的修改的空闲空间。在716处,当没有足够的空间容纳已修改数据时,将已修改数据添加到日志结构404A的日志头中。在718处,将索引结构404B重定向到添加的已修改数据,写操作在712处终止。
可替代地,在726处,当某个数据条目和/或下一个顺序数据条目能够容纳已修改数据时,执行原地更新,如结合图3中的步骤302、304A和/或304B所述。
在728处,通过添加和/或调整如结合图3中的步骤304A和/或304B所述的空闲条目来恢复日志结构404A的完整性,写操作在712处终止。
在研究下文附图和详细描述之后,本发明的其它系统、方法、特征和优点对于本领域技术人员来说是或变得显而易见的。希望所有这些其它系统、方法、特征和优点包含在本说明书中,在本发明的范围内,并且受所附权利要求的保护。
对本发明各个实施例的描述只是为了说明的目的,而这些描述并不旨在穷举或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下,本领域技术人员可以清楚理解许多修改和变化。相比于市场上可找到的技术,选择本文使用的术语可最好地解释本实施例的原理、实际应用或技术进步,或使本领域其它技术人员理解此处公开的实施例。
预期在从本申请开始走向成熟的专利的生命周期中,将会开发出许多相关日志结构,术语“日志结构”的范围旨在包括所有这类先验新技术。
如本文所用,术语“约”是指±10%。
术语“包括”以及它们的结合词表示“包括但不限于”。这个术语包括了术语“由……组成”以及“本质上由……组成”。
短语“本质上由…组成”意指组成物或方法可以包括额外成分和/或步骤,但前提是所述额外成分和/或步骤不会实质上改变所要求的组成物或方法的基本和新颖特性。
除非上下文中另有明确说明,此处使用的单数形式“一个”和“所述”包括复数含义。例如,术语“一种化合物”或“至少一种化合物”可以包括多种化合物,包括其混合物。
本文使用的“示例性”一词用于表示“作为示例、实例或例证”。任何描述为“示例性”的实施例都不一定被解释为比其它实施例更优选或更有利,和/或从其它实施例中排除特征的结合。
这里,“可选地”一词是指在某些实施例中提供,而在其它实施例中不提供。本发明的任何特定实施例可以包括多个可选特征,除非这些特征冲突。
在整个本申请中,本发明的各种实施例可以以范围格式来呈现。应理解,范围格式的描述仅为了方便和简洁,不应理解为对本发明范围的一种不灵活的限制。因此,对范围的描述应被视为已具体披露了该范围内的所有可能子范围以及单个数值。例如,对于例如从1到6的范围的描述应被视为已具体公开了从1到3从1到4从1到5从2到4从2到6从3到6等的子范围以及该范围内的单个数字例如1、2、3、4、5和6。不论该范围的宽度为多少,这都适用。
当本文指出一个数字范围时,表示包含了在指出的这个范围内的任意所列举的数字(分数或整数)。本文使用的短语“位于第一指示数与第二指示数之间的范围”和短语“从第一指示数到第二指示数之间的范围”可以互换,意在包括第一和第二指示数以及两者之间的所有分数和整数。
应了解,为简洁起见,在单独实施例的上下文中描述的本发明的某些特征还可以组合提供于单个实施例中。相反地,为简洁起见,在单个实施例的上下文中描述的本发明的各个特征也可以单独地或以任何合适的子组合或作为本发明的任何合适的其它实施例提供。在各个实施例的上下文中描述的某些特征未视为那些实施例的基本特征,除非没有这些元素所述实施例无效。
此处,本说明书中提及的所有出版物、专利和专利说明书都通过引用本说明书结合在本说明书中,同样,每个单独的出版物、专利或专利说明书也具体且单独地结合在此。此外,对本申请的任何参考的引用或识别不可当做是允许这样的参考在现有技术中优先于本发明。就使用节标题而言,不应该将节标题理解成必要的限定。

Claims (15)

1.一种用于管理存储数据条目的数据存储设备(404)的装置(402),其特征在于,所述装置(402)包括:
所述数据存储设备(404),存储:
日志结构(404A),包括分别存储数据条目的片段,每个数据条目包括存储数据的数据字段和指示存储在所述数据字段中的所述数据的年龄的时间参数;以及
处理器(408),用于:
修改存储在所述日志结构(404A)的某个片段的某个数据条目的数据字段中的数据,并且根据所述已修改数据,更新所述某个数据条目的时间参数。
2.根据权利要求1所述的装置(402),其特征在于,所述处理器(408)用于将正在读取的所述某个数据条目指定为固定用于读访问(pinned for reading access,R-Pin),其中,授权并行执行进程对具有R-Pin指定的所述某个数据条目进行读访问,拒绝所述并行执行进程对所述具有R-Pin指定的所述某个数据条目进行写访问。
3.根据权利要求2所述的装置(402),其特征在于,当所述并行执行进程试图修改所述具有R-Pin指定的某个数据条目时,指示所述并行执行进程将所述已修改数据作为新数据条目写入位于所述日志结构(404A)头部的日志头片段中。
4.根据权利要求3所述的装置(402),其特征在于,所述处理器(408)用于:根据位于所述日志头片段处的所述新数据条目的最新时间参数,更新将所述日志结构(404A)编入索引的索引结构(404B)。
5.根据上述权利要求中任一项所述的装置(402),其特征在于,所述处理器(408)用于将所述正在修改的某个数据条目指定为固定用于独占写(pinned for exclusive write,X-Pin)访问,其中,拒绝并行执行进程对所述具有X-Pin指定的某个数据条目进行写访问。
6.根据权利要求5所述的装置(402),其特征在于,所述处理器(408)用于:当在提交协议终止时移除所述X-Pin指定时,根据所述提交的某个数据条目的最新时间参数,更新将所述日志结构(404A)编入索引的索引结构(404B)。
7.根据上述权利要求中任一项所述的装置(402),其特征在于,当存储在所述某个数据条目的所述数据字段中的所述已修改数据短于存储在所述某个条目的所述数据字段中的未修改数据时,所述处理器(408)用于将空闲空间数据条目添加到所述某个片段中,所述空闲空间数据条目对应于所述已修改数据与所述未修改数据之间的大小之差。
8.根据权利要求7所述的装置(402),其特征在于,所述处理器(408)用于:根据所述已修改数据的大小,计算所述某个数据条目的条目长度参数;根据按照所述大小之差计算出的可用空闲空间,将值写入所述空闲空间数据条目的所述条目长度参数中。
9.根据权利要求1-6中任一项所述的装置(402),其特征在于,当存储在所述某个数据条目的所述数据字段中的所述已修改数据长于存储在所述某个条目的所述数据字段中的未修改数据时,所述处理器(408)用于在下一个顺序空闲空间数据条目内写入。
10.根据权利要求9所述的装置(402),其特征在于,所述处理器(408)用于:根据所述已修改数据的大小,并根据所述下一个顺序空闲空间数据字段的剩余空闲空间,计算所述某个数据条目的条目长度参数。
11.根据上述权利要求中任一项所述的装置(402),其特征在于,所述时间参数包括以下中的一个或多个:指示存储在所述某个数据条目的所述数据字段中的所述数据的版本的版本参数,以及指示在所述某个数据条目的所述数据字段中存储或修改所述数据的时间的时间戳。
12.根据上述权利要求中任一项所述的装置(402),其特征在于,所述数据存储设备(404)存储索引结构(404B),所述索引结构(404B)将与所述日志结构(404A)的每个数据条目相关联的唯一键映射到对应数据条目在所述日志结构上的存储位置;修改存储在所述某个数据条目的所述数据字段中的所述数据,无需更新所述索引结构(404B)到其它数据条目的映射关系,也无需更新所述日志结构(404A)上的其它数据条目。
13.根据上述权利要求中任一项所述的装置(402),其特征在于,所述处理器(408)用于指定整个日志结构(404A)用于严格日志记录,以允许顺序读访问;授权并行执行进程对所述日志结构(404A)进行读访问,拒绝所述并行执行进程对所述日志结构(404A)进行原地写访问。
14.根据权利要求2至13中任一项所述的装置(402),其特征在于,当所述并行执行进程在需要严格日志记录的时候试图修改所述某个数据条目时,指示所述并行执行进程将所述已修改数据作为新数据条目写入位于所述日志结构(404A)头部的日志头片段中。
15.一种管理存储数据条目的数据存储设备的方法,其特征在于,所述方法包括:
修改存储在日志结构(302)的某个片段的某个数据条目的数据字段中的数据;以及
根据所述已修改数据(310),更新所述某个数据条目的时间参数,其中
所述日志结构包括分别存储数据条目的片段,每个数据条目包括存储数据的数据字段和指示存储在所述数据字段中的所述数据的年龄的时间参数。
CN201780092436.XA 2017-06-21 2017-06-21 日志结构管理系统及方法 Active CN110832473B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2017/065180 WO2018233820A1 (en) 2017-06-21 2017-06-21 SYSTEMS AND METHODS FOR MANAGING JOURNAL STRUCTURE

Publications (2)

Publication Number Publication Date
CN110832473A true CN110832473A (zh) 2020-02-21
CN110832473B CN110832473B (zh) 2023-01-13

Family

ID=59227721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780092436.XA Active CN110832473B (zh) 2017-06-21 2017-06-21 日志结构管理系统及方法

Country Status (3)

Country Link
US (1) US11983159B2 (zh)
CN (1) CN110832473B (zh)
WO (1) WO2018233820A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022222523A1 (zh) * 2021-04-22 2022-10-27 华为技术有限公司 一种日志管理方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559458B (zh) * 2020-12-11 2021-11-30 深圳金信诺高新技术股份有限公司 一种缩减日志大小的方法及系统
CN112799593A (zh) * 2021-02-01 2021-05-14 联想(北京)有限公司 一种处理方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975728A (zh) * 2005-12-01 2007-06-06 国际商业机器公司 使用最少的日志条目将数据库更改记入日志的设备和方法
CN104468505A (zh) * 2014-10-27 2015-03-25 北京神州绿盟信息安全科技股份有限公司 一种安全审计日志播放方法及装置
CN104657364A (zh) * 2013-11-18 2015-05-27 华为技术有限公司 一种日志结构数据库系统查询请求消息处理方法及装置
CN105940412A (zh) * 2014-02-06 2016-09-14 谷歌公司 用于删除所请求信息的方法和系统
US9460008B1 (en) * 2013-09-20 2016-10-04 Amazon Technologies, Inc. Efficient garbage collection for a log-structured data store

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0441087B1 (en) * 1990-02-08 1995-08-16 International Business Machines Corporation Checkpointing mechanism for fault-tolerant systems
JPH0619759B2 (ja) * 1990-05-21 1994-03-16 富士ゼロックス株式会社 マルチプロセッサシステムにおける相互通信方法
US6687698B1 (en) * 1999-10-18 2004-02-03 Fisher Rosemount Systems, Inc. Accessing and updating a configuration database from distributed physical locations within a process control system
US6754657B2 (en) * 2001-08-24 2004-06-22 Microsoft Corporation Time stamping of database records
US8374966B1 (en) * 2002-08-01 2013-02-12 Oracle International Corporation In memory streaming with disk backup and recovery of messages captured from a database redo stream
US7076508B2 (en) * 2002-08-12 2006-07-11 International Business Machines Corporation Method, system, and program for merging log entries from multiple recovery log files
US7890469B1 (en) * 2002-12-30 2011-02-15 Symantec Operating Corporation File change log
US7490113B2 (en) * 2003-08-27 2009-02-10 International Business Machines Corporation Database log capture that publishes transactions to multiple targets to handle unavailable targets by separating the publishing of subscriptions and subsequently recombining the publishing
US7853619B2 (en) * 2004-09-23 2010-12-14 Oracle International Corporation Storage model for large object columns
US7257690B1 (en) * 2004-10-15 2007-08-14 Veritas Operating Corporation Log-structured temporal shadow store
JP4144806B2 (ja) * 2005-08-30 2008-09-03 株式会社プロフィールド 情報編集装置、情報編集システム、情報編集方法、およびプログラム
US7870172B1 (en) * 2005-12-22 2011-01-11 Network Appliance, Inc. File system having a hybrid file system format
US8768890B2 (en) * 2007-03-14 2014-07-01 Microsoft Corporation Delaying database writes for database consistency
US8799213B2 (en) * 2007-07-31 2014-08-05 Oracle International Corporation Combining capture and apply in a distributed information sharing system
US7801852B2 (en) * 2007-07-31 2010-09-21 Oracle International Corporation Checkpoint-free in log mining for distributed information sharing
US7769714B2 (en) * 2007-11-06 2010-08-03 Oracle International Corporation Automatic error correction for replication and instantaneous instantiation
US7783601B2 (en) * 2007-11-08 2010-08-24 Oracle International Corporation Replicating and sharing data between heterogeneous data systems
US8655878B1 (en) * 2010-05-06 2014-02-18 Zeitera, Llc Scalable, adaptable, and manageable system for multimedia identification
US7917494B2 (en) 2008-07-11 2011-03-29 Adobe Software Trading Company Limited System and method for a log-based data storage
JP5712609B2 (ja) * 2010-12-24 2015-05-07 富士通株式会社 データ処理装置及びデータ記録方法
US8924370B2 (en) * 2011-05-31 2014-12-30 Ori Software Development Ltd. Efficient distributed lock manager
US8676788B2 (en) * 2012-03-13 2014-03-18 International Business Machines Corporation Structured large object (LOB) data
US9361332B2 (en) * 2013-03-15 2016-06-07 International Business Machines Corporation Index record-level locking for file systems using a B+ tree structure
US9715519B2 (en) * 2013-03-15 2017-07-25 Sandisk Technologies Llc Managing updates to multiple sets of metadata pertaining to a memory
US9171027B2 (en) * 2013-05-29 2015-10-27 International Business Machines Corporation Managing a multi-version database
CN104283906B (zh) * 2013-07-02 2018-06-19 华为技术有限公司 分布式存储系统、集群节点及其区间管理方法
US9275095B2 (en) * 2013-07-31 2016-03-01 International Business Machines Corporation Compressing a multi-version database
US9218142B2 (en) * 2013-08-22 2015-12-22 International Business Machines Corporation Log data store that stores data across a plurality of storage devices using non-disjoint layers
US10073630B2 (en) * 2013-11-08 2018-09-11 Sandisk Technologies Llc Systems and methods for log coordination
EP2905706B1 (en) * 2013-12-02 2017-04-05 Huawei Technologies Co., Ltd. Data processing device and data processing method
US10380026B2 (en) * 2014-09-04 2019-08-13 Sandisk Technologies Llc Generalized storage virtualization interface
US9830342B2 (en) * 2014-11-20 2017-11-28 International Business Machines Corporation Optimizing database deduplication
WO2016117022A1 (ja) * 2015-01-20 2016-07-28 株式会社日立製作所 ログの管理方法及び計算機システム
US9990391B1 (en) * 2015-08-21 2018-06-05 Amazon Technologies, Inc. Transactional messages in journal-based storage systems
EP3350703A1 (en) * 2015-10-19 2018-07-25 Huawei Technologies Co., Ltd. Method and device for determination of garbage collector thread number and activity management in log-structured file systems
US10127120B2 (en) * 2015-10-22 2018-11-13 Oracle International Corporation Event batching, output sequencing, and log based state storage in continuous query processing
US10795881B2 (en) * 2015-12-18 2020-10-06 Sap Se Table replication in a database environment
US9747222B1 (en) * 2016-03-31 2017-08-29 EMC IP Holding Company LLC Dynamic ingestion throttling of data log
EP3293636B1 (en) 2016-09-09 2021-03-17 Huawei Technologies Co., Ltd. Generic log memory scan
US10157006B1 (en) * 2016-12-29 2018-12-18 EMC IP Holding Company LLC Managing inline data compression in storage systems
US11392570B2 (en) * 2018-03-09 2022-07-19 Microsoft Technology Licensing, Llc Key-value store system
US11119668B1 (en) * 2020-03-19 2021-09-14 EMC IP Holding Company LLC Managing incompressible data in a compression-enabled log-structured array storage system
US11636089B2 (en) * 2020-08-03 2023-04-25 EMC IP Holding Company LLC Deferred reclamation of invalidated entries that are associated with a transaction log in a log-structured array

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975728A (zh) * 2005-12-01 2007-06-06 国际商业机器公司 使用最少的日志条目将数据库更改记入日志的设备和方法
US9460008B1 (en) * 2013-09-20 2016-10-04 Amazon Technologies, Inc. Efficient garbage collection for a log-structured data store
CN104657364A (zh) * 2013-11-18 2015-05-27 华为技术有限公司 一种日志结构数据库系统查询请求消息处理方法及装置
CN105940412A (zh) * 2014-02-06 2016-09-14 谷歌公司 用于删除所请求信息的方法和系统
CN104468505A (zh) * 2014-10-27 2015-03-25 北京神州绿盟信息安全科技股份有限公司 一种安全审计日志播放方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HECTOR GARCIA-MOLINA: "《DATABASE SYSTEMS The Complete book》", 15 June 2008 *
HOANG TAM VO: "LogBase: A Scalable Log-structured Database System in the Cloud", 《ARXIV》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022222523A1 (zh) * 2021-04-22 2022-10-27 华为技术有限公司 一种日志管理方法及装置

Also Published As

Publication number Publication date
US20200125553A1 (en) 2020-04-23
US11983159B2 (en) 2024-05-14
WO2018233820A1 (en) 2018-12-27
CN110832473B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
US11663187B2 (en) Key-value store system
US11080260B2 (en) Concurrent reads and inserts into a data structure without latching or waiting by readers
US11182356B2 (en) Indexing for evolving large-scale datasets in multi-master hybrid transactional and analytical processing systems
US10255287B2 (en) Method and apparatus for on-disk deduplication metadata for a deduplication file system
US9767131B2 (en) Hierarchical tablespace space management
EP3170106B1 (en) High throughput data modifications using blind update operations
US10831736B2 (en) Fast multi-tier indexing supporting dynamic update
US11176099B2 (en) Lockless synchronization of LSM tree metadata in a distributed system
US11580162B2 (en) Key value append
US11126600B2 (en) System and method to accelerate compaction
JP2008225693A (ja) データベース管理方法、装置およびプログラム
US11983159B2 (en) Systems and methods for management of a log-structure
CN109690522B (zh) 一种基于b+树索引的数据更新方法、装置及存储装置
CN109086462A (zh) 一种分布式文件系统中元数据的管理方法
JP6812826B2 (ja) 格納方法、格納装置及び格納プログラム
US20230124036A1 (en) In-place garbage collection for state machine replication
US10877881B2 (en) In-place garbage collection of a sharded, replicated distributed state machine based on mergeable operations
JP6006740B2 (ja) インデックス管理装置
US10942912B1 (en) Chain logging using key-value data storage
KR20210058613A (ko) 단일 파일의 병렬 읽기/쓰기를 위한 락킹 방법 및 이를 구현하는 컴퓨팅 장치
US11500590B2 (en) Method, device and computer program product for data writing
CN116627345A (zh) 应用于海量value键值对的高性能KV缓存方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant