CN102473083B - 用于读取优化的批数据存储的系统和方法 - Google Patents

用于读取优化的批数据存储的系统和方法 Download PDF

Info

Publication number
CN102473083B
CN102473083B CN201080031023.9A CN201080031023A CN102473083B CN 102473083 B CN102473083 B CN 102473083B CN 201080031023 A CN201080031023 A CN 201080031023A CN 102473083 B CN102473083 B CN 102473083B
Authority
CN
China
Prior art keywords
data
record
read
storage
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080031023.9A
Other languages
English (en)
Other versions
CN102473083A (zh
Inventor
克拉克·马修·麦克林内
卢克·朗尼根
库尔特·哈里曼
格伦·约翰·艾什尔曼
艾尔伦·戈尔德舒文
艾拉·杰弗里·科恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Go Bi Weituo Co.
Original Assignee
Bi Wei Opens Up Software Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bi Wei Opens Up Software Co filed Critical Bi Wei Opens Up Software Co
Publication of CN102473083A publication Critical patent/CN102473083A/zh
Application granted granted Critical
Publication of CN102473083B publication Critical patent/CN102473083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • G06F16/2386Bulk updating operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1865Transactional file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种计算机可读存储介质包括可执行指令以在数据仓库内只加表格的新的行中存储载入数据,而不更新或删除只加表格中的现有行。在数据库事务中加入新的行,该数据库事务确保可靠地处理所有事务的分布的读取和写入并且事务遵守快照隔离规则。在分离的更新表中保存与载入数据相关的数据变化。合并来自只加表格的数据和来自更新表的数据改变以提供读取数据。

Description

用于读取优化的批数据存储的系统和方法
相关申请的交叉引用
本申请涉及并主张2009年7月8日申请的美国专利申请No.12/499697,发明名称“Apparatus and Method for Read Optimized Bulk Data Storage”的权益,其全部内容结合于此作为参考。
技术领域
本发明总地涉及数字数据存储和检索。更具体地,本发明涉及在数据仓库数据库中的读取优化的批数据存储。
背景技术
在线事务处理(OLTP)指的是一类计算机数据库系统,其帮助和管理事务导向的应用。如在此使用,事务(transaction)指的是立刻处理用户请求的数据库事务。在OLTP中,记录经常被更新并且设计重点在于能够发现少量记录并且快速有效地更新这些记录。OLTP事务通常读取50或更少记录,并且插入和/或更新少量的记录。
数据仓库数据库是机构电子存储数据的知识库。数据仓库数据库向决定支持系统提供来自操作系统(例如OLTP系统)的数据流的结构。在一些例子中,例如并行数据库,查询可以同时读取数十亿记录。在这样的系统中,数据通常以非常大的批次(例如百万)插入,并且与OLTP工作量相比更新的频率小得多。
数据库事务具有称为ACID(单元性、一致性、隔离性、耐久性)属性的集合,其确保一组分布的读取和写入被可靠地处理。单元性确保所有的写入事务被执行或者没有写入事务被执行。一致性确保仅将有效的数据写入数据库。隔离性确保在事务过程中其他事务不能接入或看到处于中间状态的数据。可靠性确保当用户被通知成功时,写入交易将不受系统故障影响以及不会未完成。
许多数据库依赖锁定来提供ACID能力,特别是对于OLTP优化的数据库。在读取和写入数据库数据之前获取锁定。然而,数据仓库数据库可以具有数十亿记录,使得维持大量锁定或者逐步升级覆盖行范围的锁定是复杂的并且花费大量开销。大量锁定也损害并发性能。锁定的可选方案是多版本的并发控制(简称为MVCC),其中数据库保持修改的记录的分开副本。这允许用户读取数据而不获得任何锁定,并且对于数据参考数据库是理想的。MVCC是隔离性ACID保证的放宽。MVCC有时指的是快照隔离。
因为OLTP记录被经常更新,不同记录的MVCC信息显著不同。OLTP数据库比数据仓库数据库小得多。结果,每个记录的MVCC开销对于OLTP是不重要的问题。另一方面,在数据仓库数据库中,每个记录的MVCC开销存在问题。在数据仓库中,几乎所有的记录具有相同的事务快照版本(MVCC)信息,因为插入事务写入大量记录并且更新是更不频繁的。该信息非常冗余并且可能变成显著的磁盘空间开销。这个开销也减小了数据读取速率。
如前所述,期望提供一种改善的技术,用于实现快照隔离以优化数据仓库数据库。
发明内容
计算机可读存储介质包括可执行指令以在数据仓库内的只加表格的新的行中存储载入数据,而不更新或删除只加表格中的现有行。在数据库事务中加入新的行,该数据库事务确保可靠地处理所有事务的分布的读取和写入并且事务遵守快照隔离规则。在分离的更新表中保存与载入数据相关的数据变化。合并来自只加表格的数据和来自更新表的数据改变以提供读取数据。
附图说明
当通过结合附图参考下面的具体实施方式时,将更好地理解本发明,其中:
图1示出根据本发明的实施例配置的计算机系统。
图2示出根据本发明的实施例使用的只加(append only)存储器机制。
图3和4示出根据本发明的实施例使用的事务id处理。
图5示出根据本发明的实施例使用的合并处理。
相同的附图标记指的是若干视图中对应的部分。
具体实施方式
图1示出了根据本发明的实施例配置的计算机系统100。系统100包括第一组计算机102_1到102_N以及第二组计算机104_1到104_N。在一个实施例中,第一组计算机102支持事务处理。此外,第一组计算机支持向第二组计算机104的数据转移操作,该第二组计算机可以作为数据仓库。数据仓库支持根据本发明的读取优化的数据存储。
计算机102_1包括标准元件,例如中央处理单元110和通过总线11连接的输入/输出设备112。输入/输出设备112可以包括键盘、鼠标、显示器、打印机等。网络接口电路116还连接至总线以支持与其他计算机102和/或104的通信。存储器120还连接至总线11。存储器存储事务数据库122。在线事务处理(OLTP)模块124与事务数据库122一起支持在线事务处理操作。
存储器120还存储提取、转换和载入(ETL)模块126。ETL模块从事务数据库122提取数据,将其转换为适应特定标准(例如数据质量水平),并且将其载入到目标中(例如数据库或数据仓库)。由此,数据库或数据仓库中填入事务数据。
数据分析模块128可以用于分析事务数据库122中的数据。此外,数据分析模块128可以被用于分析被转移到有计算机104支持的数据库或数据仓库的数据。
结合成百个技术节点支持的数据仓库的大量并行数据库来实现本发明。通过示例,一个计算节点可以是计算机104_1,其包括标准元件,例如由总线162链接的网络接口电路166、输入/输出设备164和中央处理单元160。
存储器170也连接至总线162。存储器包括根据本发明配置的只加数据存储172。如下所述,只加数据存储172将新的行添加到表格而不更新或删除现有行。此外,通过消除事务可见信息来简化每一行,这可以每行节省许多字节的信息。事务可见信息可以由ETL模块126消除,或者可以由与只加数据存储172相关的可执行指令消除。
因为数据被直接加到只加表格(例如,数据被迫使进入磁盘存储),在事务记录中对此不进行记录。这节省了写入操作。此外,因为每行或每个数组不存在事务可见信息,那么就不存在关于要被写入的数据库块的示意比特。这节省了另一个写入操作。
不使用改变的数据信息更新只加数据存储172。因为不存在更新,可以紧密打包数组。此外,不需要更新区域中的数组的索引指示。
只读可见管理器174集合只加数据存储172一起操作。特别地,只读可见管理器174控制对只加数据存储172的访问。如其名字所暗示的,只读可见管理器174确定对于用户操作可见的只加数据存储172的区域。结合只加数据存储执行只读操作。这是因为只加数据存储不包括任何改变的数据信息(即,写入的信息)。
只读可见管理器174包括与数据存储相关联的更新的信息。例如,只读可见管理器174可以包括从只加数据存储中取消(删除)行的信息和/或将新的值加入(更新)只加数据存储172的信息。由此,只读可见管理器174处理要被应用至只加数据存储的信息。
合并模块176包括可执行的指令以从只加数据存储172读取可见信息。合并模块还从只读可见管理器174读取数据改变信息。合并模块176如来自只读可见管理器174的数据改变信息指定的那样从只加数据存储172删除或更新值。
图2示出了用于只加数据存储的示例存储器映射。在这个例子中,N个用户写入存储器的N个不同的区域。用户可以是机器,例如在ETL处理中可操作的机器。每个区域可以被看作一个文件。因为不同的用户写入不同的区域。支持并发写入。用户_1在区域200中具有一组承担的事务。用户_2是在区域202中插入记录的处理。用户_3是在区域204中一组承担的事务,而用户_N是在区域206中插入记录的处理。应该知道在许多机器之间可以分布存储器存储。实际上,在许多机器之间可以分布每个用户的存储器区域或文件。
图3和4提供根据本发明的实施例执行的存储器写入操作的具体例子。参考图3,块200表示分配给第一用户的第一存储器区域,而块202表示分配给第二用户的第二存储器区域。当启动写入事务时,分配事务识别号(XID#)。XID#在事务开始时提出。该图还示出了事务完成时间(t#)。事务完成时间号越大,事务完成的时间越晚。然后观察单个物理文件,文件以提交时间顺序(commit time order)增长。另一方面,文件不以XID#排序。由此,通过排序XID#不能确定时间可见性。然而,可以通过在完成对只加存储区域写入事务时分配XID#可以执行简化的数据可见机制,如图4所示。
图4示出了通过确定正确有效的文件结尾(EOF)边界可以计算数据可见性。这可以通过使得只读可见性管理器174将物理文件改变列表从最新的条目跨越到最旧的条目来完成。如果区域的完成XID小于读取请求XID,那么数据对于读取请求是可见的。另一方面,如果区域的完成XID不存在或大于读取请求XID,那么区域不可见,因为读取请求在写入操作承诺之前开始。
以具有XID为10的读取请求为例。参考图4的存储器段200,最大的完成XID是11,其大于读取请求XID。由此,XID11和XID9之间的区域是不可见的。然而,由于XID9小于10,则剩余的数据是可见的。即,从文件的开始到XID9的数据是可见的。
现在结合存储器块202考虑相同的读取请求值。这里10对应于XID10,这意味着相同的事务被写入。由此,可以读取数组。由于该段是可见的,整个存储器块202是可见的。换句话说,当插入事务提交时,使得私有区域公开为潜在大范围的新提交的记录,使得其他事务可以读取这些记录。
只加可视管理器174可以修整为每个文件保存的信息。需要保存文件的结尾标记。由此,可以保存文件号的简单列表和文件的结尾位置。建议保持最低活性的XID的条目以提供文件的索引。由此,在保存过程中,只读可见管理器可以扫描处理中的XID的列表,发现最小的一个并且去掉剩余的条目。图4中的信息是多余的:不需要存储开始XID或时间戳。仅需要当前XID(文件的结尾位置)。
图5示出了具有四个数组的只加数据存储172。该图还示出了只读可见管理器174,其具有没有被载入到只加数据存储172中的更新信息。合并模块176包括可执行指令以合并来自只加数据存储172的信息和来自只读可见管理器174的信息以产生读取数据500。在这个例子中,因为只读可见管理器174中的删除指令,从读取数据500消除数组1。数组2和3包括在读取数据500中,而数组4具有更新的值7(更新自其原始值4)。这是因为只读可见管理器174中的更新指令。读取数据500可以被读入私有存储器而不通过共享的存储器缓冲争夺。
观察得出只读可见管理器174还包括多版本并发控制(MVCC)信息。只加数据存储172不包括具有每个记录的MVCC头。而是,通过只读可见管理器174保存少量MVCC头。为了只读表格使用MVCC头来覆盖大量记录,在事务过程中插入必须在私有记录存储区域中写入。OLTP优化的存储能够在页的级别混合并发的插入记录,因为每个记录具有MVCC头。但是因为只读表格的每个记录不具有MVCC头,记录不具有将其与其他并发插入记录相区别所需的信息。当提交插入事务时,将私有区域公开为潜在大范围新提交的记录,使得其他事务可以读取记录。
由此,每个MVCC头的特征在于一定范围连续提交的记录。只加表格是连续提交范围的记录的集合。每个范围由一个MVCC头覆盖。MVCC信息允许读者确定关于读者的事务快照提交什么范围的只加表格的记录,并且仅读取这些记录范围。
在范围内提交的记录的数目初始地为单个事务中插入的记录的数目。后来当运行重组命令时,这些范围被合并成较大范围的提交的记录,并且使用较少的MVCC头。
尽管参考了覆盖记录范围的MVCC头,该信息仅为小的表格中存储的记录。由此,可见系统目录OLTP优化的记录内含具有可见记录范围信息。重组操作自然地将范围合并,因为范围由最高的行数识别(文件结尾)。即,对于系统目录的较早更新的高潮行数离开,而留下最新的最高提交的行号作为范围的结尾。
只加数据存储通常用于不经常被更新的数据,例如事实表和分区表中的分区。如果表格是大的或者需要大量载入时间,则应当使用只加数据表。另一方面,经常更新的维度表或返回较少行的小到中等尺寸的表格应该使用传统方式处理,例如OLTP优化的存储。
本领域普通技术人员将认识到与本发明相关的若干优点。例如,本发明包括数据的物理存储组织,其在连续的存储中在对于彼此相邻的给定事务的表中物理地互相定位所有行。存在最小的存储开销以支持MVCC。此外,本发明支持对于远程系统的快速和递增的复制,避免不必要的缓存池高速缓冲的额开销,并且存储与表数据不协调的可见元数据。这导致读取操作的性能增强,并且允许以非常低的开销差进行快速简单的复制。这些特征允许将100千兆字节的数据仓库记录存储的存储开销从大约100千兆字节减少到大约100千字节。
本发明的实施例涉及计算机存储产品,具有计算机可读介质,计算机可读介质上具有计算机代码用于执行各种计算机实施的操作。介质和计算机代码可以是为了本发明的目的特别设计和构建的,或者可以是公知的并且计算机软件领域的普通技术人员可以使用。计算机可读介质的例子包括但不局限于:磁性介质例如硬盘、软盘和磁带;光介质例如CD-ROM、DVD和全息设备;磁光介质;以及通常被配置为存储和执行程序代码的硬件设备例如专用集成电路(ASIC)、可编程逻辑器件(PLD)和ROM及RAM设备。计算机代码的例子包括例如由编译器产生的机器代码,以及包含由计算机使用翻译器执行的高级代码的文件。例如,本发明的实施例可以使用Java、C++或其他面向对象的编程语言和开发工具实现。本发明的另一个实施例可以在硬件电路中实现而不是由机器可执行的软件指令实现,或者在硬件电路中结合机器可执行的软件指令实现。
为了说明的目的,前述描述使用特定的术语来提供本发明的完全理解。然而,对于本领域普通技术人员显而易见,实施本发明不需要特定细节。由此,本发明的特定实施例的前述描述仅用于示例和描述的目的。它们不是耗尽的或者限制本发明到公开的特定形式,很明显,通过上述教导很多修改和变化是可能的。选择和描述实施例从而更好地解释本发明的宗旨和它的实际应用,由此使得本发明的普通技术人员可以更好地利用本发明,并且具有各种修改的各种实施例适于考虑的特定使用。所附的权利要求及其等效物用于限定本发明的范围。

Claims (17)

1.一种用于读取优化的批数据存储的方法,包括:
在数据仓库内的只加表格的新的行中存储载入数据,而不更新或删除只加表格中的现有行,其中,N个不同的数据源并发性地将存储数据直接存储在只加表格的N个不同的存储区域,其中,存储载入数据包括:
从第一数据源接收批存储的第一组记录;
从不同的第二数据源接收批存储的第二组记录;
并发性地将该第一组记录和该第二组记录写入该只加表格,其中,并发性地写包括:
将该只加表格中的第一存储区域分配给该第一数据源;
将该只加表格中的第二存储区域分配给该第二数据源;以及
将该第一组记录写入分配给该第一数据源的该第一存储区域,同时将该第二组记录写入分配给该第二数据源的该第二存储区域;以及
在完成写入该第一组记录时将第一完成事务标识符分配给该第一存储区域;
在分离的更新表中保存与载入数据相关的数据变化;以及
合并来自只加表格的数据和来自更新表的数据变化以提供读取数据,其中合并数据包括:
从请求者接收读取该第一组记录中的记录的请求;
将读请求事务标识符分配给该请求以读取该第一组记录中的记录;
确定该第一存储区域对读请求者是可见的,其中,该确定包括在该读请求事务标识符之前分配该第一完成事务标识符;
确定将该记录的数据改变信息保存在该更新表中;
生成读数据,其中,该生成包括将一个或多个数据变化应用到与该数据改变信息相对应的该记录;以及
提供该读数据给该请求者。
2.根据权利要求1所述的用于读取优化的批数据存储的方法,其中,所述存储载入数据的步骤包括迫使将载入数据写入到磁盘存储但不具有事务记录条目。
3.根据权利要求1所述的用于读取优化的批数据存储的方法,还包括在将该载入数据存储进该只加表格中的基础上,将事务可见信息从载入数据剥离。
4.根据权利要求3所述的用于读取优化的批数据存储的方法,其中由提取、转换和载入模块执行剥离事务可见信息。
5.根据权利要求3所述的用于读取优化的批数据存储的方法,其中,在数据仓库执行剥离事务可见信息。
6.根据权利要求1所述的用于读取优化的批数据存储的方法,其中,通过将事务可见信息从该载入数据剥离,压缩载入数据。
7.根据权利要求1所述的用于读取优化的批数据存储的方法,其中,在使用多个计算节点在并行数据仓库的并行分区表上执行所述方法。
8.根据权利要求1所述的用于读取优化的批数据存储的方法,其中,从提取、转换和载入模块接收载入数据,该提取、转换和载入模块从事务处理系统提取和转换事务数据。
9.根据权利要求1所述的用于读取优化的批数据存储的方法,其中,数据变化包括数据删除和数据更新。
10.根据权利要求1所述的用于读取优化的批数据存储的方法,其中,数据变化与多版本并发控制(MVCC)信息相关联。
11.根据权利要求10所述的用于读取优化的批数据存储的方法,还包括使用多版本并发控制信息追踪只加表格中的数据可见性。
12.根据权利要求11所述的用于读取优化的批数据存储的方法,其中,该N个不同的存储区域中的每一个与不同的文件相关,其中,该多版本并发控制信息指定最高提交的行值,该行值指示文件的结尾。
13.根据权利要求10所述的用于读取优化的批数据存储的方法,进一步包括在提供该读数据的基础上分离多版本并发控制信息。
14.一种用于读取优化的批数据存储的系统,包括:
在数据仓库内的只加表格的新的行中存储载入数据而不更新或删除只加表格中的现有行,其中,N个不同的数据源并发性地将存储数据直接存储在只加表格的N个不同的存储区域,其中,存储载入数据包括:
从第一数据源接收批存储的第一组记录;
从不同的第二数据源接收批存储的第二组记录;
并发性地将该第一组记录和第二组记录写入该只加表格,其中,并发性地写包括:
将该只加表格中的第一存储区域分配给该第一数据源;
将该只加表格中的第二存储区域分配给该第二数据源;
将该第一组记录写入分配给该第一数据源的该第一存储区域,同时将该第二组记录写入分配给该第二数据源的该第二存储区域;以及
在完成写入该第一组记录时将第一完成事务标识符分配给该第一存储区域;
在分离的更新表中保存与载入数据相关的数据变化;以及
合并来自只加表格的数据和来自更新表的数据变化以提供读取数据,其中合并数据包括:
从请求者接收读取该第一组记录中的记录的请求;
将读请求事务标识符分配给该请求以读取该第一组记录中的记录;
确定该第一存储区域对读请求者是可见的,其中,该确定包括在该读请求事务标识符之前分配该第一完成事务标识符;
确定将该记录的数据改变信息保存在该更新表中;
生成读数据,其中,该生成包括将一个或多个数据变化应用到该记录,该记录与该数据改变信息相对应;以及
提供该读数据给该请求者。
15.根据权利要求14所述的用于读取优化的批数据存储的系统,其中,所述在数据仓库内的只加表格的新的行中存储载入数据而不更新或删除只加表格中的现有行配置为迫使将载入数据写入到磁盘存储但不具有事务记录条目。
16.根据权利要求14所述的用于读取优化的批数据存储的系统,还包括在将该载入数据存储进该只加表格中的基础上将事务可见信息从载入数据剥离。
17.根据权利要求14所述的用于读取优化的批数据存储的系统,其中由提取、转换和载入模块执行剥离事务可见信息。
CN201080031023.9A 2009-07-08 2010-07-08 用于读取优化的批数据存储的系统和方法 Active CN102473083B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/499,697 US8762333B2 (en) 2009-07-08 2009-07-08 Apparatus and method for read optimized bulk data storage
US12/499,697 2009-07-08
PCT/US2010/041377 WO2011005967A1 (en) 2009-07-08 2010-07-08 Apparatus and method for read optimized bulk data storage

Publications (2)

Publication Number Publication Date
CN102473083A CN102473083A (zh) 2012-05-23
CN102473083B true CN102473083B (zh) 2015-06-10

Family

ID=43428254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080031023.9A Active CN102473083B (zh) 2009-07-08 2010-07-08 用于读取优化的批数据存储的系统和方法

Country Status (4)

Country Link
US (2) US8762333B2 (zh)
EP (2) EP3418883B1 (zh)
CN (1) CN102473083B (zh)
WO (1) WO2011005967A1 (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012210794A1 (de) * 2011-07-01 2013-02-07 International Business Machines Corporation System und Verfahren zur Datenqualitätsüberwachung
US8977703B2 (en) * 2011-08-08 2015-03-10 Adobe Systems Incorporated Clustering without shared storage
IL216056B (en) 2011-10-31 2018-04-30 Verint Systems Ltd A system and method for integrating databases
US8713046B2 (en) * 2011-11-08 2014-04-29 Sybase, Inc. Snapshot isolation support for distributed query processing in a shared disk database cluster
CN104160394B (zh) * 2011-12-23 2017-08-15 亚马逊科技公司 用于半结构化数据的可缩放分析平台
US20130311421A1 (en) * 2012-01-06 2013-11-21 Citus Data Bilgi Islemleri Ticaret A.S. Logical Representation of Distributed Database Table Updates in an Append-Only Log File
US9753999B2 (en) * 2012-01-06 2017-09-05 Citus Data Bilgi Islemieri Ticaret A.S. Distributed database with mappings between append-only files and repartitioned files
US10860563B2 (en) * 2012-01-06 2020-12-08 Microsoft Technology Licensing, Llc Distributed database with modular blocks and associated log files
US9053153B2 (en) * 2012-06-18 2015-06-09 Sap Se Inter-query parallelization of constraint checking
US10210175B2 (en) * 2012-09-28 2019-02-19 Oracle International Corporation Techniques for lifecycle state management and in-database archiving
US9235505B2 (en) * 2013-05-17 2016-01-12 Ab Initio Technology Llc Managing memory and storage space for a data operation
US9317549B2 (en) * 2013-06-25 2016-04-19 Optumsoft, Inc. Constraint-based consistency with snapshot isolation
US20150006466A1 (en) * 2013-06-27 2015-01-01 Andreas Tonder Multiversion concurrency control for columnar database and mixed OLTP/OLAP workload
US9659050B2 (en) 2013-08-06 2017-05-23 Sybase, Inc. Delta store giving row-level versioning semantics to a non-row-level versioning underlying store
US9262415B2 (en) 2013-11-08 2016-02-16 Sybase, Inc. Cache efficiency in a shared disk database cluster
CN104750746A (zh) * 2013-12-30 2015-07-01 中国移动通信集团上海有限公司 业务数据的处理方法、装置及分布式内存数据库系统
US9442913B2 (en) 2014-01-30 2016-09-13 International Business Machines Corporation Using parallel insert sub-ranges to insert into a column store
US10127260B2 (en) * 2014-11-25 2018-11-13 Sap Se In-memory database system providing lockless read and write operations for OLAP and OLTP transactions
US10725987B2 (en) 2014-11-25 2020-07-28 Sap Se Forced ordering of a dictionary storing row identifier values
US10552402B2 (en) 2014-11-25 2020-02-04 Amarnadh Sai Eluri Database lockless index for accessing multi-version concurrency control data
US10558495B2 (en) 2014-11-25 2020-02-11 Sap Se Variable sized database dictionary block encoding
US10296611B2 (en) 2014-11-25 2019-05-21 David Wein Optimized rollover processes to accommodate a change in value identifier bit size and related system reload processes
US10255309B2 (en) 2014-11-25 2019-04-09 Sap Se Versioned insert only hash table for in-memory columnar stores
US10474648B2 (en) 2014-11-25 2019-11-12 Sap Se Migration of unified table metadata graph nodes
WO2016179574A1 (en) * 2015-05-07 2016-11-10 Cloudera, Inc. Mutations in a column store
US10496630B2 (en) * 2015-10-01 2019-12-03 Microsoft Technology Licensing, Llc Read-write protocol for append-only distributed databases
US10409799B2 (en) * 2015-10-19 2019-09-10 International Business Machines Corporation Supporting updatable repeated values over variable schema
US10552079B2 (en) 2017-01-18 2020-02-04 International Business Machines Corporation Planning of data segment merge for distributed storage system
US10452631B2 (en) * 2017-03-15 2019-10-22 International Business Machines Corporation Managing large scale association sets using optimized bit map representations
US10430100B2 (en) 2018-02-28 2019-10-01 International Business Machines Corporation Transactional operations in multi-master distributed data management systems
US11042522B2 (en) 2018-06-11 2021-06-22 International Business Machines Corporation Resolving versions in an append-only large-scale data store in distributed data management systems
US11397714B2 (en) 2020-05-04 2022-07-26 Salesforce.Com, Inc. Database implementation for different application versions
CN112214454B (zh) * 2020-12-02 2021-02-26 长沙树根互联技术有限公司 数据处理方法、etl系统、服务器及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353835B1 (en) * 1998-08-03 2002-03-05 Lucent Technologies Inc. Technique for effectively maintaining materialized views in a data warehouse
US7515600B1 (en) * 2003-01-28 2009-04-07 Cisco Technology, Inc. Synchronizing portions of a database with different databases on different nodes of a network
US8131696B2 (en) * 2006-05-19 2012-03-06 Oracle International Corporation Sequence event processing using append-only tables
US7840575B2 (en) * 2006-05-19 2010-11-23 Oracle International Corporation Evaluating event-generated data using append-only tables
US7720537B2 (en) 2006-07-31 2010-05-18 Medtronic, Inc. System and method for providing improved atrial pacing based on physiological need
US8204898B2 (en) * 2007-02-02 2012-06-19 Telefonaktiebolaget L M Ericsson (Publ) Multi-site common directory and method for using the multi-site common directory
US9483525B2 (en) * 2007-04-30 2016-11-01 Microsoft Technology Licensing, Llc Reducing update conflicts when maintaining views
US7930274B2 (en) * 2007-09-12 2011-04-19 Sap Ag Dual access to concurrent data in a database management system
US7761434B2 (en) * 2007-11-19 2010-07-20 Red Hat, Inc. Multiversion concurrency control in in-memory tree-based data structures
US8161255B2 (en) * 2009-01-06 2012-04-17 International Business Machines Corporation Optimized simultaneous storing of data into deduplicated and non-deduplicated storage pools

Also Published As

Publication number Publication date
US20140351202A1 (en) 2014-11-27
EP2452261B1 (en) 2018-06-06
WO2011005967A1 (en) 2011-01-13
US8762333B2 (en) 2014-06-24
EP3418883A1 (en) 2018-12-26
EP2452261A1 (en) 2012-05-16
EP2452261A4 (en) 2014-01-22
EP3418883B1 (en) 2022-07-13
CN102473083A (zh) 2012-05-23
US20110010330A1 (en) 2011-01-13
US9058351B2 (en) 2015-06-16

Similar Documents

Publication Publication Date Title
CN102473083B (zh) 用于读取优化的批数据存储的系统和方法
US6003043A (en) Text data registering and retrieving system including a database storing a plurality of document files therin and a plural-character occurrence table for a text index and an update text buffer to retrieve a target document in cooperation with the database
US8799267B2 (en) Optimizing storage allocation
US11321302B2 (en) Computer system and database management method
EP3814930B1 (en) System and method for bulk removal of records in a database
US20160196295A1 (en) Rendezvous-based optimistic concurrency control
CN106528717A (zh) 数据处理方法和系统
US10007548B2 (en) Transaction system
US11537617B2 (en) Data system configured to transparently cache data of data sources and access the cached data
CN109690522B (zh) 一种基于b+树索引的数据更新方法、装置及存储装置
US10372684B2 (en) Metadata peering with improved inodes
US20180349422A1 (en) Database management system, database server, and database management method
US6535895B2 (en) Technique to avoid processing well clustered LOB's during reorganization of a LOB table space
US11714794B2 (en) Method and apparatus for reading data maintained in a tree data structure
US20170132295A1 (en) Top-k projection
JP7146611B2 (ja) カラムストアデータベースシステム及びデータベース処理高速化方法
US9841905B2 (en) File system having a database management system using file pre-allocation in mass storage devices
JP4422697B2 (ja) データベース管理システムおよび問合せの処理方法
Kang et al. EPUR: An Efficient Parallel Update System over Large-Scale RDF Data
JPH09305449A (ja) データベース管理システム
CN111694847A (zh) 一种特大lob数据高并发低延迟的更新访问方法
CN117688125A (zh) 一种索引管理方法、服务器及服务器集群
US20170262512A1 (en) Search processing method, search processing apparatus, and non-transitory computer-readable recording medium storing search processing program
CN111459949A (zh) 针对数据库的数据处理方法、装置及设备和索引更新方法
CN118069595A (zh) 基于区块链管理元数据的分布式存储系统存储及检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: GO BIWEITUO COMPANY

Free format text: FORMER OWNER: EMC CORPORATION

Effective date: 20141201

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: California, USA

Applicant after: Pivotal Software, Inc.

Address before: California, USA

Applicant before: Go Bi Weituo Co.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: GO BIWEITUO COMPANY TO: BIWEITUO SOFTWARE INC.

TA01 Transfer of patent application right

Effective date of registration: 20141201

Address after: California, USA

Applicant after: Go Bi Weituo Co.

Address before: Massachusetts, USA

Applicant before: EMC Corp.

C14 Grant of patent or utility model
GR01 Patent grant