CN113518984A - 数据库更新 - Google Patents
数据库更新 Download PDFInfo
- Publication number
- CN113518984A CN113518984A CN201980093559.4A CN201980093559A CN113518984A CN 113518984 A CN113518984 A CN 113518984A CN 201980093559 A CN201980093559 A CN 201980093559A CN 113518984 A CN113518984 A CN 113518984A
- Authority
- CN
- China
- Prior art keywords
- database
- server
- change
- copy
- database server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008859 change Effects 0.000 claims abstract description 114
- 238000012790 confirmation Methods 0.000 claims abstract description 22
- 238000004891 communication Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 23
- 230000004048 modification Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 230000001010 compromised effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 238000003860 storage Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000010076 replication Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 1
- 238000012508 change request Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000009987 spinning Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/275—Synchronous replication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
- G06F11/1451—Management of the data involved in backup or backup restore by selection of backup contents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/273—Asynchronous replication or reconciliation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/80—Database-specific techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/82—Solving problems relating to consistency
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于实现分布式数据库的数据库服务器,可访问数据存储器,该数据存储器保存由服务器管理的数据库的第一副本,服务器具有处理器和一个或多个通信接口,该一个或多个通信接口用于与客户端通信以及与管理数据库的第二副本的第二数据库服务器通信,所述数据库服务器通过以下步骤实现对数据库的更改:将更改传送到第二数据库服务器;在数据库的所述第一副本中存储所述更改的临时记录;当从第二数据库服务器接收第二数据库服务器已在数据库的第二副本中存储更改的记录的确认时:(i)指示第二数据库服务器在数据库的第二副本中存储所述更改的永久记录,(ii)在数据库的所述第一副本中存储所述更改的永久记录。
Description
技术领域
本发明涉及对存储在数据库中的信息进行更新。
背景技术
标准数据库事务是一系列数据库语句(操作),它们指示对数据库状态的更改,以及将事务中的所有更改永久应用于数据库的提交。图1示出了此功能的状态图。
数据库分布在多个服务器上是很常见的。每个服务器都维护自己的数据库副本。这具有以下优点:客户端可以访问任何服务器以查询数据库;如果其中一个服务器发生故障,则数据库可以保持可用,并在适当的时候恢复故障服务器。客户端与服务器通信,以对数据库进行查询。图2示出了这种系统的架构。
为了确保明确数据库的哪个副本是权威的,通常将其中一个服务器作为主服务器,并将其它服务器或每个其它服务器作为备服务器。主服务器保存的数据库的副本被视为最终副本。服务器用于进行数据库更新的协议可以使得主服务器在进行数据库更新时具有特殊作用。
图3示出了对分布式数据库进行更新的一个过程。在该示例中,有一个主服务器、一个备服务器和一个可以写入访问数据库的客户端。客户端向主服务器发送消息,请求对数据库进行更改。主服务器向备服务器发送消息,请求进行更改。备服务器在其数据库副本中进行更改,并向主服务器发送确认。当主服务器从备服务器接收已在备服务器的数据库副本中进行更改的确认时,主服务器知道在其自己的数据库副本中进行更改是安全的,而不会有损坏系统完整性的风险。主服务器在其自己的数据库副本中进行更改,然后向客户端发送已进行更改的确认。这种方法的一个问题是:确定对数据库进行“最终”更改通常需要写入长期存储,这可能涉及相对较长的延迟。例如,写入磁盘存储的典型时延可能高达30ms。相比之下,网络时延可能在1ms或更低的范围内。
图4示出了解决此问题的一种可能方法。在图2的方法中,主服务器在已从备服务器接收备服务器已进行更改的确认之前,确定(最终)提交对其数据库副本的更改。这种方法的一个问题是:如果主服务器在提交更改(例如,通过写入其日志)后发生故障,但消息仍在网络中排队,并且尚未到达备服务器,则备服务器的状态将与主服务器的状态不一致,如果系统随后从尚未提交更改的备服务器恢复,则更改可能会丢失。
需要一种更鲁棒的方法来在数据库中进行更改,并有可能减少时延。
发明内容
通过所附独立权利要求中描述的本发明实施例实现所述目的。在从属权利要求中进一步定义本发明实施例的有利实现方式。
本发明的第一方面提供了一种用于实现分布式数据库的数据库服务器,所述服务器可以访问数据存储器,所述数据存储器保存由所述数据库服务器管理的所述数据库的第一副本,并且所述服务器具有处理器和一个或多个通信接口,所述一个或多个通信接口用于与客户端通信以及与管理所述数据库的第二副本的第二数据库服务器通信,所述数据库服务器用于通过以下步骤实现对从所述客户端传送的所述数据库的更改:将所述更改传送到所述第二数据库服务器;在所述数据库的所述第一副本中存储所述更改的临时记录;当从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储所述更改的记录的确认时:(i)指示所述第二数据库服务器在所述数据库的所述第二副本中存储所述更改的永久记录,(ii)在所述数据库的所述第一副本中存储所述更改的永久记录。
例如,如果以前的主服务器损坏或不可用,则每个备服务器都能够升级为用作主服务器。如果服务器损坏或不可用(无论它以前用作主服务器或备服务器),则该服务器可以通过与主服务器通信来恢复其数据库本地副本。这提供了一种以减少时延的方式对数据库进行更改的鲁棒方法。
在第一方面的一种实现方式中,所述数据库服务器用于通过以下步骤实现所述更改:从所述客户端接收所述更改的指示,所述更改涉及对所述数据库的一个或多个元素的修改;在所述接收步骤之后但在将所述更改传送到所述第二数据库服务器的所述步骤之前,在所述数据库的所述第一副本中锁定所述更改中涉及的所述元素;在从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储所述更改的记录的确认的所述步骤之后,在所述数据库的所述第一副本中解锁所述更改中涉及的所述元素。
在第一方面的一种实现方式中,所述数据库服务器还用于通过以下步骤实现所述更改:从所述客户端接收所述更改的指示,所述更改涉及对所述数据库的一个或多个元素的修改;创建在所述更改前存在的所述更改中涉及的所述一个或多个元素的备份;在从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储所述更改的记录的确认的所述步骤之后,删除所述备份。
在第一方面的一种实现方式中,所述数据库服务器还用于通过向所述第二数据库服务器发送消息将所述更改传送到所述第二数据库服务器,所述消息指示的对所述第二数据库的唯一更改是从所述客户端传送的所述更改。
在第一方面的一种实现方式中,所述数据库服务器还用于:在从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储多个更改的记录的确认之后,通过向所述第二数据库服务器发送单个消息或一组关联消息,指示所述第二数据库服务器存储这些多个更改的永久记录。
在第一方面的一种实现方式中,所述数据库服务器还用于:在从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储所述更改的记录的确认之后,向所述客户端发送对所述更改的确认。
在第一方面的一种实现方式中,所述数据库服务器还用于:当所述服务器已用作主服务器并随后被降级为用作备服务器时,在所述数据库的所述第一副本中回退仅指定为临时记录的所述数据库更改的所述第一副本,但不回退指定为永久记录的更改。
在第一方面的一种实现方式中,所述数据库服务器还用于:当所述服务器一直用作主服务器并且在没有备服务器可用的情况下发生故障,并随后恢复为主服务器时,将所述临时记录转换为永久记录。
在第一方面的一种实现方式中,所述数据库服务器具有恢复操作模式,在所述恢复操作模式中,当所述数据库的所述第一副本的完整性受到损害时,所述服务器在所述数据库的所述第一副本或其替换版本中自动存储所有更改的永久记录,只有所述所有更改的临时记录存储在所述数据库的所述第一副本中。
在第一方面的一种实现方式中,所述数据库服务器为主数据库服务器,所述第二数据库服务器为备数据库服务器。
在第一方面的一种实现方式中,所述数据库服务器能够作为备数据库服务器运行,并且用于当作为备数据库服务器运行时,通过以下步骤实现对从主数据库服务器传送的所述数据库的更改:从所述主数据库服务器接收所述更改;在所述数据库的所述第一副本中存储所述更改的临时记录;向所述主数据库服务器发送对所述更改的确认。
在第一方面的一种实现方式中,所述数据库服务器还用于当用作备数据库服务器时:在从所述主数据库服务器接收在所述数据库的所述第二副本中存储一个或多个更改的永久记录的指令时,在所述数据库的所述第一副本中存储所述一个或多个更改的永久记录。
在第一方面的一种实现方式中,所述服务器还用于当用作备数据库服务器时:在从所述主数据库服务器接收更改之后,在存储所述更改的临时记录之前,锁定与所述更改相关的所述数据库的元素;在存储所述更改的临时记录之后,解锁这些元素。
在第一方面的一种实现方式中,所述服务器还用于在所述数据库的所述第一副本中存储所述更改的临时记录之前,将所述更改传送到所述第二数据库服务器。
本发明的第二方面提供了一种用于通过数据库服务器实现对数据库的更改的方法,所述数据库服务器可以访问保存所述数据库的第一副本的数据存储器,所述方法包括:从客户端接收对所述数据库的更改的指示;将所述更改传送到第二数据库服务器;在所述数据库的所述第一副本中存储所述更改的临时记录;从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储所述更改的记录的确认;在所述接收步骤之后:(i)指示所述第二数据库服务器在所述数据库的所述第二副本中存储所述更改的永久记录,(ii)在所述数据库的所述第一副本中存储所述更改的永久记录。
在第二方面的一种实现方式中,所述方法还包括在所述接收步骤之后,在指示所述第二数据库服务器在所述数据库的第二副本中存储所述更改的永久记录之前,向所述客户端发送对所述更改的确认。
附图说明
现将结合附图通过示例的方式对本发明进行描述。在附图中:
图1示出了用于对数据库进行更改的状态图;
图2示出了分布式数据库的通用结构;
图3示出了用于在分布式数据库中进行更改的消息流;
图4示出了用于在分布式数据库中进行更改的第二消息流;
图5示出了数据库服务器的架构;
图6示出了用于在分布式数据库中进行更改的第三消息流;
图7示出了实现图6的流程的系统的状态图;
图8示出了实现图6的流程的系统的通用功能;
图9是实现图6的流程的主服务器的流程图;
图10是实现图6的流程的备服务器的流程图;
图11示出了多层数据库架构中的功能;
图12示出了用于在分布式数据库中进行更改的第四消息流。
具体实施方式
图2示出了分布式数据库系统的架构。该系统包括多个服务器,标记为“主”和“备”。服务器可以通过网络相互通信。网络可以是专用网络或公共可访问的网络,如互联网,也可以包括这两种类型的部分。客户端可以访问服务器以查询数据库并从中检索数据。至少一些客户端还可以请求服务器在数据库中进行更改。每个服务器都有自己的数据库副本。客户端可以联系任何服务器以查询数据库。在第一种情况中,客户端可以联系任何服务器以请求数据库中的更改,但优先地将任何此类请求转发到主服务器进行处理。这使得协议以下面描述的方式运行,以避免数据库可能被损坏。为了提供恢复能力,例如,如果以前的主服务器损坏或不可用,则每个备服务器都能够升级为用作主服务器。如果服务器损坏或不可用(无论它以前用作主服务器或备服务器),则该服务器可以通过与主服务器通信来恢复其数据库本地副本。这些过程的机制将在下文描述。
图5示出了服务器20的架构。每个服务器包括至少一个处理器21和本地存储器22。本地存储器22以非瞬态形式存储用于使处理器执行本文所述的功能的程序代码。每个服务器都可以访问相应的数据存储器23、24。数据存储器可以是服务器的本地存储器,也可以是服务器的远程存储器。服务器在其数据存储器中存储和维护自己的数据库副本。数据存储器可以包括相对低时延存储器23(例如在集成电路上实现的随机存取存储器)和相对高时延存储器24(例如使用旋转磁盘的硬盘系统)中的一个或两个。服务器具有用于与客户端和其它服务器通信的通信接口25。
现在将描述服务器可以执行操作的机制。
当要对数据库进行更改时,要更改的数据的格式将取决于数据库的格式。在一个示例中,数据库可以存储称为行的多个数据块,并且每个行可以包括对应于多个列的数据字段,每个列对应于数据类别。例如,如果数据库与列车运行有关,则可能有对应到达时间和出发时间的列,以及多个行:一个行对应许多列车服务中的每个列车服务。在另一个示例中,数据可以存储在概念上离散的块或斑点中。对数据库的更改可以是更改现有数据(例如更新操作)或添加新数据(例如插入操作)。可以通过向数据库系统传递要存储的新数据(例如以数据元组的形式)和/或通过向数据库系统传递可应用于当前存储的数据以引起更改的逻辑来将更改传送到数据库系统。后一种情况的示例是,逻辑被传递到数据库,以指示要更改的记录(例如,到达时间在12:34之后的所有行),或指示要进行的更改(例如,将到达时间增加10分钟)。数据库可以实现SQL或任何其它合适的数据库协议。
图6示出了用于对数据库进行更改的机制和信号流。
在图6中,有一个客户端、一个主服务器和一个备服务器。实际上,可以有多个客户端,但是只有一个客户端会启动任何特定的数据库更改,而且可以有多个备服务器。主服务器和备服务器实际上可以具有相似的硬件和软件,但可以简单地用于分别用作主服务器和备服务器。
更改过程如下:
1.将请求数据库更改或提交的消息从客户端发送到主服务器。提交消息指示要对数据库进行的更改。
2.主服务器在其数据库副本中锁定将受更改影响的记录(元组)。元组的锁定可防止它们受到可能与当前元组并行发生的其它更改的影响。
3.主服务器向该备服务器或每个备服务器发送临时或轻量提交消息。轻量提交消息指示要对数据库进行的更改。这与来自客户端的提交消息所指示的更改相同。
4.主服务器对其数据库本地副本进行更改。该主服务器存储了一个指示,表示在该阶段中,更改是临时的。该指示可以通过与更改的数据关联的标志或通过主服务器维护的日志中的记录来作出。
5.在从主服务器接收轻量提交消息之后,该备服务器或每个备服务器在其数据库副本中锁定将受更改影响的记录(元组)。然后,该备服务器或每个备服务器对其数据库本地副本进行更改。该备服务器或每个备服务器存储了一个指示,表示在该阶段中,更改是临时的。该指示可以通过与更改的数据关联的标志或通过主服务器维护的日志中的记录来作出。这些操作完成后,该备服务器或每个备服务器将向主服务器返回确认消息。
6.在从该备服务器或每个备服务器接收确认消息之后,主服务器向客户端发送对更改的确认消息。在接收该确认后,客户端可以认为更改已完成,尽管数据库认为在该阶段,更改是临时的。
7.当主服务器已向客户端发送确认消息时,该主服务器在其数据库本地副本中解锁该已锁定以进行更改的元组。
8.当备服务器已向主服务器发送其确认消息时,该备服务器在其数据库本地副本中解锁该已锁定以进行更改的元组。
9.主服务器向该备服务器或每个备服务器发送有关更改的最终提交消息。最终提交消息指示它与哪个更改相关。
10.主服务器更新其数据库副本,以将更改标记为已完成。此后,该更改不再被视为数据库副本中的临时更改。
11.响应于最终提交消息,该备服务器或每个备服务器更新其数据库副本,以将更改标记为已完成。此后,该更改不再被视为数据库副本中的临时更改。完成此操作后,备服务器向主服务器发送确认消息。
应当理解,在主服务器和备服务器并行执行操作的过程中的各点处,如图6所示,主服务器与备服务器之间的步骤顺序并不重要。
参考图6描述的方法能够比图3所示的方法更快地实现更改。实现更改的一个时间度量是来自客户端的更改请求到达主服务器与主服务器向客户端发送对更改的可靠确认之间的延迟。在图6中描述的方法中,可以在具有比进行最终提交的存储器更低的时延的存储器中进行轻量提交。从客户端的角度来看,这可以减少更改操作的时延。例如,每个轻量提交可以在保存在存储器中的日志文件或其它数据结构中进行,该存储器对由相应服务器的处理器进行的更改具有比进行最终提交的存储器更低的时延。进行轻量提交的存储器可以是随机存取存储器(random access memory,RAM)。该存储器可以在集成电路上实现。进行最终提交的存储器可以是磁盘存储系统,例如,具有存储数据的旋转磁性盘片的磁盘存储系统。任何一个系统都可以由一个或多个固态磁盘驱动器或非易失性存储器实现。如果在进行最终提交之前,在日志文件或其它临时存储器中实现轻量提交,则该临时存储器指示的数据库状态将与进行最终提交的存储器中指示的状态不同。为了适应这种情况,优选地,当客户端查询数据库以从数据库请求数据时,服务器优先考虑临时存储器中指示的数据库状态,而不是进行最终提交的存储器中指示的状态。
参考图6描述的方法将提交过程分为两种状态:轻量提交和最终提交。轻量提交可持久地应用数据库更改/事务,但更改仍然可以通过服务器的回退操作撤消,例如,在服务器从故障中恢复的情况下。这将在下文进一步描述。一旦将更改应用到轻量提交阶段,用户就无法回退更改,对数据库的查询会将更改显示为可见,如同由标准提交进行的操作一样。最终提交使事务永久化。之后,即使在故障的情况下,最终提交也无法撤消。在轻量提交后进行最终提交的顺序使数据库状态与已实现标准提交的状态相同。
在图6的方法中,客户端使用的协议可以与传统更改操作相同。轻量提交状态和最终提交状态对客户端不可见。
图7示出了图6的系统的事务的状态图。
图8示出了图6的方法中主服务器和备服务器的逻辑功能。
图9和图10示出了主服务器和备服务器为实现图6的方法而执行的操作的流程图。
本发明的系统可以以多种方式应对故障。
-如果备服务器发生故障,可以基于主服务器的状态重建备服务器,如轻量提交和最终提交所示。
-如果主服务器发生故障,备服务器可以接管主服务器。新的主服务器中的所有临时(轻量)提交都标记为最终提交,然后将其数据库副本视为数据库参考副本。然后,可以基于新的主服务器重建以前的主服务器,并将以前的主服务器用作备服务器。在这种情况下,可能有多个候选备服务器来接管原始主服务器。可以比较这些候选备服务器的数据库的状态,以确定已从主服务器实现最新更改的服务器,该服务器可以被选为新的主服务器。为便于计算,可以选择具有最轻量提交等待完成的备服务器作为新的主服务器。
主服务器的数据库副本中保存的序列化顺序可以正好是数据库操作的排序列表,该排序列表是通过对给定主数据库状态执行并发事务而创建。如果列表在另一个数据库上连续重播(即非并发),该数据库在实现操作之前原来与主数据库处于相同状态,则第二数据库的结果状态将等效于主服务器的数据库副本的状态。
主服务器可以针对数据库的每次更改单独发送最终提交消息。或者,可以有利地将更改批处理在一起并向备服务器发送一个最终提交消息以进行多次更改。这可以减少主服务器与备服务器之间的消息传递量。
现在将讨论纠正节点故障的一些方面。
1.如果客户端具有打开的事务会话,并且主节点在客户端发送其提交消息之前发生故障,则事务为未提交,并如现有技术中已知的那样简单地回退(例如,使用超时)。
2.如果客户端向主服务器发送提交消息,但主服务器没有复制轻量提交消息,则事务简单地回退。
3.如果主服务器已发送轻量提交消息,但尚未接收到对该轻量提交消息的确认,则可能出现以下情况:
3.1.如果主服务器在本地记录轻量提交后发生故障,但没有备服务器接收到轻量提交,则事务不会提交,并且主服务器将撤消轻量提交的事务,作为恢复和重新同步过程的一部分。
3.2.如果主服务器在一个或多个备服务器接收到轻量提交后发生故障,则最高级的备服务器将升级为新的主服务器并最终完成提交。在重新同步期间,故障主服务器将接收事务的提交。
3.3.如果主服务器在记录轻量提交后发生故障,并且一个或多个备服务器接收到轻量提交,则最高级的备服务器将成为新的主服务器并最终完成提交。在重新同步期间,故障主服务器撤消轻量提交的事务,并将(再次)接收事务的提交。
4.如果主服务器确认了提交,则所有备服务器都有轻量提交,事务将被提交。故障主服务器撤消轻量提交的事务,并将(再次)接收事务的提交。
当主服务器在日志中存储轻量提交的更改时,它们可以以二进制格式存储。主服务器可以以相同的格式将更改传送到备服务器。
图6的方法可以嵌入具有两层的复制方案中。(参见图11的架构)。第一层同步复制更改,第二层异步复制更改。当在第一层中完成复制时,启动对第二层的复制。
如果有多个备服务器,则可以选择在主服务器实现最终提交之前,主服务器必须接收来自不同备服务器的更改确认次数。数量可以是数字,例如1、2、3或更多;相对值,例如超过一半;或条件,例如,每个可用性区域中至少有一个确认。该数量可以等于备服务器的总数。该参数可以针对每个事务设置。
图12示出了多层架构中的消息流。主服务器向层1中的至少一个备服务器发送轻量提交消息,并当这些备服务器中的至少一个已确认在其数据库副本中进行轻量提交时向客户端发送确认。然后,主服务器会使第二层进行更改。此处,层1上的复制与客户端的提交请求同步,层2上的复制是异步的。为清楚起见,图12中省略了锁定/解锁,但可以遵循与图6中类似的方法。
一个或多个备服务器可能不会对日志执行强制写入。这样,操作的时延将更短,但在整个系统故障的情况下,可能需要从最后一个运行的主副本恢复数据库。
一个或多个备服务器可以使用不是完全仲裁的共识协议。在现有技术中,有许多此类协议的示例,如Paxos或Raft。根据协议的属性,数据库完整性的置信度可能会有所不同。
申请人在此单独公开本文描述的每一个别特征及两个或两个以上此类特征的任意组合。以本领域技术人员的普通知识,能够根据本说明书将此类特征或组合作为整体实现,而不考虑此类特征或特征的组合是否能解决本文所公开的任何问题;且不对权利要求书的范围造成限制。本申请表明本发明的各方面可由任何这类个别特征或特征的组合构成。鉴于上文描述,对本领域技术人员来说显而易见的是可在本发明的范围内进行各种修改。
Claims (17)
1.一种用于实现分布式数据库的数据库服务器,其特征在于,所述服务器可以访问数据存储器,所述数据存储器保存由所述数据库服务器管理的所述数据库的第一副本,并且所述服务器具有处理器和一个或多个通信接口,所述一个或多个通信接口用于与客户端通信以及与管理所述数据库的第二副本的第二数据库服务器通信,所述数据库服务器用于通过以下步骤实现对从所述客户端传送的所述数据库的更改:
将所述更改传送到所述第二数据库服务器;
在所述数据库的所述第一副本中存储所述更改的临时记录;
当从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储所述更改的记录的确认时:(i)指示所述第二数据库服务器在所述数据库的所述第二副本中存储所述更改的永久记录,(ii)在所述数据库的所述第一副本中存储所述更改的永久记录。
2.根据权利要求1所述的数据库服务器,其特征在于,所述服务器用于通过以下步骤实现所述更改:
从所述客户端接收所述更改的指示,所述更改涉及对所述数据库的一个或多个元素的修改;
在所述接收步骤之后但在将所述更改传送到所述第二数据库服务器的所述步骤之前,在所述数据库的所述第一副本中锁定所述更改中涉及的所述元素;
在从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储所述更改的记录的确认的所述步骤之后,在所述数据库的所述第一副本中解锁所述更改中涉及的所述元素。
3.根据权利要求1所述的数据库服务器,其特征在于,所述服务器用于通过以下步骤实现所述更改:
从所述客户端接收所述更改的指示,所述更改涉及对所述数据库的一个或多个元素的修改;
创建在所述更改前存在的所述更改中涉及的所述一个或多个元素的备份;
在从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储所述更改的记录的确认的所述步骤之后,删除所述备份。
4.根据上述权利要求中任一项所述的数据库服务器,其特征在于,所述服务器用于通过向所述第二数据库服务器发送消息将所述更改传送到所述第二数据库服务器,所述消息指示的对所述第二数据库的唯一更改是从所述客户端传送的所述更改。
5.根据上述权利要求中任一项所述的数据库服务器,其特征在于,所述服务器用于:在从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储多个更改的记录的确认之后,通过向所述第二数据库服务器发送单个消息或一组关联消息,指示所述第二数据库服务器存储这些多个更改的永久记录。
6.根据上述权利要求中任一项所述的数据库服务器,其特征在于,所述服务器用于:在从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储所述更改的记录的确认之后,向所述客户端发送对所述更改的确认。
7.根据上述权利要求中任一项所述的数据库服务器,其特征在于,所述服务器用于:当所述服务器已用作主服务器并随后被降级为用作备服务器时,在所述数据库的所述第一副本中回退仅指定为临时记录的所述数据库更改的所述第一副本,但不回退指定为永久记录的更改。
8.根据上述权利要求中任一项所述的数据库服务器,其特征在于,所述服务器用于:当所述服务器一直用作主服务器并且在没有备服务器可用的情况下发生故障,并随后恢复为主服务器时,将所述临时记录转换为永久记录。
9.根据上述权利要求中任一项所述的数据库服务器,其特征在于,所述服务器具有恢复操作模式,在所述恢复操作模式中,当所述数据库的所述第一副本的完整性受到损害时,所述服务器在所述数据库的所述第一副本或其替换版本中自动存储所有更改的永久记录,只有所述所有更改的临时记录存储在所述数据库的所述第一副本中。
10.根据上述权利要求中任一项所述的数据库服务器,其特征在于,所述服务器用于将所述临时记录和所述永久记录存储在所述数据库的所述第一副本的日志中。
11.根据上述权利要求中任一项所述的数据库服务器,其特征在于,所述服务器是主数据库服务器,所述第二数据库服务器是备数据库服务器。
12.根据上述权利要求中任一项所述的数据库服务器,其特征在于,所述服务器能够作为备数据库服务器运行,并且用于当作为备数据库服务器运行时,通过以下步骤实现对从主数据库服务器传送的所述数据库的更改:
从所述主数据库服务器接收所述更改;
在所述数据库的所述第一副本中存储所述更改的临时记录;
向所述主数据库服务器发送对所述更改的确认。
13.根据权利要求12所述的数据库服务器,其特征在于,所述服务器用于当用作备数据库服务器时:
在从所述主数据库服务器接收在所述数据库的所述第二副本中存储一个或多个更改的永久记录的指令时,在所述数据库的所述第一副本中存储所述一个或多个更改的永久记录。
14.根据权利要求12或13所述的数据库服务器,其特征在于,所述服务器用于当用作备数据库服务器时:
在从所述主数据库服务器接收更改之后,在存储所述更改的临时记录之前,锁定与所述更改相关的所述数据库的元素;
在存储所述更改的临时记录之后,解锁这些元素。
15.根据上述权利要求中任一项所述的数据库服务器,其特征在于,所述服务器用于在所述数据库的所述第一副本中存储所述更改的临时记录之前,将所述更改传送到所述第二数据库服务器。
16.一种用于通过数据库服务器实现对数据库的更改的方法,所述数据库服务器可以访问保存所述数据库的第一副本的数据存储器,其特征在于,所述方法包括:
从客户端接收对所述数据库的更改的指示;
将所述更改传送到第二数据库服务器;
在所述数据库的所述第一副本中存储所述更改的临时记录;
从所述第二数据库服务器接收所述第二数据库服务器已在所述数据库的所述第二副本中存储所述更改的记录的确认;
在所述接收步骤之后:(i)指示所述第二数据库服务器在所述数据库的所述第二副本中存储所述更改的永久记录,(ii)在所述数据库的所述第一副本中存储所述更改的永久记录。
17.根据权利要求16所述的方法,其特征在于,包括在所述接收步骤之后,在指示所述第二数据库服务器在所述数据库的第二副本中存储所述更改的永久记录之前,向所述客户端发送对所述更改的确认。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2019/055274 WO2020177850A1 (en) | 2019-03-04 | 2019-03-04 | Database updates |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113518984A true CN113518984A (zh) | 2021-10-19 |
Family
ID=65763419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980093559.4A Pending CN113518984A (zh) | 2019-03-04 | 2019-03-04 | 数据库更新 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210397605A1 (zh) |
CN (1) | CN113518984A (zh) |
WO (1) | WO2020177850A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11537454B2 (en) * | 2020-01-09 | 2022-12-27 | International Business Machines Corporation | Reducing write operations in middleware |
US20220414069A1 (en) * | 2021-06-24 | 2022-12-29 | Oracle International Corporation | Techniques for safe database migration with no downtime |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020133507A1 (en) * | 2001-03-16 | 2002-09-19 | Iti, Inc. | Collision avoidance in database replication systems |
US20150278333A1 (en) * | 2014-03-28 | 2015-10-01 | Fujitsu Limited | Information processing apparatus and control method |
CN105550288A (zh) * | 2015-12-10 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 数据库系统的更新方法和管理系统 |
CN107835983A (zh) * | 2015-04-16 | 2018-03-23 | 诺宝公司 | 使用一致的数据库快照在分布式数据库中进行备份和还原 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6219675B1 (en) * | 1997-06-05 | 2001-04-17 | Microsoft Corporation | Distribution of a centralized database |
US5999931A (en) * | 1997-10-17 | 1999-12-07 | Lucent Technologies Inc. | Concurrency control protocols for management of replicated data items in a distributed database system |
CA2472887A1 (en) * | 2003-06-30 | 2004-12-30 | Gravic, Inc. | Methods for ensuring referential integrity in multithreaded replication engines |
US6845384B2 (en) * | 2003-08-01 | 2005-01-18 | Oracle International Corporation | One-phase commit in a shared-nothing database system |
GB2472620B (en) * | 2009-08-12 | 2016-05-18 | Cloudtran Inc | Distributed transaction processing |
US10180954B2 (en) * | 2015-05-29 | 2019-01-15 | Nuodb, Inc. | Disconnected operation within distributed database systems |
-
2019
- 2019-03-04 CN CN201980093559.4A patent/CN113518984A/zh active Pending
- 2019-03-04 WO PCT/EP2019/055274 patent/WO2020177850A1/en active Application Filing
-
2021
- 2021-09-03 US US17/466,946 patent/US20210397605A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020133507A1 (en) * | 2001-03-16 | 2002-09-19 | Iti, Inc. | Collision avoidance in database replication systems |
US20150278333A1 (en) * | 2014-03-28 | 2015-10-01 | Fujitsu Limited | Information processing apparatus and control method |
CN107835983A (zh) * | 2015-04-16 | 2018-03-23 | 诺宝公司 | 使用一致的数据库快照在分布式数据库中进行备份和还原 |
CN105550288A (zh) * | 2015-12-10 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 数据库系统的更新方法和管理系统 |
Non-Patent Citations (1)
Title |
---|
佚名: "GT.M Administration and Operation Guide", pages 193 - 194, Retrieved from the Internet <URL:《http://mumps.cz/gtm/books/ao/UNIX_manual/ao_UNIX_print.pdf》> * |
Also Published As
Publication number | Publication date |
---|---|
US20210397605A1 (en) | 2021-12-23 |
WO2020177850A1 (en) | 2020-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10114710B1 (en) | High availability via data services | |
JP5559821B2 (ja) | データを記憶する方法、データをミラーリングする方法、命令シーケンスを担持する機械読み取り可能な媒体、および、当該方法をコンピュータに実行させるためのプログラム | |
JP2708386B2 (ja) | 同時更新及び複写手順を通して重複データベースを回復させる方法及び装置 | |
US7103586B2 (en) | Collision avoidance in database replication systems | |
US7730489B1 (en) | Horizontally scalable and reliable distributed transaction management in a clustered application server environment | |
US7003694B1 (en) | Reliable standby database failover | |
US6434555B1 (en) | Method for transaction recovery in three-tier applications | |
JP2022511084A (ja) | ブロックチェーン技術を用いてデータベースアプリケーションを増強するためのシステムおよび方法 | |
CA2550614C (en) | Cluster database with remote data mirroring | |
US20130110781A1 (en) | Server replication and transaction commitment | |
US20030050930A1 (en) | Method and apparatus for lockstep data replication | |
US20210397605A1 (en) | Database updates | |
US11960478B2 (en) | Database system with transactional commit protocol based on safe conjunction of majorities | |
EP2980707B1 (en) | Method for creating a database clone of a distributed database, system for creating a database clone of a distributed database, program and computer program product | |
US20240211471A1 (en) | Database system with transactional commit protocol based on safe conjunction of majorities | |
Kolltveit et al. | The circular two-phase commit protocol | |
Dong et al. | Optimization of asynchronous volume replication protocol |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |