CN110196788B - 一种数据读取方法、装置、系统及存储介质 - Google Patents

一种数据读取方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN110196788B
CN110196788B CN201810295296.2A CN201810295296A CN110196788B CN 110196788 B CN110196788 B CN 110196788B CN 201810295296 A CN201810295296 A CN 201810295296A CN 110196788 B CN110196788 B CN 110196788B
Authority
CN
China
Prior art keywords
data
host
standby
information
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810295296.2A
Other languages
English (en)
Other versions
CN110196788A (zh
Inventor
李海翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810295296.2A priority Critical patent/CN110196788B/zh
Publication of CN110196788A publication Critical patent/CN110196788A/zh
Application granted granted Critical
Publication of CN110196788B publication Critical patent/CN110196788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit

Abstract

本发明公开了一种数据读取方法、装置、系统及存储介质,所述方法包括:主机向备机发送主机回滚段的信息;所述备机根据所述主机回滚段的信息构造出备机回滚段;在所述备机接收到事务的读取请求时,所述备机获取与所述事务相应的数据页,并根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;所述备机根据所述读一致性快照对所述事务的数据进行读取。本发明使得主机和备机之间传输的数据量大幅减少;使得主机和共享存储系统之间传输的数据量有效减少,进而提高了主备系统的运行效率,为实现分布式事务提供了技术支撑;进一步加速了计算和存储分离的主备复制系统的整体运行速度。

Description

一种数据读取方法、装置、系统及存储介质
技术领域
本发明涉及分布式系统技术领域,尤其涉及一种数据读取方法、装置、系统及存储介质。
背景技术
随着数据量越来越大,单机系统的事务处理能力,已经不能满足处理需要,这就需要分布式系统来分担计算需求。其中,分布式系统的事务特性需要满足ACID四个特性:A是原子性,C是一致性,I是隔离性,D是持久性。A保证了操作(一些有完整逻辑意义的数据读写动作)要么成功要么失败;A和C保证了数据不会因写操作发生不一致;I保证了在多会话并发读写同一份数据的情况下数据的完全一致(或数据可能不一致但尚可接受);D保证了被修改的数据能长久地存储。
其中,电子交易类等业务操作环境如电信系统、银行系统等都需要ACID四个特性来保证交易的安全可靠;尤其地对事务数据的一致性要求很高,所以在系统使用过程中都需要检查其主机和备机的数据是否严格一致,以确保切换后应用业务的持续性或验证数据库系统自身的正确性。典型地多使用一主多备系统做高可靠保障,为了提高系统的利用率,备机常对外提供只读服务。但是,由于网络、硬件和软件平台等复杂环境的不确定性,以及数据库系统本身的缺陷,应用过程中会出现备机读取的数据不一致,致使系统失去高可用性的问题。
发明内容
为了解决上述技术问题,本发明提供了一种数据读取方法、装置、系统及存储介质,具体地:
第一方面提供了一种数据读取方法,包括:
主机向备机发送主机回滚段的信息;所述备机根据所述主机回滚段的信息构造出备机回滚段;
在所述备机接收到事务的读取请求时,所述备机获取与所述事务相应的数据页,并根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;
所述备机根据所述读一致性快照对所述事务的数据进行读取。
第二方面提供了另一种数据读取方法,包括:
接收主机发送的主机回滚段的信息,根据所述主机回滚段的信息构造出相应的备机回滚段;
在接收到事务的读取请求时,获取与所述事务相应的数据页;并根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;
根据所述读一致性快照对所述事务的数据进行读取。
第三方面提供了另一种数据读取方法,包括:
接收主机发送的重做日志;
根据所述重做日志构造出数据页,并将所述数据页存储在共享缓存中;
在备机接收到事务的读取请求,且备机的数据缓存区不存在与所述事务相应的数据页时,则使所述备机从本地的共享缓存中获取所述数据页;并使所述备机根据所述数据页的信息,以及从主机接收的主机回滚段的信息得到的备机回滚段,生成读一致性快照;使所述备机根据所述读一致性快照对所述事务的数据进行读取。
第四方面提供了一种数据读取装置,所述装置包括:
备机回滚段构造模块,用于接收主机发送的主机回滚段的信息,根据所述主机回滚段的信息构造出相应的备机回滚段;
快照构造模块,用于在接收到事务的读取请求时,获取与所述事务相应的数据页;并根据所述回滚段信息和所述数据页的信息构造出快照;
数据读取模块,用于根据所述快照对所述事务的数据进行读取,保障备机与主机读取数据的一致性。
所述快照构造模块包括:
第一数据页获取单元,用于在本地的数据缓存区存在与所述事务相应的数据页时,则从所述数据缓存区获取所述数据页;
第二数据页获取单元,用于在本地的数据缓存区不存在与所述事务相应的数据页时,则从共享存储系统获取所述数据页;所述共享存储系统中的数据页由所述共享存储系统对来自主机的重做日志进行重构得到。
第五方面提供了另一种数据读取装置,包括:
重做日志接收模块,用于接收主机发送的重做日志;
数据页构造模块,用于根据所述重做日志构造出数据页,并将所述数据页存储在共享缓存中;在备机接收到事务的读取请求,且备机的数据缓存区不存在与所述事务相应的数据页时,则使所述备机从本地的共享缓存中获取所述数据页;并使所述备机根据所述数据页的信息,以及从主机接收的主机回滚段的信息得到的备机回滚段,生成读一致性快照;使所述备机根据所述读一致性快照对所述事务的数据进行读取。
第六方面提供了一种数据读取系统,包括上层的主备系统和下层的共享存储系统;所述主备系统包括主机和备机;
所述备机配置有第四方面所述的数据读取装置,所述共享存储系统配置有第五方面所述的数据读取装置。
第七方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第二方面所述的数据读取方法,或者第三方面所述的数据读取方法。
本发明提供的数据读取方法、装置、系统及存储介质,具有如下的有益效果:
本发明备机中的回滚段信息源自主机发给备机的回滚段信息,使得主机和备机之间传输的数据量大幅减少;本发明的共享存储系统接收的是去掉了发给备机的回滚段信息的事务日志,使得主机和共享存储系统之间传输的数据量有效减少。
本发明通过基于回滚段信息的单独传输,使得主备复制系统间备机只读事务的正确性,进而保证了数据的读一致性。并且因主机发送给备机的数据量减少,在备机应用的数据量减少,进而提高了主备系统的运行效率,为实现分布式事务提供了技术支撑。
并且,本发明通过为用户提供极低延迟的备机读一致性,提升了主备系统间数据的传输速度;依据数据处理中主备系统的数据正确性和性能优化,进一步加速了计算和存储分离的主备复制系统的整体运行速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明提供的一种用于保障数据读取一致性的结构示意图;
图2是本发明实施例提供的一种数据读取方法流程图;
图3是本发明实施例提供的一种数据读取方法中获取数据页的方法流程图;
图4是本发明实施例提供的一种数据读取方法中构造数据页的方法流程图;
图5是本发明实施例提供的另一种数据读取方法流程图;
图6是本发明实施例提供的另一种数据读取方法流程图;
图7是本发明实施例提供的另一种数据读取方法流程图;
图8是本发明实施例提供的一种数据读取装置框图;
图9是本发明实施例提供的另一种数据读取装置框图;
图10是本发明实施例提供的另一种数据读取装置框图;
图11是本发明实施例提供的另一种数据读取系统整体框图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先对于本发明涉及到的Redo和Undo给与说明:
Redo意为重做,以恢复操作或是重现操作为目的。Redo记录transaction logs(交易日志),分为online logs(在线日志)和archived logs(归档日志)。比如,机器停电,那么在重起之后需要online Redo logs(在线重做日志)去恢复系统到失败点。比如,磁盘坏了,需要用archived Redo logs(归档重做日志)和online Redo logs(在线重做日志)去恢复数据。Undo意为撤销,以撤销操作为目的,返回上一个状态。在数据库恢复时,对于已经commit(提交)的事务要执行Redo(重做)操作,即根据日志内容把事务对数据库修改重做一遍;对于还未结束的事务(即只有开始而未结束的事务)执行Undo(撤销)操作,及根据日志内容把该事务对数据库修改重做一遍。
Redo日志(重做日志)和Undo日志(回滚日志)与事务操作息息相关,都属于事务日志。其中,Redo日志的信息需要先写到磁盘上,因为它是最原始的操作,能用于场景重现。并且,Redo日志也会记录Undo(撤销)操作;比如,如图*所示,当我们插入一条数据时,首先这个动作会被记录到Redo log中,操作也会被记录到到Undo,Undo本身的动作也会做为一条数据被记录到Redo log,插入一条数据,索引(indexes)会发生变化,索引的变化也会做一条数据被记录到Redo log。Redo记录着一个操作所有相关的信息,这样才能完整的保证场景的重现。
具体地,Undo日志记录某数据被修改前的值,可以用来在事务失败时进行rollback回滚;Redo日志记录某数据块被修改后的值,可以用来恢复未写入data file(数据文件)的已成功事务更新的数据。例如某一事务的事务序号为T1,其对数据X进行修改,设X的原值是5,修改后的值为15,那么Undo日志为<T1,X,5>,Redo日志为<T1,X,15>。
现有针对数据读取一致性保障方案存在一些问题:系统中的主机一旦崩溃,备机很可能丢失数据;系统处理过程中耗时严重、效率很低;主机刷出的Redo日志包含了大量的信息,使得刷出的数据量变大,备机恢复时只能从单一的数据源中获取,不能有效地利用多核多线程等并行机制提高效率;并且,Redo日志被Apply了多次(在备机和共享存储上都被Apply),浪费了计算资源;事务相关的信息也存于Redo日志,Undo相关的回滚段信息也存于Redo日志,Redo日志被多路传输(主机发送事务日志给备机和共享存储)造成了网络资源的浪费。
本发明提出了一种数据读取一致性的保障方案,对应的系统架构如图1所示,其中,系统的架构采取计算与存储分离的结构,包括上层的主备系统和下层的共享存储系统,所述主备系统包括主机Master和备机,所述主机和备机均包括有单独的数据库实例;对应地,主机和备机之间的关系可以看做是主数据库实例和备数据库实例之间的关系。所述主备系统可以是一主一备、一主多备、多主多备的结构,向用户提供计算服务。其中,一主多备就是从主机向多个备机上传输数据,该主机可以同时往多个备机上传输也可以进行逐个传输。多主多备是每个主机有自己的一备或多备,可以看成是多个各自独立的主备结构。
本发明的系统架构是利用MVCC(Multiversion Concurrency Control多版本并发控制)机制实现多版本并发访问控制。在MVCC下,每个读操作会看到一个一致性的snapshot快照,并且可以实现非阻塞的读。并且,MVCC允许数据具有多个版本,这个版本可以是时间戳或者是全局递增的事务ID;其实现原理为:
------------------------------------------------------------->时间轴
|-------R(T1)-----|
|-----------U(T2)-----------|
如上所示,假设有两个并发操作R(T1)和U(T2),T1和T2是事务ID,T1小于T2,系统中包含数据a=1(T1),R和U的操作如下:
R:read 1(T1)
U:a=2(T2)
R(读操作)的版本T1表示要读取数据的版本,而之后U(写操作)才会更新版本,读操作不会。在时间轴上,R晚于U,而由于U在R开始之后提交,所以对于R是不可见的。所以,R只会读取T1版本的数据,即a=1。
由于在update更新操作提交之前,不能影响已有数据的一致性,所以不会改变旧的数据,update更新操作会被拆分成insert插入操作和delete删除操作。需要标记删除旧的数据,insert插入新的数据。只有update更新操作提交之后,才会影响后续的读操作。而对于读操作,只能读到在其之前的所有的写操作,正在执行中的写操作对其是不可见的。
具体地,本发明实施例提供了一种数据读取方法,能够通过在主备系统间只传输回滚段信息,备机应用接收到的主机的回滚段信息,以实现分布式主备系统间读事务一致性的保障机制;使得一主一备、一主多备、多主多备的主从复制架构中,备机能够提供正确高效的读一致性;能够使得数据库、大数据处理等分布式主备系统的读事务执行,不仅正确性得以保证,而且架构变得更加灵活和可靠。具体地,如图2所示,本实施例提供的数据读取方法,包括:
S101.主机向备机发送主机回滚段的信息;所述备机根据所述主机回滚段的信息构造出备机回滚段;
其中,结合图1给与说明:上层的主备系统可以是一主一备、一主多备或多主多备的结构,向用户提供计算服务。其中,主备之间只传输回滚段信息,备机利用MVCC和回滚段相结合的技术构造出备机的回滚段信息。如图的②所示。
S102.在所述备机接收到事务的读取请求时,所述备机获取与所述事务相应的数据页,并根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;
其中,事务(Transaction)是并发控制的基本单位;属于操作序列,对应的操作要么都执行,要么都不执行。例如,银行转账工作:从一个账号扣款并使另一个账号增款,这两个操作要么都执行,要么都不执行。
其中,在步骤S102中,所述备机获取与所述事务相应的数据页,如图3所示,包括:
S1021.在备机的数据缓存区存在与所述事务相应的数据页时,则从所述数据缓存区获取所述数据页;
S1022.在所述数据缓存区不存在与所述事务请求相应数据页时,则从所述共享存储系统的共享缓存中获取相应的数据页。
具体地,S1022中,所述共享存储系统的共享缓存中的数据页的构造方法或构造过程,如图4所示,包括:
S1022a.所述主机向所述共享存储系统发送重做日志;
具体地,在步骤S1022a中,上层的主机随着事务生成Redo日志(重做日志),然后把Redo日志发送给下层的共享存储系统(如图的①所示)。其中,主机发给共享存储系统的重做日志,是去掉了主机发给备机的回滚段的信息(Undo-SEG-LOG)对应的这部分日志,这部分日志称为Redo-WITHOUT-SEG-LOG;这使得主机和共享存储系统之间传输的数据量有效减少。
S1022b.所述共享存储系统根据所述重做日志构造出数据页,并将所述数据页存储在共享缓存中。
具体地,下层是存储层,存储层的共享存储系统通过应用(Apply)Redo日志(如图的③所示)构造出数据页,并将所述数据页存于共享存储系统对上层提供的共享caching缓存中。
其中所述共享存储系统包括多个单个的存储系统,如图中的副本1、副本2……,也就是共享存储系统的共享缓存;通过多个共享缓存,相应地能够对构造出的数据页的信息进行多份存储。
详细地,所述数据页提供的数据包括所述主机上正在更改的事务或更改完成的事务的数据;所述主机回滚段的信息提供的数据包括所述主机上正在更改的事务在更改前的数据副本;所述正在更改的事务包括更新操作的事务和删除操作的事务。
S103.所述备机根据所述读一致性快照对所述事务的数据进行读取。
其中,快照就如同为当前活动事务拍了一个照片,所述读一致性快照为主机或备机的当前活跃事务(运行中的事务)状态信息的集合。
其中,结合图1给与说明的是:
从图1中以及上述的说明可以看出,所述备机的信息源自两部分:
a)一是备机从共享存储系统加载数据页(Load datapage),使得备机在读数据,备机的数据缓冲区中不存在相应的数据页时,则备机从共享存储的caching缓存中fetch抓取相应的数据页面(如图的④所示),进而获取数据。
b)二是备机从主机只获取主机的回滚段信息,然后应用到备机,以恢复得到备机的回滚段(如图的⑤所示)。
其中,本实施例中主机对Redo日志进行了区分,区分为两种类型:
i.一种是源自对主机回滚段的修改对应的Redo日志,这部分信息需要独立出来,将此部分相应的Undo日志发给备机使用。此部分的日志称为Undo-SEG-LOG。
ii.一种是除上一种外的其他所有Redo日志,构成发给共享存储系统的Redo日志内容。此部分的日志称为Redo-WITHOUT-SEG-LOG。
可见,本实施例的计算和存储分离的数据处理主备复制的体系结构,对Redo日志进行了细化分类;通过这样的区分,能够有效地减少网络的数据传输量。具体是:通过主备系统间因只传输Undo-SEG-LOG,使得大量减少了主备系统间的数据传输量;通过主机和存储层(共享存储系统)之间只传输去掉了Undo-SEG-LOG的Redo-WITHOUT-SEG-LOG,也有效减少了主机和共享存储系统之间的数据传输量。
需要给与说明的是:备机对用户提供只读服务。当一个读事务请求(事务的读取请求)发给某个备机,备机根据已经恢复的数据(来自共享存储系统)和已经恢复的回滚段信息(来自主机),共同利用MVCC机制,来构造一个读一致性快照;通过所述读一致性快照能够决定备机获取的数据信息与下面的数据信息的对应关系:
a)数据页提供的数据;该数据是主机上正在UPDATE/DELETE(更新/删除)或事务已经完成的数据。
b)回滚段提供的数据;该数据是主机上正在UPDATE/DELETE(更新/删除)的事务的旧数据(前像),也即是正在UPDATE/DELETE(更新/删除)的事务在未被更改之前的数据副本。
c)正在UPDATE/DELETE(更新/删除)的事务对应的数据;该数据应从回滚段找出前像,以确保读一致性。
d)正在INSERT插入的数据;该数据在数据页和回滚段中记录相应信息,不用获取以确保读一致性。也就是说,回滚段的作用针对的是更新或删除,并不包括插入。
本实施例的备机的回滚段的构造源自主机发给备机的回滚段(Undo-SEG-LOG)信息,使得主机和备机之间传输的数据量大幅减少;本实施例的共享存储系统接收的是去掉了回滚段信息(Undo-SEG-LOG)的重做日志(Redo-WITHOUT-SEG-LOG)的信息,使得主机和共享存储系统之间传输的Redo日志的数据量有效减少。
其中,本实施例通过基于回滚段信息的单独传输,使得主备复制系统间备机只读事务的正确性,进而保证了数据的读一致性。并且因主机发送给备机的数据量减少,在备机Apply应用的数据量减少,进而提高了主备系统的运行效率,为实现分布式事务提供了技术支撑。
并且,本实施例通过为用户提供极低延迟的备机读一致性,提升了主备系统间数据的传输速度;依据数据处理中主备系统的数据正确性和性能优化,进一步加速了计算和存储分离的数据处理主备复制系统的整体运行速度。
本实施例还提供了一种数据读取方法,如图5所示,包括:
S201.接收主机发送的主机回滚段的信息,根据所述主机回滚段的信息构造出相应的备机回滚段;
在步骤S201中,备机接收主机发送的主机回滚段的信息,在接收到所述主机回滚段的信息之后,所述备机根据接收到的主机回滚段的信息构造出相应的备机回滚段。
S202.在接收到事务的读取请求时,获取与所述事务相应的数据页;并根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;
在步骤S202中,备机会获取与所述事务相应的数据页,在备机在接收到事务的读取请求时,所述备机能够根据所述备机回滚段信息和获取到的数据页的信息,根据MVCC机制,生成读一致性快照;其中,根据所述读一致性快照能够决定所述备机可以获取什么样的数据。
具体地,所述获取与所述事务相应的数据页包括:
在数据缓存区存在与所述事务相应的数据页时,则从所述数据缓存区获取所述数据页;也就是说,在备机检测到备机的数据缓存区存在与所述事务相应的数据页时,则从本地的数据缓存区中获取所述数据页。
在所述数据缓存区不存在与所述事务相应的数据页时,则从所述共享存储系统的共享缓存中抓取相应的数据页。也就是说,在备机检测到所述数据缓存区不存在与所述事务相应的数据页时,则备机从所述共享存储系统的共享缓存中抓取出对应的数据页。
S203.根据所述读一致性快照对所述事务的数据进行读取。
具体地,在构造出能够决定备机获取数据情形的读一致性快照之后,就能够对所述事务的数据进行读取。
本实施中备机中的回滚段信息源自主机发给备机的回滚段信息,使得备机与主机之间的数据传输量减少,提升了数据传输效率。并且,本实施例中备机在本地的数据缓存区不存在请求事务的相应数据页的情况下,所述备机还能够从与所述主机进行数据传输(传输的是去掉了发给备机的回滚段信息的事务日志)的共享存储系统抓取对应的数据页,使得备机能够根据所述数据页信息和备机回滚段信息生成读一致性快照,进而保障了读一致性的性能。通过为用户提供极低延迟的备机读一致性,提升了主备系统间数据的传输速度;依据数据处理中主备系统的数据正确性和性能优化,进一步加速了计算和存储分离的主备复制系统的整体运行速度。
本实施例还提供了一种数据读取方法,如图6所示,包括:
S301.向备机发送主机回滚段的信息,使所述备机根据所述主机回滚段的信息构造出备机回滚段;
在步骤S301中,主机用于向备机发送主机的回滚段信息,这使得备机所在侧能够根据接收到的主机回滚段信息构造出备机回滚段信息。其中,主机值传输回滚段的这部分数据,使得主机与备机之间的数据传输减少,进一步提升了主机与备机之间的数据传输效率。
S302.在备机接收到事务的读取请求时,使所述备机获取与所述事务相应的数据页,根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;并使所述备机根据所述读一致性快照对所述事务的数据进行读取。
在步骤S302中,所述在备机接收到事务的读取请求时,使所述备机获取与所述事务相应的数据页,包括:
在备机接收到事务的读取请求时,使所述备机从数据缓存区或者从所述共享存储系统获取与所述事务相应的数据页。
其中,备机获取的数据页的获取方式包括:若备机的数据缓存区存在对应的数据页,则从数据缓存区获取,若备机的数据缓存区不存在,共享存储系统中存在,则从所述共享存储系统抓取所述数据页。
具体地,所述在备机接收到事务的读取请求时,使所述备机从数据缓存区或者从所述共享存储系统获取与所述事务相应的数据页,之前包括:
向所述共享存储系统发送重做日志;使所述共享存储系统根据所述重做日志构造出数据页,并将所述数据页存储在共享缓存中。
其中,主机向所述共享存储系统发送重做日志,使所述共享存储系统根据所述重做日志构造出数据页;进一步地,将所述数据页存储在共享缓存中,使备机在有需要的情况下能够从所述共享缓存中抓取所述数据页。
本实施例中主机向备机发送回滚段信息,使得主机和备机之间传输的数据量大幅减少;并且因主机发送给备机的数据量减少,在备机应用的数据量减少,进而提高了主备系统的运行效率,为实现分布式事务提供了技术支撑。
本发明实施例还提供了一种数据读取方法,如图7所示,包括:
S401.接收主机发送的重做日志;
在步骤S401中,共享存储系统接收主机发送的重做日志,所述重做日志为去掉了发送给备机的回滚段信息(Undo-SEG-LOG)的重做日志(Redo-WITHOUT-SEG-LOG)。共享存储系统与所述主机之间只传输这部分的数据,使得共享存储系统与所述之间之间的数据传输量减少,进一步提升了数据传输效率。
S402.根据所述重做日志构造出数据页,并将所述数据页存储在共享缓存中;在备机接收到事务的读取请求,且备机的数据缓存区不存在与所述事务相应的数据页时,则使所述备机从本地的共享缓存中获取所述数据页;并使所述备机根据所述数据页的信息,以及从主机接收的主机回滚段的信息得到的备机回滚段,生成读一致性快照;使所述备机根据所述读一致性快照对所述事务的数据进行读取。
本实施例通过共享存储系统与主机之间传输的数据不包含发送给备机的回滚段信息,使得共享存储系统与主机之间的传输的数据量有效减少,进而提升了数据传输的效率;也进一步地加速了计算和存储分离的主备复制系统的整体运行速度。
本发明实施例还提供了一种数据读取装置,如图8所示,包括:
备机回滚段构造模块110,用于接收主机发送的主机回滚段的信息,根据所述主机回滚段的信息构造出相应的备机回滚段;
快照构造模块120,用于在接收到事务的读取请求时,获取与所述事务相应的数据页;并根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;
数据读取模块130,用于根据所述读一致性快照对所述事务的数据进行读取。
进一步地,所述快照构造模块120包括:
第一数据页获取单元121,用于在数据缓存区存在与所述事务相应的数据页时,则从所述数据缓存区获取所述数据页;
第二数据页获取单元122,用于在所述数据缓存区不存在与所述事务相应的数据页时,则从所述共享存储系统的共享缓存中抓取相应的数据页。
本发明实施例还提供了一种数据读取装置,如图9所示,包括:
主机回滚段发送模块210,用于向备机发送主机回滚段的信息,使所述备机根据所述主机回滚段的信息构造出备机回滚段;
保障数据读取模块220,用于在备机接收到事务的读取请求时,使所述备机获取与所述事务相应的数据页,根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;并使所述备机根据所述读一致性快照对所述事务的数据进行读取。
进一步地,所述保障数据读取模块220包括:
保障数据页获取单元221,用于在备机接收到事务的读取请求时,使所述备机从数据缓缓存区或者从所述共享存储系统获取与所述事务相应的数据页。
进一步地,所述保障数据读取模块220还包括:
保障数据页构造单元222,用于向所述共享存储系统发送重做日志;使所述共享存储系统根据所述重做日志构造出数据页,并将所述数据页存储在共享缓存中。
所述的装置实施例中的装置与方法实施例基于同样地发明构思。
本发明实施例还提供了一种数据读取装置,如图10所示,包括:
重做日志接收模块310,用于接收主机发送的重做日志;
数据页构造模块320,用于根据所述重做日志构造出数据页,并将所述数据页存储在共享缓存中;在备机接收到事务的读取请求,且备机的数据缓存区不存在与所述事务相应的数据页时,则使所述备机从本地的共享缓存中获取所述数据页;并使所述备机根据所述数据页的信息,以及从主机接收的主机回滚段的信息得到的备机回滚段,生成读一致性快照;使所述备机根据所述读一致性快照对所述事务的数据进行读取。
所述的装置实施例中的装置与方法实施例基于同样地发明构思。
本发明实施例还提供了一种数据读取系统,如图11所示,包括上层的主备系统和下层的共享存储系统;所述主备系统包括主机和备机;
所述主机配置有上述对应图9所述的数据读取装置,所述备机配置有对应图8所述的数据读取装置,所述共享存储系统配置有对应图10所述的数据读取装置。
具体地,所述主备系统包括一主一备、一主多备或多主多备,所述共享存储系统包括多个共享缓存,所述共享缓存用于存储数据页的信息。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如方法实施例所述的数据读取方法;所述至少一条指令、该至少一段程序、该代码集或指令集包含用于进行以下操作的指令:
接收主机发送的主机回滚段的信息,根据所述主机回滚段的信息构造出相应的备机回滚段;
在接收到事务的读取请求时,获取与所述事务相应的数据页;并根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;
根据所述读一致性快照对所述事务的数据进行读取。
或者为:
向备机发送主机回滚段的信息,使所述备机根据所述主机回滚段的信息构造出备机回滚段;
在备机接收到事务的读取请求时,使所述备机获取与所述事务相应的数据页,根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;并使所述备机根据所述读一致性快照对所述事务的数据进行读取。
或者为:
接收主机发送的重做日志;
根据所述重做日志构造出数据页,并将所述数据页存储在共享缓存中;
在备机接收到事务的读取请求,且备机的数据缓存区不存在与所述事务相应的数据页时,则使所述备机从本地的共享缓存中获取所述数据页;并使所述备机根据所述数据页的信息,以及从主机接收的主机回滚段的信息得到的备机回滚段,生成读一致性快照;使所述备机根据所述读一致性快照对所述事务的数据进行读取。
综上所述,本发明通过基于回滚段信息的单独传输,使得主备复制系统间备机只读事务的正确性,进而保证了数据的读一致性。并且因主机发送给备机的数据量减少,在备机Apply应用的数据量减少,进而提高了主备系统的运行效率,为实现分布式事务提供了技术支撑。
并且,本实施例通过为用户提供极低延迟的备机读一致性,提升了主备系统间数据的传输速度;依据数据处理中主备系统的数据正确性和性能优化,进一步加速了计算和存储分离的数据处理主备复制系统的整体运行速度。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种数据读取方法,其特征在于,所述方法包括:
主机向备机发送主机回滚段的信息;所述备机根据所述主机回滚段的信息构造出备机回滚段;
在所述备机接收到事务的读取请求时,所述备机获取与所述事务相应的数据页,并根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;所述数据页是由去掉所述主机回滚段的信息的重做日志构造而成;
所述备机根据所述读一致性快照对所述事务的数据进行读取。
2.根据权利要求1所述的数据读取方法,其特征在于,所述备机获取与所述事务相应的数据页,包括:
在备机的数据缓存区存在与所述事务相应的数据页时,则从所述数据缓存区获取所述数据页。
3.根据权利要求2所述的数据读取方法,其特征在于,所述备机获取与所述事务相应的数据页,包括:
在备机的数据缓存区不存在与所述事务相应的数据页时,则从共享存储系统获取所述数据页;所述共享存储系统中的数据页由所述共享存储系统对来自主机的重做日志进行重构得到。
4.根据权利要求1所述的数据读取方法,其特征在于,所述数据页的信息包括所述主机上正在更改的事务或更改完成的事务的数据;所述主机回滚段的信息包括所述主机上正在更改的事务在更改前的数据副本;所述正在更改的事务包括更新操作的事务和删除操作的事务。
5.一种数据读取方法,其特征在于,所述方法用于备机,所述方法包括:
接收主机发送的主机回滚段的信息,根据所述主机回滚段的信息构造出备机回滚段;
在接收到事务的读取请求时,获取与所述事务相应的数据页;并根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;所述数据页是由去掉所述主机回滚段的信息的重做日志构造而成;
根据所述读一致性快照对所述事务的数据进行读取。
6.根据权利要求5所述的数据读取方法,其特征在于,所述获取与所述事务相应的数据页包括:
在本地的数据缓存区存在与所述事务相应的数据页时,则从所述数据缓存区获取所述数据页。
7.根据权利要求5所述的数据读取方法,其特征在于,所述获取与所述事务相应的数据页包括:
在本地的数据缓存区不存在与所述事务相应的数据页时,则从共享存储系统获取所述数据页;所述共享存储系统中的数据页由所述共享存储系统对来自主机的重做日志进行重构得到。
8.一种数据读取方法,其特征在于,所述方法用于共享存储系统,所述方法包括:
接收主机发送的重做日志;其中,所述重做日志为原始重做日志去除主机发给备机的回滚段的信息对应的日志后得到;
根据所述重做日志构造出数据页,并将所述数据页存储在共享存储系统的共享缓存中;
在备机接收到事务的读取请求,且备机的数据缓存区不存在与所述事务相应的数据页时,则使所述备机从所述共享缓存中获取所述数据页;并使得所述备机根据所述数据页的信息以及备机回滚段的信息,生成读一致性快照;且使得所述备机根据所述读一致性快照对所述事务的数据进行读取。
9.一种数据读取装置,其特征在于,所述装置包括:
备机回滚段构造模块,用于接收主机发送的主机回滚段的信息,根据所述主机回滚段的信息构造出相应的备机回滚段;
快照构造模块,用于在接收到事务的读取请求时,获取与所述事务相应的数据页;并根据所述备机回滚段的信息和所述数据页的信息生成读一致性快照;所述数据页是由去掉所述主机回滚段的信息的重做日志构造而成;
数据读取模块,用于根据所述读一致性快照对所述事务的数据进行读取。
10.一种数据读取装置,其特征在于,所述装置包括:
重做日志接收模块,用于接收主机发送的重做日志;其中,所述重做日志为原始重做日志去除主机发给备机的回滚段的信息对应的日志后得到;数据页构造模块,用于根据所述重做日志构造出数据页,并将所述数据页存储在共享存储系统的共享缓存中;在备机接收到事务的读取请求,且备机的数据缓存区不存在与所述事务相应的数据页时,则使所述备机从所述共享缓存中获取所述数据页;并使所述备机根据所述数据页的信息,以及从主机接收的主机回滚段的信息得到的备机回滚段,生成读一致性快照;使所述备机根据所述快照对所述事务的数据进行读取。
11.一种数据读取系统,其特征在于,所述系统包括主备系统和共享存储系统;
所述主备系统包括主机和备机;所述备机配置有权利要求9所述的数据读取装置,所述共享存储系统配置有权利要求10所述的数据读取装置。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求5-7任一所述的数据读取方法,权利要求8所述的数据读取方法。
CN201810295296.2A 2018-03-30 2018-03-30 一种数据读取方法、装置、系统及存储介质 Active CN110196788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810295296.2A CN110196788B (zh) 2018-03-30 2018-03-30 一种数据读取方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810295296.2A CN110196788B (zh) 2018-03-30 2018-03-30 一种数据读取方法、装置、系统及存储介质

Publications (2)

Publication Number Publication Date
CN110196788A CN110196788A (zh) 2019-09-03
CN110196788B true CN110196788B (zh) 2022-05-20

Family

ID=67751041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810295296.2A Active CN110196788B (zh) 2018-03-30 2018-03-30 一种数据读取方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN110196788B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949515A (zh) * 2020-07-23 2020-11-17 上海硬通网络科技有限公司 测试场景重现方法、装置及电子设备
CN114077517A (zh) * 2020-08-13 2022-02-22 华为技术有限公司 数据处理的方法、设备及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022676A (zh) * 2014-04-22 2015-11-04 大唐软件技术股份有限公司 一种内存数据库重做日志文件的恢复方法和装置
CN105324770A (zh) * 2013-04-30 2016-02-10 亚马逊科技公司 有效读出副本
CN105354046A (zh) * 2015-09-15 2016-02-24 深圳市深信服电子科技有限公司 基于共享磁盘的数据库更新处理方法及系统
CN106462586A (zh) * 2014-03-28 2017-02-22 华为技术有限公司 基于记录的多版本并发控制的一致性读取的有效方法和系统
CN106855822A (zh) * 2015-12-08 2017-06-16 阿里巴巴集团控股有限公司 用于分布式事务处理的方法及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424015B2 (en) * 2011-02-08 2016-08-23 Oracle International Corporation System and method for optimizing software transactional memory operations using static caching of memory objects

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105324770A (zh) * 2013-04-30 2016-02-10 亚马逊科技公司 有效读出副本
CN106462586A (zh) * 2014-03-28 2017-02-22 华为技术有限公司 基于记录的多版本并发控制的一致性读取的有效方法和系统
CN105022676A (zh) * 2014-04-22 2015-11-04 大唐软件技术股份有限公司 一种内存数据库重做日志文件的恢复方法和装置
CN105354046A (zh) * 2015-09-15 2016-02-24 深圳市深信服电子科技有限公司 基于共享磁盘的数据库更新处理方法及系统
CN106855822A (zh) * 2015-12-08 2017-06-16 阿里巴巴集团控股有限公司 用于分布式事务处理的方法及设备

Also Published As

Publication number Publication date
CN110196788A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN109074306B (zh) 分布式存储系统中的混合垃圾收集
US20200183910A1 (en) Elimination of log file synchronization delay at transaction commit time
CN109739935B (zh) 数据读取方法、装置、电子设备以及存储介质
US9575849B2 (en) Synchronized backup and recovery of database systems
US10430298B2 (en) Versatile in-memory database recovery using logical log records
CN101567805B (zh) 并行文件系统发生故障后的恢复方法
US10831741B2 (en) Log-shipping data replication with early log record fetching
JP4301849B2 (ja) 情報処理方法及びその実施システム並びにその処理プログラム並びにディザスタリカバリ方法およびシステム並びにその処理を実施する記憶装置およびその制御処理方法
US11132350B2 (en) Replicable differential store data structure
CN108509462B (zh) 一种同步活动事务表的方法及装置
US20150347250A1 (en) Database management system for providing partial re-synchronization and partial re-synchronization method of using the same
JP2016524750A (ja) 索引更新パイプライン
JP2012069168A (ja) 地理的分散型クラスタ
JP2016524750A5 (zh)
WO2012076342A1 (en) Clustered redirect on write filesystem
CN105574187A (zh) 一种异构数据库复制事务一致性保障方法及系统
US9934110B2 (en) Methods for detecting out-of-order sequencing during journal recovery and devices thereof
CN112527759B (zh) 日志执行方法、装置、计算机设备及存储介质
CN109783578B (zh) 数据读取方法、装置、电子设备以及存储介质
US10983709B2 (en) Methods for improving journal performance in storage networks and devices thereof
US20190196918A1 (en) Methods and systems of operating a database management system dmbs in a strong consistency mode
CN110196788B (zh) 一种数据读取方法、装置、系统及存储介质
CN112800060A (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN115658245A (zh) 一种基于分布式数据库系统的事务提交系统、方法及装置
US20220067006A1 (en) Moving Window Data Deduplication in Distributed Storage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230919

Address after: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.