CN113345495A

CN113345495A - 伺服器及相关的控制方法

Info

Publication number: CN113345495A
Application number: CN202110220173.4A
Authority: CN
Inventors: 甘礼昇
Original assignee: Silicon Motion Inc
Current assignee: Silicon Motion Inc; Silicon Motion Technology Corp
Priority date: 2020-03-02
Filing date: 2021-02-26
Publication date: 2021-09-03
Also published as: US20210271478A1; TWI766590B; US20220083438A1; TW202134901A; US11216348B2; US11809293B2

Abstract

本发明提供一种伺服器的控制方法，其中该控制方法包含以下步骤：周期性地控制第一节点的第一暂存器和第二暂存器分别具有第一数值和第二数值；周期性地控制第二节点的第三暂存器和第四暂存器分别具有第三数值和第四数值；控制第一暂存器与第四暂存器彼此同步，其中第一数值与第四数值不同；控制第二暂存器和第三暂存器彼此同步，其中第二数值不同于第三数值；以及周期性地检查第三暂存器是否具有第三数值以及第四暂存器是否具有第四数值，以判断第一节点是否工作失败。

Description

伺服器及相关的控制方法

技术领域

本发明有关于存储器控制，尤指一种用以进行全快闪存储器阵列(All FlashArray，简称AFA)伺服器的数据存取管理的方法以及相关设备(apparatus)诸如AFA伺服器及其控制电路等。

背景技术

数据储存伺服器可以被设置为储存一个或多个用户的用户数据，并且在现有技术中已经提出了针对数据储存伺服器的各种控制方法，以便给用户带来良好的用户体验。由于非挥发性(Non-Volatile,NV)存储器诸如快闪存储器已经被广泛应用于各种数据储存装置诸如固态硬碟(solid state drive,SSD)等，现有技术中提出将数据储存伺服器用NV存储器作为其储存介质的非挥发性(NV)存储器类型数据储存伺服器来实现，例如其中安装有多个SSD的AFA伺服器。但是，可能会出现某些问题。例如，存取该多个SSD中的任一SSD的快闪存储器的管理会很复杂。为了确保这个SSD中的快闪存储器的存取控制符合相关规范，这个SSD中的快闪存储器的控制器通常配备有某些管理机制以妥善地管理其内部操作。虽然SSD制造商可能试着使SSD看起来像是替代硬式磁碟机(HDD)的不错的解决方案，但是SSD的某些特性与HDD完全不同。如此一来，上述控制方法对于安装有多个SSD的AFA伺服器可能变得不适合或无效，进而导致AFA伺服器的整体效能下降。因此，需要以在没有副作用或较不会带来副作用的情况下提供一种新颖的方法和相关的架构来解决这些问题。

发明内容

因此，本发明的目的之一在于提出一种伺服器的控制方法，以解决上述的问题。

在本发明的一实施例中，揭露了一伺服器，其包含有一固态硬碟、一第一节点与一第二节点。该第一节点包含有一第一存储器、一第一处理器及一第一通信电路，其中该第一存储器包含了一第一暂存器及一第二暂存器；该第一处理器用来控制该第一暂存器与该第二暂存器分别具有一第一数值与一第二数值；以及该第一通信电路耦接于该第一处理器与该第一存储器。该第二节点包含有一第二存储器、一第二存储器以及一第二通信电路，其中该第二存储器包含了一第三暂存器及一第四暂存器；该第二存储器用来控制该第三暂存器与该第四暂存器分别具有一第三数值与一第四数值；以及该第二通信电路耦接于该第二处理器、该第二存储器与该第一通信电路。在伺服器的操作中，该第一暂存器与该第四暂存器彼此同步，该第二暂存器与该第三暂存器彼此同步，由该第一处理器控制的该第一数值不同于由该第二处理器控制的该第四数值，以及由该第一处理器控制的该第二数值不同于由该第二处理器控制的该第三数值；以及该第二处理器周期性地检查该第三暂存器是否具有该第三数值，该第四暂存器是否具有该第四数值，以判断该第一节点是否无法工作。

在本发明的另一实施例中，揭露了一种伺服器的控制方法，其包含有以下步骤：设定该伺服器的一第一节点作为一主装置；周期性地控制该第一节点的一第一暂存器与一第二暂存器分别具有一第一数值与一第二数值；设定该伺服器的一第二节点作为一从装置；周期性地控制该第二节点的一第三暂存器与一第四暂存器分别具有一第三数值与一第四数值；控制该第一暂存器与该第四暂存器彼此同步，其中由该第一节点控制的该第一数值与由该第二节点控制的该第四数值不同；控制该第二暂存器与该第三暂存器彼此同步，其中由该第一节点控制的该第二数值与由该第二节点控制的该第三数值不同；以及周期性地检查该第三暂存器是否具有该第三数值以及该第四暂存器是否具有该第四数值，以判断该第一节点是否无法工作。

附图说明

图1是依据本发明一实施例的一全快闪存储器阵列(All Flash Array，简称AFA)伺服器的示意图。

图2是依据本发明一实施例中如图1所示的该AFA伺服器的某些实施细节的示意图。

图3是依据本发明一实施例所绘示的如图1所示的该AFA伺服器的一双节点架构的示意图。

图4是依据本发明一实施例所绘示的如图1所示的多个节点的任一节点中的某些程序模块的示意图。

图5为根据本发明一实施例之AFA伺服器的写入控制方法的示意图。

图6为根据本发明一实施例之快取同步镜像操作的示意图。

图7为本发明一个实施例之故障检测机制的示意图。

图8为本发明一实施例之当节点100A和节点100B都正常工作时数值V1_A、V2_A、V1_B与V2_B的变化示意图。

图9为本发明一实施例之当节点100A无法正常工作时数值V1_A、V2_A、V1_B与V2_B的变化示意图。

【符号说明】

10A,10B:机架顶(TOR)交换机

12A,12B:固态硬碟(SSD)群组

100:全快闪存储器阵列(AFA)伺服器

100A,100B:节点

110A,110B:处理器

112A,112B:程序模块

120A,120B:动态随机存取存储器(DRAM)

122A,122B:复制到快闪存储器(C2F)固态硬碟(SSD)

130A,130B:网络接口(IF)模块

132A,132B,134A,134B:网络接口(IF)电路

140A,140B:非透明网桥(NTB)通信电路

150A,150B:主机板管理控制器(BMC)

152A,152B:暂存器电路

160A,160B:储存接口(IF)模块

162A,162B,164A,164B:储存接口(IF)电路

170A,170B:备用电源单元

500～514:步骤

610A,610B:表

710_1,710_2,720_1,720_2:暂存器

V1_A,V2_A,V1_B,V2_B:数值

t1,t2,t3,t4,t5:时间

具体实施方式

图1是依据本发明一实施例的一全快闪存储器阵列(All Flash Array，简称AFA)伺服器100的示意图。AFA伺服器100可以包含多个节点，诸如二节点，分别为节点100A和节点100B，其中该多个节点中的任一个(例如节点100A和节点100B的其中一个)可以具有与该多个节点中的另一个(例如节点100A和节点100B中的另一个)相同或相似的架构。例如，节点100A可包含可以被统称为处理器110A的至少一处理器(例如，一个或多个处理器诸如一个或多个中央处理单元(Central Processing Units.CPU))，并包含一动态随机存取存储器(Dynamic Random Access Memory,DRAM)120A、一复制到快闪存储器(Copy-to-Flash，简称C2F)固态硬碟(Solid State Drive，简称SSD)122A、包含有一个或多个网络接口(interface,IF)电路诸如网络接口电路132A和134A(分别标示为“网络IF CKT”以求简明)的一网络接口(IF)模块130A、一非透明网桥(Non-Transparent Bridge，简称NTB)模块(或NTB)诸如一NTB通信电路140A(标示为“NTB CKT”以求简明)、一主机板管理控制器(BoardManagement Controller，简称BMC)150A、一暂存器(register)电路152A(标示为“REG CKT”以求简明)其耦接至BMC 150A、一储存接口(IF)模块160A其包含一个或多个储存接口电路诸如储存接口电路162A和164A(分别标示为“储存IF CKT”以求简明)以及一备用电源诸如一备用电源单元170A(例如，电池)，其中这些组件的至少一部分(例如，一部分或全部)可以藉由节点100A的总线彼此耦接，但本发明不限于此。依据某些实施例，节点100A的架构可以作不同变化。

相似地，节点100B可包含可以统称为处理器110B的至少一处理器(例如，一个或多个处理器诸如一个或多个CPU)，并包含一DRAM 120B、一C2F SSD 122B、包含有一个或多个网络接口(IF)电路诸如网络接口电路132B和134B(分别标示为“Network IF CKT”以求简明)的一网络接口(IF)模块130B、一NTB模块(或NTB)诸如一NTB通信电路140B标示为“NTBCKT”以求简明)、一BMC 150B、一暂存器电路152B(标示为“Register CKT”以求简明)其耦接至BMC 150B、一储存接口(IF)模块160B其包含一个或多个储存接口电路诸如储存接口电路162B和164B(分别标示为“Storage IF CKT”以求简明)以及一备用电源诸如一备用电源单元170B(例如，电池)，其中这些组件的至少一部分(例如，一部分或全部)可以藉由节点100B的总线彼此耦接，但本发明不限于此。依据某些实施例，节点100B的架构可以作不同变化。

如图1所示，AFA伺服器100可以更包含耦接到节点100A和100B的多个SSD，诸如一SSD群组12A和一SSD群组12B，SSD群组12A和12B可以耦接到节点100A和100B，且可以预设分别连接/连线(link)到节点100A和100B，其中节点100A和100B与SSD群组12B和12A之间的虚线可指出多个可选的(optional)连线。举例来说，节点100A可以利用储存接口模块160A以启动储存接口电路164A和SSD群组12A之间的连线，以存取SSD群组12A中的数据，且节点100B可以利用储存接口模块160B启动储存接口电路164B和SSD群组12B之间的连线，以进一步存取SSD群组12B中的数据。当需要时，节点100A和100B与SSD群组12A和12B之间的连线关系可以改变。例如节点100A可以利用储存接口模块160A来启动储存接口电路162A和SSD群组12B之间的连线，以存取SSD群组12B中的数据，且节点100B可以利用储存接口模块160B来启动储存接口电路162B和SSD群组12A之间的连线，以存取SSD群组12A中的数据。

运行着程序模块112A的处理器110A可用以控制节点100A的操作。DRAM120A可用以缓冲数据(例如待写入SSD群组12A的数据)，并且C2F SSD 122A可用以将DRAM 120A中的缓冲后数据(简称“缓冲数据”)复制到C2F SSD 122A中的快闪存储器中，以在需要时防止缓冲数据的数据遗失(data loss)。举例来说，C2F SSD 122A可以藉由安装在节点100A内的主电路板(例如主机板或母板)上的一扩充卡诸如一M.2模块(例如具有符合M.2规范的连接器的电路板)来实现，其中C2F SSD 122A可以包含一储存控制器、一个或多个快闪存储器晶片等，但本发明不限于此。另外，包含有网络接口电路132A和134A的网络接口模块130A可用以将节点100A(例如该主电路板上的处理器110A、DRAM 120A等)藉由至少一网络交换机诸如机架顶(top-of-rack，可简称TOR)交换机10A和10B耦接到至少一网络(例如区域网络(Local Area Network,LAN)、广域网络(Wide Area Network,WAN)、互联网(Internet)等)。另外，包含储存接口电路162A和164A的储存接口模块160A可用以将节点100A(例如该主电路板上的处理器110A、DRAM 120A等)耦接到多个快闪储存装置(例如节点100A和100B共享的SSD群组12A和12B)，用以存取(例如读取或写入)该多个快闪储存装置中的数据。如此一来，AFA伺服器100可用以藉由节点100A提供用户储存服务。

相似地，运行着程序模块112B的处理器110B可用以控制节点100B的操作。DRAM120B可用以缓冲数据(例如待写入SSD群组12B的数据)，并且C2F SSD122B可用以将DRAM120B中的缓冲后数据(简称“缓冲数据”)复制到C2F SSD122B中的快闪存储器中，以在需要时防止缓冲数据的数据遗失。举例来说，C2F SSD 122B可以藉由安装在节点100B内的主电路板(例如主机板或母板)上的一扩充卡诸如一M.2模块(例如具有符合M.2规范的连接器的电路板)来实现，其中C2F SSD 122B可以包含一储存控制器、一个或多个快闪存储器晶片等，但本发明不限于此。另外，包含有网络电路132B和134B的网络接口模块130B可用以将节点100B(例如该主电路板上的处理器110B、DRAM 120B等)藉由至少一网络交换机诸如TOR交换机10A和10B耦接到至少一网络(例如LAN、WAN、互联网等)。另外，包含储存接口电路162B和164B的储存接口模块160B可用以将节点100B(例如该主电路板上的处理器110B、DRAM120B等)耦接到多个快闪储存装置(例如节点100A和100B共享的SSD群组12A和12B)，用以存取(例如读取或写入)该多个快闪储存装置中的数据。如此一来，AFA伺服器100可用以藉由节点100B提供用户储存服务。

关于节点100A及其对等(peer)节点(例如节点100B)之间的通信，该NTB模块(例如NTB通信电路140A)可用以藉由在节点100A和100B之间的一NTB路径(标示为「NTB」以求简明)与对应的NTB模块(例如NTB通信电路140B)通信，使节点100A和100B的数据和储存状态同步，并进一步使它们相同。相似地，关于节点100B及其对等节点(例如节点100A)之间的通信，该NTB模块(例如NTB通信电路140B)可用以藉由在节点100A和100B之间的该NTB路径(标示为「NTB」以求简明)与对应的NTB模块(例如NTB通信电路140A)通信，使节点100A和100B的数据和储存状态同步，并进一步使它们相同。尤其，诸如NTB通信电路140A和140B的NTB模块可以提供节点100A和100B之间一传输桥的功能以及分离节点100A和100B的各自的地址域以使节点100A和100B分别有彼此独立的地址域，以在没有任何地址冲突的情况下提供/加强节点100A和100B之间的通信。例如，节点100A和100B的各个总线可以符合快捷外设组件互联(Peripheral Component Interconnect Express,PCIe)标准，并且节点100A和100B中的每一节点的NTB模块可以被认为是该节点的一端点(endpoint)，其中节点100A和100B可以透过该传输桥彼此通信和共享装置，但本发明不限于此。依据某些实施例，诸如NTB通信电路140A和140B的NTB模块可以透过客制化的网络接口电路来实现，以控制节点100A和100B彼此通信，使得它们就像正在透过网络接口电路进行通信一样。

在运行着程序模块112A的处理器110A和运行着程序模块112B的处理器110B的控制下，节点100A和100B可维持和监视NTB上的脉搏，以确定对等节点的可用性，以进行高可用性(High Availability,HA)控制。举例来说，节点100B可用以向节点100A发送脉搏信号，且节点100A可用以检测并监视来自节点100B的脉搏信号以确定节点100B的可用性，其中来自节点100B的脉搏信号是否存在可以指出节点100B是否可用(或健康程度)。对于另一个例子来说，节点100A可用以向节点100B发送脉搏信号，并且节点100B可用以检测并监视来自节点100A的脉搏信号以确定节点100A的可用性，其中来自节点100A的脉搏信号是否存在可以指出节点100A是否可用(或健康程度)。依据图1所示的架构，如图1所示，当节点100A和100B其中一个不可使用时，节点100A和100B其中的另一个可以继续为用户提供AFA伺服器100的储存服务。

需注意的是，AFA伺服器100配备了超过一个的节点间(inter-node)通信路径(例如节点之间的超过一个的相互通信路径)。除NTB路径外，AFA伺服器100还可配置为具有一个或多个其他通信路径，例如BMC 150A和150B之间的一BMC路径，其中BMC 150A可用以管理节点100A的硬件层的至少一部分(例如一部分或全部)，而BMC 150B可用以管理节点100B的硬件层的至少一部分(例如一部分或全部)。关于节点100A及其对等节点(例如节点100B)之间的通信，BMC 150A可用以透过该BMC路径与BMC 150B通信以存取(例如读取或写入)暂存器电路152B中的一个或多个暂存器的一个或多个暂存器值，以在节点100B上进行状态检查操作等。相似地，关于节点100B及其对等节点(例如节点100A)之间的通信，BMC 150B可用以透过该BMC路径与BMC 150A通信以存取(例如读取或写入)暂存器电路152A中一个或多个暂存器的一个或多个暂存器值，以在节点100A上进行状态检查操作等。尤其，BMC 150A与BMC150B可独立地管理节点100A与100B的各自的硬件层，而不需要仰赖处理器110A与110B。举例来说，当处理器110A发生故障时，BMC 150A可以处理节点100A的未完成的工作，而当处理器110B发生故障时，BMC 150B可以处理节点100B的未完成的工作，但本发明不限于此。依据某些实施例，BMC 150A和150B可用以分别接管(take over)节点100A和100B，以进行紧急处理操作来减少数据遗失的机率。

依据本实施例，AFA伺服器100可以被配置为由多种类型的电源供电。节点100A和100B的每一节点可以包括至少一主电源(例如至少一电源供应器)，用以于主电源处于正常电源状况下提供电力给该节点的其他组件。举例来说，节点100A的主电源可以供电给节点100A的主电路板，并且节点100B的主电源可以供电给节点100B的主电路板。当检测到一个或多个节点(例如节点100A及/或节点100B)的异常电源状况时，AFA伺服器100中的一个或多个相关的备用电源(例如备用电源单元170A及/或备用电源单元170B)可用以提供备用电力。举例来说，当节点100A的主电源发生电源故障时，备用电源单元170A可以供电给节点100A的主电路板(例如处理器110A、DRAM 120A、C2F SSD 122A、NTB通信电路140A、BMC150A、暂存器电路152A等)，当节点100B的主电源发生电源故障时，备用电源单元170B可以供电给节点100B的主电路板(例如处理器110B、DRAM 120B、C2F SSD 122B、NTB通信电路140B、BMC150B、暂存器电路152B等)。

依据某些实施例，节点100A和100B的每一节点(例如节点100A和100B的各自的主电路板中的每一节点)可以还包含多个感测器(sensor)/检测器(detector)用以至少对该节点的组件进行检测以产生检测结果(例如从这些传感器/检测器中的任一个所获得的状态信息)。举例来说，这些检测结果中的一功率检测结果可以表示该节点的主电源的功率状态，尤其，可以指出该节点是否发生异常电源状况，以供触发该节点启动备用电源(例如备用电源单元170A或备用电源单元170B)以提供备用电力。

图2依据本发明一实施例绘示图1所示的AFA伺服器100的某些实施细节，其中，可以将SSD 100S作为图1所示实施例中提到的多个SSD的例子。除了节点100A和100B以及SSD100S，AFA伺服器100可还包含一背板(backplane)电路100R。背板电路100R可用以将诸如SSD群组12A和12B的SSD 100S电气连接到节点100A和100B。举例来说，背板电路100R可以藉由具有相关连接器等的背板电路板来实现。另外，可以在背板电路100R内实现NTB通信电路140A和140B之间的该NTB路径的局部(partial)路径，以及BMC 150A和150B之间的该BMC路径的局部路径。由于该BMC路径和该NTB路径中的每一路径都不通过可能易于损坏的任何电缆，所以节点100A和100B之间的通信路径很稳健，且因此节点100A和100B可以保持有效的通信以及相关的控制，以确保AFA伺服器100的整体效能及正常运行。

依据某些实施例，SSD 100S中的每一SSD可以是一单埠(single port)SSD，尤其，可以是一单埠的基于装置的(device-based)SSD。另外，藉助于背板电路100R，AFA伺服器100可以支援SSD 100S中的每一SSD的热插拔。

依据某些实施例，两个节点100A和100B中的一个可以在AFA伺服器100的高可用性(High Availability简称HA)架构中用来作为一现用节点(active node)，也就是扮演该现用节点的角色，并且两个节点100A和100B中的另一个可在AFA伺服器100的该HA架构中用来作为一待命节点(standby node)，也就是扮演该待命节点的角色。诸如现用节点和待命节点的两个节点100A和100B可以彼此互动，尤其，可以藉由至少两条通信路径(诸如NTB通信电路140A和140B之间的NTB路径以及BMC 150A和150B之间的BMC路径)来交换节点信息，并且可以藉由NTB路径来同步数据，但本发明不限于此。依据某些实施例，AFA伺服器100可以配备有超过两个的节点间(inter-node)通信路径(例如节点之间的超过两个的相互通信路径)。

图3是依据本发明一实施例所绘示的如图1所示的AFA伺服器100的一双节点架构的示意图。依据本实施例，节点100A和100B可以被分别配置为该现用节点和该待命节点，但本发明不限于此。举例来说，节点100A和100B可以在需要时交换它们所扮演的角色。如图3所示，除了某些硬件(hardware,HW)组件诸如图1或图2所示的架构中的部分组件外，还可绘示某些软件(software,SW)程序/程序，例如HA框架程序、网络(Web)伺服器程序、数据库(database)程序、操作于一服务模式的储存控制模块程序以及操作于一待机模式的储存控制模块程序(分别标示为“HA框架”、“Web伺服器”、“数据库”、“于服务模式下的储存控制模块”以及“于待机模式下的储存控制模块”以求简明)以指出AFA伺服器100中的关联互动，其中，上述程序的名称分别代表其相关功能。

运行于节点100A上的软件程序(例如，HA框架程序，Web伺服器程序，数据库程序和操作于该服务模式的储存控制模块程序)可作为程序模块112A的例子，并且运行于节点100B上的软件程序(例如，HA框架程序，Web伺服器程序，数据库程序和操作于该待机模式的储存控制模块程序)可作为程序模块112B的例子，但本发明不限于此。另外，网络接口模块130A的该一个或多个网络接口电路可更包含网络接口电路136A，并且网络接口模块130B的该一个或多个网络接口电路可还包含网络接口电路136B。因此，AFA伺服器100可以配备有至少三个节点间(inter-node)通信路径(例如节点之间的至少三个相互通信路径)，诸如NTB路径、BMC路径以及网络接口电路136A和136B之间的网络路径。举例来说，节点100A和100B可用以藉由NTB路径进行快取镜像(cache mirroring)操作，并透过BMC路径检查本地/远端控制器状态，以及藉由网络接口电路136A和136B之间的网络路径进行额外的通信操作。

图4是依据本发明一实施例所绘示的如图1所示的多个节点100A与100B的任一(例如每一)节点中的程序模块112的示意图。例如，程序模块112可以代表运行在节点100A的处理器110A上的程序模块112A或运行在节点100B的处理器110B上的程序模块112B。如图4所示，程序模块112可以包含某些主程序模块，例如储存协定及区块输入/输出(IO)接口模块、储存快取模块、储存池模块、储存服务连续HA模块、储存功能模块以及储存管理模块(分别标示为“储存协定及区块IO接口”、“储存快取”、“储存池”、“储存服务连续HA”、“储存功能”以及“储存管理”以求简明)，其中这些主程序模块中的任一程序模块可以包括一个或多个子模块。另外，程序模块112中的某些程序模块之间的箭头指出这些程序模块可以彼此在各自所属的多个层的程序模块之间互动。举例来说，储存协定及区块IO接口模块可以被视为储存快取模块上方的一上层(例如一上层程序模块)，储存池模块可以被视为储存快取模块下方一下层(例如一下层程序模块)，储存功能模块和储存快取模块可被安排在一中间层以作为中间层程序模块，其中储存协定及区块IO接口模块以及储存池模块可用以与客户端装置和SSD群组互动，但本发明不限于此。当需要时，该节点可以触发其他程序模块与这些程序模块中的一个或多个进行互动。

储存协定及区块IO接口模块可以包含某些子模块诸如小型计算机系统接口(Small Computer System Interface，简称SCSI)模块、互联网SCSI(Internet SCSI，简称iSCSI)模块和区块装置(Block Device)模块(分别标示为“SCSI”、“iSCSI”和“区块装置”以求简明)。储存快取模块可以包含某些子模块诸如使用软件实现的永久存储器(PersistentMemory using SW implementation)模块和写入缓冲模块(Write Buffer module；也可称为“写入缓冲器模块”)，于图中分别标示为“永久存储器(软件实现)”和“写入缓冲”以求简明。储存池模块可以包含一子模块诸如快闪存储器阵列(Flash Array)模块(为简便起见标示为“快闪存储器阵列”)。储存服务连续HA模块可以包含一子模块诸如HA框架模块(标示为“HA框架”以求简明)。储存功能模块可以包含某些子模块诸如卷管理器(Volume Manager)模块和数据减少模块(分别标示为“卷管理器”和“数据减少”以求简明)，其中数据减少模块可以包含某些子模块诸如压缩引擎(Compression Engine)模块和重复数据删除引擎(Deduplication Engine)模块，可以分别称为“压缩引擎”和“重复数据删除引擎”。储存管理模块可以包含某些子模块诸如网络(Web)用户界面(User Interface,UI)模块、应用程序编程接口(Application Programming Interface,API)伺服器模块、请求代理(RequestBroker)模块和数据库模块(分别标示为“网络UI”、“API伺服器”、“请求代理”和“数据库”以求简明)。上列模块的名称分别指出其相关功能。为了便于理解，对某一模块诸如卷管理器模块、压缩引擎模块、重复数据删除引擎模块等而言，某些实施例中所提到的咨询(consult)该模块的操作可包含对这个模块进行呼叫、查询等操作以从它取得对应的处理结果，但本发明不限于此。

依据某些实施例，AFA伺服器100(例如，该现用节点，诸如节点100A和100B的其中之一)可用以从AFA伺服器100外部的客户端装置接收请求诸如写入请求、读取请求等，并分别因应这些请求来操作。

图5为根据本发明一实施例之AFA伺服器100的写入控制方法的示意图。在步骤500中，AFA伺服器100上电，且AFA伺服器100能够经由至少一个网络(例如，LAN，WAN，互联网等)以及TOR交换器10A和10B与其他电子装置通信。在步骤502中，AFA伺服器100的一个节点作为主装置(master device)，而另一节点作为从装置(slave device)。在该实施例中，节点100A作为能够经由TOR交换器10A和10B与其他电子装置通信并存取SSD 100S的主装置，而节点100B作为在节点100A正常工作时不允许存取SSD 100S的从装置。在步骤504中，处理器110A在DRAM 120A内配置DRAM空间以供作为写入缓冲器使用，并且处理器110A另通知节点100B的处理器110B在DRAM 120B内配置DRAM空间以供作为写入缓冲器，其中DRAM 120A/120B内的写入缓冲器可以具有任何合适的大小，例如16十亿位元组(gigabyte，GB)或32GB。在步骤506中，节点100A从使用者装置接收数据，亦即使用者透过网络将数据写入至AFA伺服器100。在步骤508中，节点100A将数据写入DRAM 120A内的DRAM空间中，并且处理器110A进一步建立如图6中所示的表610A。参考图6，其中表610A包括一独特身分(unique ID)(即，使用者ID)、数据在使用者端的逻辑地址、数据长度以及数据在DRAM 120A中的起始地址。在步骤510中，节点100A执行快取同步镜像(cache mirroring)机制，以透过NTB将数据和对应资讯发送至节点100B，其中，对应资讯可以是表610A的至少一部分内容，例如对应资讯可以包括使用者ID，数据在使用者端的逻辑地址和数据长度。在步骤512中，节点100B的处理器110B将数据写入DRAM 120B内的DRAM空间，并且处理器110B进一步建立如图6所示的表610B。参考图6，其中表610B包括使用者ID、数据在使用者端的逻辑地址、数据长度以及数据在DRAM 120B中的起始地址。在数据完全写入至DRAM 120B之后，节点100B的处理器110B向节点100A发送通知以告知快取同步镜像操作已经完成。在步骤514中，只有在处理器110A从节点100B接收到通知之后，节点100A才透过TOR交换器10A/10B向使用者的电子装置发送讯息，以通知数据已经成功接收，之后处理器110A才开始将储存在DRAM 120A中的数据移动到SSD 100S中。在一实施例中，当储存在DRAM 120中并且能够被移动的数据的大小超过预定值时，例如超过64千为元组(kilobyte)时，处理器110A才将储存在DRAM 120A中的数据移动到SSD 100S。

当储存在DRAM 120A中的数据成功地被搬移至SSD 100S后，处理器110A删除DRAM120A中的数据，并且更新表610A以删除数据的相关资讯。此外，处理器110A另通知节点100B数据已经储存在SSD 100S中，以便处理器110B可以删除DRAM 120B中的数据，并且更新表610B以删除数据的相关资讯。

图5、6所示的实施例所述的快取同步镜像机制用于故障转移(failover)机制以保护已经被写入DRAM 120A中但尚未被写入至SSD 100S的数据，亦即，一旦主装置将接收到的数据储存在DRAM 120A中，则主装置立即将数据传送至从装置，使得主装置和从装置都具有该数据。因此，由于主装置和从装置都具有该数据，所以一旦主装置不能正常工作，从装置就可以立即替换主装置以执行原本应该由主装置执行的操作，亦即从装置在适当的时间将储存在DRAM 120B中的数据移动到SSD 100S。

详细来说，假设主装置(例如，节点100A)突然无法存取SSD 100S，例如主装置的操作系统崩溃、主装置内的存储器或储存元件损坏、下行连接埠被禁用或任何其他故障原因，则AFA伺服器100可以立即执行故障转移机制，亦即从装置(例如，节点100B)被设定为用来执行主装置的操作。本发明另外提出了一种故障检测机制，其可以有效且准确地检测出主装置是否无法正常工作。图7为本发明一个实施例的故障检测机制的示意图。如图7所示，节点100A配置两个暂存器710_1和710_2，且节点100A的处理器110A系可控制暂存器710_1和710_2，以使得暂存器710_1具有数值V1_A且暂存器710_2具有数值V2_A。节点100B配置两个暂存器720_1和720_2，且节点100B的处理器110B系可控制暂存器720_1和720_2，以使得暂存器720_1具有数值V1_B且暂存器720_2具有数值V2_B。在一实施例中，节点100A的暂存器710_1和节点100B的暂存器720_1由PCIe装置分配，即暂存器710_1和暂存器720_1是PCIe基地址暂存器(Base Address Register，BAR)；此外，节点100A的暂存器710_2和节点100B的暂存器720_2由PCIe装置分配，即暂存器710_2和暂存器720_2是PCIe基地址暂存器。

节点100A的暂存器710_1和节点100B的暂存器720_2彼此同步，但是由处理器110A控制的数值V1_A不同于由处理器110B控制的数值V2_B。另外，节点100A的暂存器710_2和节点100B的暂存器720_1彼此同步，但是由处理器110A控制的数值V2_A不同于由处理器110B控制的数值V1_B。举例来说，假设数值V1_A和数值V2_A分别为'0'和'1'，则处理器110A可以定期检查数值V1_A和数值V2_A是否分别等于'0'和'1'；如果数值V1_A和数值V2_A不等于'0'和'1'，则处理器110A立即改变暂存器710_1和710_2的数值，以使得数值V1_A等于'0'并且数值V2_A等于为'1'。类似地，假设数值V1_B和数值V2_B分别为'0'和'1'，则处理器110B可以周期性地检查数值V1_B和数值V2_B是否分别等于'0'和'1'；如果数值V1_B和数值V2_B不等于'0'和'1'，则处理器110B立即改变暂存器720_1和720_2的值，使得数值V1_B等于'0'并且数值V2_B等于为'1'。如上所述，当节点100A和节点100B两者都工作良好时，处理器110A将会一直判断数值V1_A和V2_A不等于预定值，因为数值V1_A和V2_A会一直被数值V2_B和V1_B同步，且处理器110A需要周期性地将数值V1_A和V2_A分别更新为'0'和'1'。因此，如果处理器110A判断数值V1_A和V2_A始终为'0'和'1'，则代表着节点100B不更新其数值V1_B和V2_B，而此时处理器110A可以判断节点100B无法正常工作。类似地，当节点100A和节点100B都工作良好时，处理器110B将会一直判断数值V1_B和V2_B不等于预定值，因为数值V1_B和V2_B会一直被数值V2_A和V1_A同步，且处理器110B需要将数值V1_B和V2_B分别周期性地更新为'0'和'1'。因此，如果处理器110B判断数值V1_B和V2_B始终为'0'和'1'，则代表着节点100A不更新其数值V1_A和V2_A，而此时处理器110B可以判断节点100A无法正常工作。

图8为本发明一实施例之当节点100A和节点100B都正常工作时数值V1_A、V2_A、V1_B与V2_B的变化示意图。在图8所示的实施例中，数值V1_A和V2_A的预定值分别是'0'和'1'，亦即，如果数值V1_A和V2_A不为'0'和'1'，则处理器110A会将其更新为预定值'0'和'1'；此外，数值V1_B和V2_B的预定值分别是'0'和'1'，亦即，如果数值V1_B和V2_B不为'0'和'1'，则处理器110B会将其更新为预定值'0'和'1'。如图8所示，在时间t1，AFA伺服器100上电，且此时数值V1_A、V2_A、V1_B和V2_B均等于'0'。在时间t2，节点100A的处理器110A检查数值V1_A和V2_A，并将数值V1_A和V2_A分别更新为'0'和'1'；同时，节点100B的数值V1_B和V2_B分别被数值V2_A和V1_A同步，亦即数值V1_B变为'1'，且数值V2_B变为'0'。在时间t3，节点100B的处理器110B检查数值V1_B和V2_B，并将数值V1_B和V2_B分别更新为'0'和'1'；同时，节点100A的数值V1_A和V2_A分别被数值V2_B和V1_B同步，亦即数值V1_A变为'1'，且数值V2_A变为'0'。在时间t4，节点100A的处理器110A检查数值V1_A和V2_A，并将数值V1_A和V2_A分别更新为'0'和'1'；同时，节点100B的数值V1_B和V2_B分别被数值V2_A和V1_A同步，亦即数值V1_B变为'1'，且数值V2_B变为'0'。在时间t5，节点100B的处理器110B检查数值V1_B和V2_B，并将数值V1_B和V2_B分别更新为'0'和'1'；同时，节点100A的数值V1_A和V2_A分别被数值V2_B和V1_B同步，亦即数值V1_A变为'1'，且数值V2_A变为'0'。如上所述，当节点100A和节点100B都工作良好时，暂存器710_1、710_2、720_1和720_2中的数值会随着同步机制的进展而周期性地改变，而因此处理器110A/110B需要定期更新暂存器中的数值。

需注意的是，处理器110A之检查与更新的步骤以及处理器110B之检查与更新的步骤是以时间交错的方式来进行，也就是说，处理器110A之检查与更新的步骤的周期为与处理器110B之检查与更新的步骤的周期相同。以图8为例来说明，时间t2与t4之间的间隔等于时间t3与t5之间的间隔(亦即，(t4-t2)＝(t5-t3))。

图9为本发明一实施例之当节点100A无法正常工作时数值V1_A、V2_A、V1_B与V2_B的变化示意图。在图9所示的实施例中，数值V1_A和V2_A的预定值分别是'0'和'1'，亦即，如果数值V1_A和V2_A不为'0'和'1'，则处理器110A会将其更新为预定值'0'和'1'；此外，数值V1_B和V2_B的预定值分别是'0'和'1'，亦即，如果数值V1_B和V2_B不为'0'和'1'，则处理器110B会将其更新为预定值'0'和'1'。如图9所示，在时间t1，节点100A的处理器110A检查数值V1_A和V2_A，并将数值V1_A和V2_A分别更新为'0'和'1'；同时，节点100B的数值V1_B和V2_B分别被数值V2_A和V1_A同步，亦即数值V1_B变为'1'，且数值V2_B变为'0'。在时间t2，节点100B的处理器110B检查数值V1_B和V2_B，并将数值V1_B和V2_B分别更新为'0'和'1'；同时，节点100A的数值V1_A和V2_A分别被数值V2_B和V1_B同步，亦即数值V1_A变为'1'，且数值V2_A变为'0'。在时间t3，节点100A突然无法正常工作，而处理器110A因此不会更新数值V1_A和V2_A，也就是说，数值V1_A和V2_A仍分别为'1'和'0'。在时间t4，节点100B的处理器110B检查数值V1_B和V2_B，并发现不需要更新数值V1_B和V2_B，因此处理器110B便可以判断节点100A(主装置)无法正常工作，并且节点100B(从装置)可以执行故障转移机制以执行原本应该由节点100A所执行的操作。

综上所述，由于节点100A/100B可以仅透过检查其自身的暂存器来判断另一节点是否无法工作，而无需参考来自另一节点的通知，因此本实施例的故障检测机制可以有效且准确地检测其他节点是否无法正常工作。

在一实施例中，当执行故障转移机制时，节点100B会由从装置变成主装置。因此，为了方便软件设计，节点100A内之V1_A和V2_A的预定值会设计的与节点100B内之V1_B和V2_B的预定值相同，然而，本发明不限于此。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种伺服器，包含有：

一固态硬碟；

一第一节点，包含有：

一第一存储器，包含了一第一暂存器及一第二暂存器；

一第一处理器，用来控制该第一暂存器与该第二暂存器分别具有一第一数值与一第二数值；以及

一第一通信电路，耦接于该第一处理器与该第一存储器；以及

一第二节点，包含有：

一第二存储器，包含了一第三暂存器及一第四暂存器；

一第二处理器，用来控制该第三暂存器与该第四暂存器分别具有一第三数值与一第四数值；以及

一第二通信电路，耦接于该第二处理器、该第二存储器与该第一通信电路；

其中该第一暂存器与该第四暂存器彼此同步，该第二暂存器与该第三暂存器彼此同步，由该第一处理器控制的该第一数值不同于由该第二处理器控制的该第四数值，以及由该第一处理器控制的该第二数值不同于由该第二处理器控制的该第三数值；以及该第二处理器周期性地检查该第三暂存器是否具有该第三数值，以及检查该第四暂存器是否具有该第四数值，以判断该第一节点是否无法工作。

2.如权利要求1所述的伺服器，其特征在于，该第二处理器周期性地检查该第三暂存器是否具有该第三数值以及该第四暂存器是否具有该第四数值；若是该第三暂存器不具有该第三数值且该第四暂存器不具有该第四数值，则该第二处理器判断该第一节点工作正常，且该第二处理器控制该第三暂存器与该第四暂存器分别更新为具有该第三数值与该第四数值；以及若是该第三暂存器具有该第三数值且该第四暂存器具有该第四数值，则该第二处理器判断该第一节点无法工作。

3.如权利要求2所述的伺服器，其特征在于，若是该第一节点被设置为存取该固态硬碟，且该第二节点为不存取该固态硬碟的从装置，则当该第二处理器判断该第一节点无法工作时，则该第二节点开启故障切换机制以执行原本应该由该第一节点所执行的操作。

4.如权利要求2所述的伺服器，其特征在于，该第一处理器周期性地检查该第一暂存器是否具有该第一数值以及该第二暂存器是否具有该第二数值；若是该第一暂存器不具有该第一数值，且该第二暂存器不具有该第二数值，则该第一处理器判断该第二节点工作良好，且该第一处理器控制该第一暂存器与该第二暂存器分别更新为具有该第一数值与该第二数值；以及若是该第一暂存器具有该第一数值，该第二暂存器具有该第二数值，则该第一处理器判断该第二节点无法工作。

5.如权利要求1所述的伺服器，其特征在于，该第一数值与该第三数值相同，且该第二数值与该第四数值相同。

6.如权利要求1所述的伺服器，其特征在于，该第一暂存器由该第一节点的快捷外设组件互联(Peripheral Component Interconnect Express,PCIe)装置分配；以及该第一暂存器由该第二节点PCIe装置分配。

7.一种伺服器的控制方法，包含有：

设定该伺服器的一第一节点作为一主装置；

周期性地控制该第一节点的一第一暂存器与一第二暂存器分别具有一第一数值与一第二数值；

设定该伺服器的一第二节点作为一从装置；

周期性地控制该第二节点的一第三暂存器与一第四暂存器分别具有一第三数值与一第四数值；

控制该第一暂存器与该第四暂存器彼此同步，其中由该第一节点控制的该第一数值与由该第二节点控制的该第四数值不同；

控制该第二暂存器与该第三暂存器彼此同步，其中由该第一节点控制的该第二数值与由该第二节点控制的该第三数值不同；以及

周期性地检查该第三暂存器是否具有该第三数值以及该第四暂存器是否具有该第四数值，以判断该第一节点是否无法工作。

8.如权利要求7所述的控制方法，其特征在于，周期性地检查该第三暂存器是否具有该第三数值以及该第四暂存器是否具有该第四数值，以判断该第一节点是否无法工作的步骤包含有：

若是该第三暂存器不具有该第三该值且该第四暂存器不具有该第四数值，则判断该第一节点工作正常，且控制该第三暂存器与该第四暂存器分别具有该第三数值与该第四数值；以及

若是该第三暂存器具有该第三数值且该第四暂存器具有该第四数值，则判断该第一节点无法工作。

9.如权利要求8所述的控制方法，其特征在于，第一节点被设置为存取该伺服器内的一固态硬碟，该第二节点为不存取该固态硬碟的从装置，该控制方法另包含有：

若是判断该第一节点无法工作，则开启故障转移机制以使得该第二节点执行原本应该由该第一节点所执行的操作。

10.如权利要求8所述的控制方法，其特征在于，另包含有：

周期性地检查该第一暂存器是否具有该第一数值以及该第二暂存器是否具有该第二数值；

若是该第一暂存器不具有该第一数值，且该第二暂存器不具有该第二数值，则判断该第二节点工作良好，且控制该第一暂存器与该第二暂存器分别具有该第一数值与该第二数值；以及

若是该第一暂存器具有该第一数值，且该第二暂存器具有该第二数值，则判断该第二节点无法工作。

11.如权利要求7所述的控制方法，其特征在于，该第一数值与该第三数值相同，且该第二数值与该第四数值相同。

12.如权利要求7所述的控制方法，其特征在于，该第一暂存器由该第一节点的快捷外设组件互联(Peripheral Component Interconnect Express,PCIe)装置分配；以及该第一暂存器由该第二节点PCIe装置分配。