CN114567646A

CN114567646A - 数据处理方法、数据处理系统、电子设备及存储介质

Info

Publication number: CN114567646A
Application number: CN202210220720.3A
Authority: CN
Inventors: 陈云
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-05-31

Abstract

本公开提供一种数据处理方法、数据处理系统、电子设备及存储介质。该方法包括：通过第一观察者节点接收第二数据中心对应的客户端发送的第一数据读取请求，其中所述第一数据读取请求是用于读取第一集群存储的目标数据的请求，其中，所述第一集群包括第一主节点、第一从节点和所述第一观察者节点，所述第一主节点和所述第一从节点部署在第一数据中心，所述第一观察者节点部署在所述第二数据中心；所述第一观察者节点向所述第二数据中心对应的客户端返回所述第一集群存储的目标数据。该方法可以提高跨数据中心的数据处理效率。

Description

数据处理方法、数据处理系统、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种数据处理方法、数据处理系统、电子设备及存储介质。

背景技术

随着计算机技术的高速发展，跨地域的分布式集群的应用越来越广泛。

相关技术中的跨地域的部署方案，一种是将集群直接跨地域部署，例如在一个三中心架构中，节点按照2+2+1进行部署，这种方法需要占用大量的计算机资源；另一种是每个数据中心部署一个集群，然后依靠工具或外部组件进行跨集群的数据同步，工具或外部组件也会占用和消耗一定的计算机资源。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种数据处理方法、数据处理系统、电子设备及存储介质，该方法可以提高跨数据中心的数据处理效率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

本公开实施例提供一种数据处理方法，包括：通过第一观察者节点接收第二数据中心对应的客户端发送的第一数据读取请求，其中所述第一数据读取请求是用于读取第一集群存储的目标数据的请求，其中，所述第一集群包括第一主节点、第一从节点和所述第一观察者节点，所述第一主节点和所述第一从节点部署在第一数据中心，所述第一观察者节点部署在所述第二数据中心；所述第一观察者节点向所述第二数据中心对应的客户端返回所述第一集群存储的目标数据。

在本公开一些示例性实施例中，上述方法还包括：通过第二主节点接收所述第二数据中心对应的客户端发送的第二数据读取请求，其中所述第二数据读取请求是用于读取第二集群存储的目标数据的请求，其中，所述第二集群包括所述第二主节点、第二从节点和第二观察者节点，所述第二主节点和所述第二从节点部署在所述第二数据中心，所述第二观察者节点部署在所述第一数据中心；所述第二主节点向所述第二数据中心对应的客户端返回所述第二集群存储的目标数据。

在本公开一些示例性实施例中，所述第一观察者节点向所述第二数据中心对应的客户端返回所述第一集群存储的目标数据，包括：确认所述第一主节点、所述第一从节点和所述第一观察者节点是否同步成功；在所述第一主节点、所述第一从节点和所述第一观察者节点均同步成功后，所述第一观察者节点向所述第二数据中心对应的客户端返回所述第一集群存储的目标数据。

在本公开一些示例性实施例中，所述第二主节点向所述第二数据中心对应的客户端返回所述第二集群存储的目标数据，包括：确认所述第二主节点、所述第二从节点和所述第二观察者节点是否同步成功；在所述第二主节点、所述第二从节点和所述第二观察者节点均同步成功后，所述第二主节点向所述第二数据中心对应的客户端返回所述第二集群存储的目标数据。

在本公开一些示例性实施例中，在确认所述第一主节点、所述第一从节点和所述第一观察者节点是否同步成功之前，所述方法还包括：通过所述第一主节点获取所述第一数据中心对应的客户端发送的写入数据请求；在所述第一主节点写入完成后，所述第一主节点分别向所述第一从节点和所述第一观察者节点发送数据同步请求；在所述第一从节点和所述第一观察者节点写入成功后，所述第一从节点和所述第一观察者节点分别向所述第一主节点返回第一数据写入响应和第二数据写入响应。

在本公开一些示例性实施例中，所述第一数据写入响应包括所述第一从节点的第一写入成功位置，所述第二数据写入响应包括所述第一观察者节点的第二写入成功位置；其中，确认所述第一主节点、所述第一从节点和所述第一观察者节点是否同步成功，包括：在所述第一从节点和所述第一观察者节点分别返回所述第一数据写入响应和所述第二数据写入响应之后，确认所述第一主节点、所述第一从节点和所述第一观察者节点同步成功；将所述第一写入成功位置和所述第二写入成功位置中最小的写入成功位置作为所述第一集群的目标写入成功位置。

在本公开一些示例性实施例中，所述第一观察者节点不参与所述第一集群的选举，所述第一数据中心和所述第二数据中心位于不同地域。

本公开实施例提供一种数据处理系统，包括：第一集群，所述第一集群包括第一主节点、第一从节点和第一观察者节点，所述第一主节点和所述第一从节点部署在第一数据中心，所述第一观察者节点部署在第二数据中心；其中，所述第一观察者节点用于接收所述第二数据中心对应的客户端发送的第一数据读取请求，其中所述第一数据读取请求是用于读取所述第一集群存储的目标数据的请求；所述第一观察者节点还用于向所述第二数据中心对应的客户端返回所述第一集群存储的目标数据。

本公开实施例提供一种电子设备，包括：至少一个处理器；存储装置，用于存储至少一个程序，当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现如上述任一种数据处理方法。

本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述任一种数据处理方法。

本公开实施例提供的数据处理方法，第一集群包括第一主节点、第一从节点和第一观察者节点，第一主节点和第一从节点部署在第一数据中心，第一观察者节点部署在第二数据中心，即第一主节点、第一从节点与第一观察者节点位于不同的数据中心，便于位于不同数据中心的客户端读取第一集群的数据；在第二数据中心对应的客户端读取第一集群中存储的数据时，通过第一观察者节点接收第二数据中心对应的客户端发送的第一数据读取请求，并向第二数据中心对应的客户端返回第一集群存储的目标数据，即第二数据中心对应的客户端可以通过部署在第二数据中心的第一观察者节点读取第一集群中的数据，可以节省读取数据的时间，提高跨数据中心的数据处理效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的数据处理方法的示例性系统架构的示意图。

图2是根据一示例性实施方式示出的一种数据处理方法的流程图。

图3是根据一示例示出的三种响应方式的示意图。

图4是根据一示例示出的各个节点之间转换的示意图。

图5是根据一示例示出的一种一主两从的场景的示意图。

图6示出了一种主节点更换的示意图。

图7根据一示例性实施方式示出的一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

此外，在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

参考图1，该系统架构可以包括第一集群和第二集群，其中，第一集群可以包括第一主节点101、第一从节点102和第一观察者节点103，第二集群可以包括第二主节点201、第二从节点202和第二观察者节点203。

其中，第一主节点101、第一从节点102和第二观察者节点203部署在第一数据中心，第二主节点201、第二从节点202和第一观察者节点103部署在第二数据中心。

本公开实施例中，第一数据中心和第二数据中心分别位于不同地域，例如第一数据中心位于区域A，第二数据中心位于区域B。

本公开实施例中，第一从节点102、第一观察者节点103、第二从节点202和第二观察者节点203均可以有一个或多个。

本公开实施例中，第一数据中心对应的客户端301可以从第一主节点101读取第一集群中存储的数据，也可以通过第一主节点101写入数据；第一数据中心对应的客户端301可以从第二观察者节点203读取第二集群存储的数据。

类似地，第二数据中心对应的客户端302可以从第二主节点201读取第二集群中存储的数据，也可以通过第二主节点201写入数据；第二数据中心对应的客户端302可以从第一观察者节点103读取第一集群存储的数据。

本公开实施例中，第一观察者节点103不参与第一集群的选举，第二观察者节点203不参与所述第二集群的选举，即每个集群中参与选举的节点(主节点和从节点)只部署在一个数据中心中，可以保证选举结果稳定在同一个数据中心中，从而保证选举的延迟相对稳定。

应该理解，图1中的客户端、各类节点的数目仅仅是示意性的，根据实际需要，可以具有任意数目的客户端和各类节点。

需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

下面，将结合附图及实施例对本公开示例实施例中的数据处理方法的各个步骤进行更详细的说明。

如图2所示，本公开实施例提供的数据处理方法可以包括以下步骤。

在步骤S202中，通过第一观察者节点接收第二数据中心对应的客户端发送的第一数据读取请求。

其中，第一数据读取请求是用于读取第一集群存储的目标数据的请求，第一集群包括第一主节点、第一从节点和第一观察者节点，第一主节点和第一从节点部署在第一数据中心，第一观察者节点部署在第二数据中心。

在示例性实施例中，该方法还可以包括：通过第二主节点接收第二数据中心对应的客户端发送的第二数据读取请求。

其中，第二数据读取请求是用于读取第二集群存储的目标数据的请求，第二集群包括第二主节点、第二从节点和第二观察者节点，第二主节点和第二从节点部署在第二数据中心，第二观察者节点部署在第一数据中心。

本公开实施例中，在第二数据中心对应的客户端302需要读取第一集群存储的目标数据时，可以向第一观察者节点103(即第一集群的观察者节点)发送第一数据读取请求；在第二数据中心对应的客户端302需要读取第二集群存储的目标数据时，可以向第二主节点201(即第二集群的主节点)发送第二数据读取请求。

在示例性实施例中，第一观察者节点不参与第一集群的选举，第二观察者节点不参与第二集群的选举。

具体地，参与第一集群的选举的节点为第一主节点101和第二从节点102(可以有一个或多个)，第一主节点101和第二从节点102均部署在第一数据中心；类似地，参与第二集群的选举的节点为第二主节点201和第二从节点202(可以有一个或多个)，第二主节点201和第二从节点202均部署在第二数据中心。

本公开实施例中，每个集群参与选举的节点只部署在一个数据中心内，可以保证选举后的结果稳定在同一个数据中心，以及可以保证选举的延迟相对稳定。

本公开实施例中，采用不参与选举的观察者节点进行跨数据中心的数据同步(例如第一数据中心和第二数据中心之间的数据同步)。

在示例性实施例中，第一数据中心和第二数据中心位于不同地域。

本公开实施例中，第一数据中心对应的地域和第二数据中心对应的地域之间的距离可以大于预设距离，即本公开实施例提供的数据处理方法可以应用于跨域复制的场景中，其中，跨域复制指的是在地理距离比较远、延迟比较大的数据中心之间做数据复制。

在步骤S204中，第一观察者节点向第二数据中心对应的客户端返回第一集群存储的目标数据。

本公开实施例中，在第二数据中心对应的客户端302向第一观察者节点103(即第一集群的观察者节点)发送第一数据读取请求后，第一观察者节点103可以向该客户端302返回第一集群中存储的目标数据。

在示例性实施例中，该方法还可以包括：第二主节点向第二数据中心对应的客户端返回第二集群存储的目标数据。

本公开实施例中，在第二数据中心对应的客户端302向第二主节点201(即第二集群的主节点)发送第二数据读取请求后，第二主节点201可以向该客户端302返回第二集群中存储的目标数据。

图3是根据一示例示出的三种响应方式的示意图。

本公开实施例中，上述主节点或观察者节点响应客户端请求的方式可以为以下三种方式中的一种：NO ack、ISR(In-Sync Replicas，同步副本)ack、以及ALL ack；其中，NOack为不需要任何副本写成功即能进行响应的方式，ISR ack为所有在当前任期有资格参与选举的副本(即主节点和从节点)都必须写成功才能进行响应的方式，ALL ack为所有副本(即学习节点、主节点、从节点和观察者节点)都写成功才能进行响应的方式。

参考图3，301示出了采用ALL ack的响应方式进行响应的情况，即在学习节点、主节点、从节点和观察者节点均写入成功后才进行响应；302示出了采用ISR ack的响应方式进行响应的情况，即在主节点和从节点均写入成功才进行响应；303示出了采用NO ack的响应方式进行响应的情况，即主节点写入成功就可以进行响应。

图4是根据一示例示出的各个节点之间转换的示意图。

下面参考图4对上述学习节点(Learner)、主节点(Master)、从节点(Slave)和观察者节点(Observer)之间的转换进行说明。

本公开实施例中，可以通过手动变更的方式将学习节点变更为观察者节点，也可以通过手动变更的方式将观察者节点变更为学习节点；在学习节点追平日志后可以变更为从节点，从节点心跳超时或落后过多会被踢出同步副本，即变更为学习节点；从节点心跳超时后选举成功变更为主节点，其他节点在更高任期选举成功后，原主节点变更为从节点。

本公开实施例中，可以采用全局副本都写成功才能响应的ALL ack方式，即确定第一主节点、第一从节点和第一观察者节点均同步后，第一观察者节点向第二数据中心对应的客户端返回第一集群存储的目标数据；或者确认第二主节点、第二从节点和第二观察者节点是否同步成功；在第二主节点、第二从节点和第二观察者节点均同步成功后，第二主节点向第二数据中心对应的客户端返回第二集群存储的目标数据，为用户在集群内提供线性一致的视图。

在示例性实施例中，第一观察者节点向第二数据中心对应的客户端返回第一集群存储的目标数据，包括：确认第一主节点、第一从节点和第一观察者节点是否同步成功；在第一主节点、第一从节点和第一观察者节点均同步成功后，第一观察者节点向第二数据中心对应的客户端返回第一集群存储的目标数据。

在示例性实施例中，第二主节点向第二数据中心对应的客户端返回第二集群存储的目标数据，可以包括：确认第二主节点、第二从节点和第二观察者节点是否同步成功；在第二主节点、第二从节点和第二观察者节点均同步成功后，第二主节点向第二数据中心对应的客户端返回第二集群存储的目标数据。

例如，第一集群中存储x的初始值为0，第二集群中存储y的初始值为0，区域A(即第一数据中心)对应的客户端301操作本地集群(即第一集群)将x的值设置为5，区域B(即第二数据中心)对应的客户端302操作本地集群(即第二集群)将y的值设置为3。

在客户端301将x的值设置为5和客户端302将y的值设置为3后，客户端301从第二观察者节点203读取y的值，此时若采用上述NO ack或ISR ack响应的方式，在第二主节点201未将y＝3同步至第二观察者节点203之前，第二观察者节点203向客户端301返回的是y＝0，即无法保证数据的线性一致性。

同理，在客户端301将x的值设置为5和客户端302将y的值设置为3后，客户端302从第一观察者节点103读取x的值，此时若采用上述NO ack或ISR ack响应的方式，在第一主节点101未将x＝5同步至第一观察者节点103之前，第一观察者节点103向客户端302返回的是x＝0，即无法保证数据的线性一致性。

本公开实施例中，采用ALL ack的响应方式，在客户端301将x的值设置为5和客户端302将y的值设置为3后，客户端301从第二观察者节点203读取y的值时，先判断第二主节点201、第二从节点202和第二观察者节点203是否同步成功(即判断第二主节点201、第二从节点202和第二观察者节点203是否均将y的值更新为3)，在第二主节点201、第二从节点202和第二观察者节点203均同步成功后，第二观察者节点203向客户端301返回y值，此时返回的y值为3，保证了数据的线性一致性。

同理，采用ALL ack的响应方式，在客户端301将x的值设置为5和客户端302将y的值设置为3后，客户端302从第一观察者节点103读取x的值时，先判断第一主节点101、第一从节点102和第一观察者节点103是否同步成功(即判断第一主节点101、第一从节点102和第一观察者节点103是否均将x的值更新为5)，在第一主节点101、第一从节点102和第一观察者节点103均同步成功后，第一观察者节点103向客户端302返回x值，此时返回的x值为5，保证了数据的线性一致性。

本公开实施例中，通过上述ALL ack的响应方式，将用户一致性视图与集群一致性视图分离，可以在保证数据线性一致性的情况下减少系统选举的频率和时间。

其中，集群一致性视图指的是系统在协议层面的一致性，用户一致性视图是指的是站在用户角度观测系统时系统表现出的一致性。

由于观察者节点不参与选举，若系统不要求观察者节点写成功或者apply(应用)成功才响应客户端，在极端情况下导致发生客户端从观察者节点取不到之前从主节点可以取到的数据。

本公开实施例中，在响应客户端的请求时，可以把观察者节点当做从节点处理，在观察者节点的commitOffset或者applyOffset满足时才对客户端的请求进行响应。

此外，相对于相关技术中部署在各个数据中心的主节点之间需要数据同步的方法，本公开实施例中通过观察者节点进行跨数据中心之间的数据同步，可以节约计算机资源；相对于相关技术中将主节点和从节点跨数据中心部署的方法，本公开实施例中，通过将参与选举的节点(主节点和从节点)和不参与选举的节点(观察者节点)跨数据中心部署，可以在实现数据同步的同时保证选举结果稳定在同一数据中心中，保证选举结果的稳定性，同时缩短选举时间，提高数据处理效率。

在一些实施例中，第二集群包括第二主节点、第二从节点和第二观察者节点，第二主节点和第二从节点部署在第二数据中心，第二观察者节点部署在第一数据中心，便于位于不同数据中心的客户端读取第二集群的数据；在第二数据中心对应的客户端读取第二集群中存储的数据时，通过第二主节点接收第二数据中心对应的客户端发送的第二数据读取请求，并向第二数据中心对应的客户端返回第二集群存储的目标数据，即第二数据中心对应的客户端可以通过部署在第二数据中心的第二主节点读取第二集群中的数据，可以节省读取数据的时间，提高跨数据中心的数据处理效率。

在一些实施例中，在第二主节点、第二从节点和第二观察者节点均同步成功后，第二主节点向第二数据中心对应的客户端返回第二集群存储的目标数据，可以保证数据的线性一致性。

在示例性实施例中，在确认第一主节点、第一从节点和第一观察者节点是否同步成功之前，该方法还可以包括：通过第一主节点获取第一数据中心对应的客户端发送的写入数据请求；在第一主节点写入完成后，第一主节点分别向第一从节点和第一观察者节点发送数据同步请求；在第一从节点和第一观察者节点写入成功后，第一从节点和第一观察者节点分别向第一主节点返回第一数据写入响应和第二数据写入响应。

本公开实施例中，第一数据中心对应的客户端301在写入数据至第一集群时，客户端301向第一主节点101发送写入数据请求，第一主节点101接收客户端301发送的写入数据请求并进行数据写入，在第一主节点101写入完成后，第一主节点101分别向第一从节点102和第一观察者节点103发送数据同步请求；第一从节点102和第一观察者节点103在收到数据同步请求后进行数据写入，在第一从节点102和第一观察者节点103写入成功后，第一从节点102和第一观察者节点103分别向第一主节点返回第一数据写入响应和第二数据写入响应。

其中，第一数据写入响应包括第一从节点的第一写入成功位置，第二数据写入响应包括第一观察者节点的第二写入成功位置。

需要说明的是，上述以第一数据中心对应的客户端写入数据至第一集群中为例进行说明，第二数据中心对应的客户端写入数据至第二集群的过程与第一数据中心对应的客户端写入数据至第一集群的过程类似，本公开在此不再赘述。

在下面的说明中，主节点可以是第一主节点或第二主节点，从节点可以为第一从节点或第二从节点，观察者节点可以是第一观察者节点或第二观察者节点。

具体地，日志复制的流程可以包括：主节点为每个写请求(即数据写入请求)分配一个单调递增的序号，并写入日志文件，例如用请求写入主节点顺序自增的日志偏移量(entryLogOffset)表示序号。

在主节点写入完成后，主节点可以向从节点和观察者节点发送AppendEntry(附加条目)请求，其中AppendEntry请求包括的数据结构除了日志以外，还可以包括主节点当前任期(term)、日志起始位置(entryLogOffset)、已经提交的位置(commitOffset)以及总和校验码(checksum)。

相比于相关技术中的一致性协议，本公开实施例追加了应用层的checksum，可以保证数据的准确性。如果网络整个链路每一跳都进行了CRC(Cyclic Redundancy Check，循环冗余校验)校验，也可以忽略checksum，以保证端到端的正确性。

在从节点收到AppendEntry请求后，首先可以对该AppendEntry请求中的任期进行校验，如果任期相同，则可以进行写入位置校验(采用单个长连接严格顺序复制，如果改成类似paxos支持乱序复制则无需做此校验)，然后进行checksum校验，在checksum校验通过后将数据持久化到本地磁盘，并且将日志的结束位置返回给主节点。

在示例性实施例中，确认第一主节点、第一从节点和第一观察者节点是否同步成功，可以包括：在第一从节点和第一观察者节点分别返回第一数据写入响应和第二数据写入响应之后，确认第一主节点、第一从节点和第一观察者节点同步成功；将第一写入成功位置和第二写入成功位置中最小的写入成功位置作为第一集群的目标写入成功位置。

本公开实施例中，在第一从节点102向第一主节点101返回第一数据写入响应后，可以确定第一主节点101和第一从节点102同步成功；在第一观察者节点103向第一主节点101返回第二数据写入响应后，可以确定第一主节点101和第一观察者节点103同步成功。

本公开实施例中，可以将第一从节点102和第一观察者节点103的写入成功位置中最小的写入成功位置作为第一集群的目标写入成功位置，从而保证顺序一致性。

需要说明的是，上述以确认第一主节点、第一从节点和第一观察者节点是否同步成功为例进行说明，确认第二主节点、第二从节点和第二观察者节点是否同步成功的过程与确认第一主节点、第一从节点和第一观察者节点是否同步成功的过程类似，本公开在此不再赘述。

具体地，在主节点收到从节点更新的复制位置(即上述从节点返回的日志的结束位置)后，可以取所有当前任期中所有从节点中已经复制的最小位置作为commitOffset；对commitOffset之前的日志都可以apply到状态机，然后响应给客户端；同时在下一个心跳或者在主节点向从节点发送appendEntry请求时顺带将commitOffset同步到所有从节点。

图5是根据一示例示出的一种一主两从的场景的示意图。

参考图5，示出了包括一个主节点两个从节点的场景，其中，该图示出了主节点的日志结束位置501(logEndOffset)、从节点1的日志结束位置502(logEndOffset)和从节点2的复制位置503(logEndOffset)。

本公开实施例中，从节点已经提交的位置505(slave commitOffset)为从节点感知到的commitOffset(可能落后于真正的commitOffset)，可以取的所有从节点(当前任期有资格参与选举的节点)都已经写成功的位置作为commitOffset(即位置505)。当任意一个从节点在新的任期被选为主节点时，只要不进行日志截断，就能保证其日志中一定含有commitOffset之前所有的日志，即commitOffset的所有日志都是安全的。

此外，在一些实施例中，也可以使用位置504作为commitOffset，即可以apply到状态机和进行响应客户端的位置。

本公开实施例中，可以从第一主节点和第一从节点中选举出新任期的目标主节点，其他节点作为新任期的目标从节点，可用将目标从节点的写入成功位置与目标主节点的写入成功位置进行比较，若目标从节点的写入成功位置小于目标主节点的写入成功位置，则目标从节点进行数据复制，以追上目标主节点；若目标从节点的写入成功位置大于目标主节点的写入成功位置，则以目标主节点的写入成功位置为基础对目标从节点的日志进行截断。

图6示出了一种主节点更换的示意图。

参考图6，示出了A、B、C、D四个日志副本，在当前任期中A为主节点(以下称为原主节点)，B、C、D为从节点(以下称为原从节点)；假设每条日志的长度为1，日志记录了此条日志被添加的任期号和具体的操作。例如，在某个时刻，原来在任期3是主节点角色的A(原主节点)所在节点宕机了，此时commitOffset在偏移量为5的位置601，原从节点B、C、D都在当前任期的同步副本集合中，即都有资格成为新任期的主节点。假设此时节点B被选为了任期4的主节点，则对于节点D需要追上日志，而对于C和重新活过来的A则需要截断日志。

本公开实施例中，恢复/协调阶段新从节点(即节点C或节点A)向新主节点(即节点B)上报自己日志的最后一条，然后从最后一条开始向前逐条与新主节点的同位置日志比较，直到找到完全匹配的日志(任期、位置以及数据CRC)，并将此作为日志起始位置，新从节点中原先大于此位置的日志全部截断。

本公开实施例中，为了加快比对速度，可以使每个新从节点定时做checkpoint(检查点)，记录新从节点的commitOffset(为了与真实的commitOffset进行区分，将新从节点的commitOffset称之为checkPointCommitOffset)；将新从节点的内存里收到的新主节点同步的commitOffset但是还没来得及持久化部分称为slaveCommitOffset。由于存在checkPointCommitOffset≤slaveCommitOffset≤commitOffset≤logEndOffset，可以将上述逐条比较改为从checkPointCommitOffset到logEndOffset之间进行二分查找，从而缩小恢复时的比对范围。此外，如果每个entry带上前一条日志的term和logOffset，则可以通过单个entry来判断是否匹配，进一步缩短恢复时间。

参考图6，以节点B在新任期被选为主节点，节点A宕机，节点C和节点D作为新任期的从节点为例，此时节点C各个参数值为：checkPointCommitOffset：小于或等于5的某个位置，具体取决于进行checkpoint的时间间隔与间隔内写入的数据。例如，若每5s写入一条数据，每30s进行一次checkpoint且刚好要进行下一次触发，此时上一轮的checkPointCommitOffset就为30s之前系统的commitOffset；slaveCommitOffset：小于或等于5且大于或等于checkPointCommitOffset的某个位置；commitOffset：位置5；logEndOffset:新任期开始时是7，在协调完成以后是6。

本公开实施例中，可以基于JPacificA协议使用一个全局的配置管理模块记录当前集群的选举结果和当前结果对应的任期。其中，JPacificA是一种针对跨地域问题的强一致性的分布式共识协议，但是这在跨地域下有很大的局限性。

本公开实施例中，配置管理模块提供带CAS(Compare And Swap，提供原子的检测并设置操作)语义的更新，可以采用Paxos算法实现，例如采用Raft、Muti-Paxos、Epaxos等算法实现。

本公开实施例中，一个节点在错误检测机制下怀疑其它节点故障时(例如主节点怀疑某个从节点故障，或者，某个从节点怀疑主节点故障)，会生成新一轮任期的配置信息，并将原配置信息的任期号加一作为新一轮的任期，尝试更新到配置管理模块。如果任期号匹配(即CAS更新成功)，则发布配置成功，相当于成功当选；如果发布失败，则读取此时的配置，并更新本地的配置和任期。

当发生网络分区时，可能发生多个节点同时尝试变更配置的操作。例如主节点试图把失联的从节点剔除出同步副本列表；而同时从节点试图将自己选为主节点，并将原来的主节点剔除出同步副本列表。此时配置管理模块可以接收第一个符合CAS更新的请求，并拒绝剩下的请求(任期号不再匹配)，以保证一个任期内主节点的唯一性。

此外，本公开实施例中，可以通过引入租约机制进一步保证主节点的唯一性。具体地，主节点可以第一预设周期(heartbeat period)周期性地向所有从节点获取租约，如果经过第二预设周期(lease period)没有获得某个从节点的租约，则主节点停止进行请求的处理。然后主节点可以将此从节点从同步副本集合中剔除，并且更新此配置到配置管理节点，开启下一个任期。

同样地，如果一个从节点在第三预设周期(grace period)内没有收到主节点的租约请求，则该从节点可以发起选举，将自己在下一任期的角色变更为主节点，尝试向配置管理模块更新。

本公开实施例中，可以通过设置[grace period]>[lease period]>[heartbeatperiod]*2，保证发生分区时主节点相对稳定，即优先由主节点将断联的从节点剔除。

同时，由于[grace period]>[lease period]，可以保证在从节点发起选举时，原来的主节点一定已经放弃了自身的主节点身份或者已经进入了新一轮任期，由此保证主节点唯一性。

需要说明的是，如果系统可以允许脏读，此处的实现也可以原先主节点继续提供读服务，牺牲一致性来保证可用性，本公开对此不作限定。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开系统实施例，可以用于执行本公开方法实施例。对于本公开系统实施例中未披露的细节，请参照本公开方法实施例。

在本公开一些示例性实施例中，上述系统还包括：第二集群，所述第二集群包括第二主节点、第二从节点和第二观察者节点，所述第二主节点和所述第二从节点部署在所述第二数据中心，所述第二观察者节点部署在所述第一数据中心；其中，所述第二主节点用于接收所述第二数据中心对应的客户端发送的第二数据读取请求，其中所述第二数据读取请求是用于读取第二集群存储的目标数据的请求。

在本公开一些示例性实施例中，第一观察者节点还用于确认所述第一主节点、所述第一从节点和所述第一观察者节点是否同步成功；在所述第一主节点、所述第一从节点和所述第一观察者节点均同步成功后，所述第一观察者节点向所述第二数据中心对应的客户端返回所述第一集群存储的目标数据。

在本公开一些示例性实施例中，第二主节点还用于确认所述第二主节点、所述第二从节点和所述第二观察者节点是否同步成功；在所述第二主节点、所述第二从节点和所述第二观察者节点均同步成功后，所述第二主节点向所述第二数据中心对应的客户端返回所述第二集群存储的目标数据。

在本公开一些示例性实施例中，第一主节点还用于获取所述第一数据中心对应的客户端发送的写入数据请求；在所述第一主节点写入完成后，所述第一主节点用于分别向所述第一从节点和所述第一观察者节点发送数据同步请求；在所述第一从节点和所述第一观察者节点写入成功后，所述第一从节点和所述第一观察者节点分别用于向所述第一主节点返回第一数据写入响应和第二数据写入响应。

在本公开一些示例性实施例中，所述第一数据写入响应包括所述第一从节点的第一写入成功位置，所述第二数据写入响应包括所述第一观察者节点的第二写入成功位置；其中，在所述第一从节点和所述第一观察者节点分别返回所述第一数据写入响应和所述第二数据写入响应之后，第一主节点还用于确认所述第一主节点、所述第一从节点和所述第一观察者节点同步成功；第一主节点还用于将所述第一写入成功位置和所述第二写入成功位置中最小的写入成功位置作为所述第一集群的目标写入成功位置。

需要注意的是，上述附图中所示的框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图7是根据一示例性实施方式示出的一种电子设备的结构示意图。需要说明的是，图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本公开的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的方法。例如，所述的电子设备可以实现如图2所示的各个步骤。

根据本公开的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。

需要理解的是，在本公开附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理方法，其特征在于，包括：

通过第一观察者节点接收第二数据中心对应的客户端发送的第一数据读取请求，其中所述第一数据读取请求是用于读取第一集群存储的目标数据的请求，其中，所述第一集群包括第一主节点、第一从节点和所述第一观察者节点，所述第一主节点和所述第一从节点部署在第一数据中心，所述第一观察者节点部署在所述第二数据中心；

所述第一观察者节点向所述第二数据中心对应的客户端返回所述第一集群存储的目标数据。

2.根据权利要求1所述的方法，其特征在于，还包括：

通过第二主节点接收所述第二数据中心对应的客户端发送的第二数据读取请求，其中所述第二数据读取请求是用于读取第二集群存储的目标数据的请求，其中，所述第二集群包括所述第二主节点、第二从节点和第二观察者节点，所述第二主节点和所述第二从节点部署在所述第二数据中心，所述第二观察者节点部署在所述第一数据中心；

所述第二主节点向所述第二数据中心对应的客户端返回所述第二集群存储的目标数据。

3.根据权利要求1或2所述的方法，其特征在于，所述第一观察者节点向所述第二数据中心对应的客户端返回所述第一集群存储的目标数据，包括：

确认所述第一主节点、所述第一从节点和所述第一观察者节点是否同步成功；

在所述第一主节点、所述第一从节点和所述第一观察者节点均同步成功后，所述第一观察者节点向所述第二数据中心对应的客户端返回所述第一集群存储的目标数据。

4.根据权利要求2所述的方法，其特征在于，所述第二主节点向所述第二数据中心对应的客户端返回所述第二集群存储的目标数据，包括：

确认所述第二主节点、所述第二从节点和所述第二观察者节点是否同步成功；

在所述第二主节点、所述第二从节点和所述第二观察者节点均同步成功后，所述第二主节点向所述第二数据中心对应的客户端返回所述第二集群存储的目标数据。

5.根据权利要求3所述的方法，其特征在于，在确认所述第一主节点、所述第一从节点和所述第一观察者节点是否同步成功之前，所述方法还包括：

通过所述第一主节点获取所述第一数据中心对应的客户端发送的写入数据请求；

在所述第一主节点写入完成后，所述第一主节点分别向所述第一从节点和所述第一观察者节点发送数据同步请求；

在所述第一从节点和所述第一观察者节点写入成功后，所述第一从节点和所述第一观察者节点分别向所述第一主节点返回第一数据写入响应和第二数据写入响应。

6.根据权利要求5所述的方法，其特征在于，所述第一数据写入响应包括所述第一从节点的第一写入成功位置，所述第二数据写入响应包括所述第一观察者节点的第二写入成功位置；

其中，确认所述第一主节点、所述第一从节点和所述第一观察者节点是否同步成功，包括：

在所述第一从节点和所述第一观察者节点分别返回所述第一数据写入响应和所述第二数据写入响应之后，确认所述第一主节点、所述第一从节点和所述第一观察者节点同步成功；

将所述第一写入成功位置和所述第二写入成功位置中最小的写入成功位置作为所述第一集群的目标写入成功位置。

7.根据权利要求1所述的方法，其特征在于，所述第一观察者节点不参与所述第一集群的选举，所述第一数据中心和所述第二数据中心位于不同地域。

8.一种数据处理系统，其特征在于，包括：第一集群，所述第一集群包括第一主节点、第一从节点和第一观察者节点，所述第一主节点和所述第一从节点部署在第一数据中心，所述第一观察者节点部署在第二数据中心；

其中，所述第一观察者节点用于接收所述第二数据中心对应的客户端发送的第一数据读取请求，其中所述第一数据读取请求是用于读取所述第一集群存储的目标数据的请求；

所述第一观察者节点还用于向所述第二数据中心对应的客户端返回所述第一集群存储的目标数据。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

存储装置，用于存储至少一个程序，当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1至7中任一项所述的方法。