CN102843310A

CN102843310A - 基于流言协议的广域网中消息的发布、订阅方法和系统

Info

Publication number: CN102843310A
Application number: CN2012102470464A
Authority: CN
Inventors: 王聃; 曹恺; 朱鑫
Original assignee: Sina Technology China Co Ltd
Current assignee: Sina Technology China Co Ltd
Priority date: 2012-07-17
Filing date: 2012-07-17
Publication date: 2012-12-26
Anticipated expiration: 2032-07-17
Also published as: CN102843310B

Abstract

本发明的实施例提供了一种基于流言协议的广域网中消息的发布、订阅方法和系统，可提高广域网内消息的发布效率及系统的稳定性。所述发布方法包括步骤：接收客户端发布到主题中的消息，并将消息同步到其他订阅该主题的通讯站；在订阅所述主题的通讯站中对主题中消息进行同步。本发明的实施例通过将消息发布到主题，客户端通过订阅主题来获得消息，消息在订阅主题的通讯站之间同步，这时，当其中一个通讯站出现故障时，客户端可通过其它通讯站获得其订阅主题的消息，从而不会妨碍对该消息的获得，消除了单点故障问题，并提高了系统的整体写入效率，及提高了可扩展性。

Description

基于流言协议的广域网中消息的发布、订阅方法和系统

技术领域

本发明涉及消息发布方法和系统，尤其涉及一种基于流言协议的广域网中消息的发布、订阅方法和系统。所述流言协议是一种以类似于人群中传播闲话的方式对网络数据进行同步的协议。

背景技术

发布-订阅技术是消息传递的一种模式。一般来说，消息传递最基本的模式是，发送者将消息直接传递给接收者。而发布-订阅技术则不是将消息直接传递给接收者，而是将消息分为若干类别（这些类别也称为主题），接收者可以通过订阅自己感兴趣的类别来获得这个类别对应的消息。将消息分类的一种典型方式是，发送者将消息发布到不同的主题，接收者则订阅感兴趣的主题来获得消息。

在互联网上应用发布-订阅技术的一个典型场景是，一个客户端按先后顺序把消息发布到一个IDC（Internet Data Center，互联网数据中心）的主题，而其他的客户端需要从其他的IDC按顺序读取这个主题的消息。这里要解决的问题是，如何把客户端发布到最初IDC的消息，按顺序复制到其他IDC。

现有复制技术主要是基于日志复制的主从复制模型(常用于数据库管理系统中数据的复制)。其中，一个节点(一台服务器)作为主节点，其他若干节点作为从节点(即，这种复制模型是由一个主节点和多个从节点组成)，主节点接收和处理所有的写请求，而从节点则接收和处理所有的读请求，写到主节点的数据以日志的形式被复制到各个从节点。这种模型的优点是简单易行，成熟稳定。

然而，由于基于这种模型的系统只包含一个主节点，而从节点又无法处理写请求，因此存在以下问题：一旦主节点发生故障，就会出现单点故障问题，可靠性不高；当这种主从复制要跨越多个IDC(即主节点在一个IDC，从节点在其他IDC)时，由于只能有一个主节点，因此系统的整体写入效率会非常低，可扩展性较差。

发明内容

本发明的实施例提供了一种基于流言协议的广域网中消息的发布、订阅方法和系统，可提高广域网内消息的发布效率及系统的稳定性。

本发明的实施例提供了一种基于流言协议的广域网中消息的发布方法，所述方法包括步骤：接收客户端发布到主题中的消息，并将消息同步到其他订阅该主题的通讯站；在订阅所述主题的通讯站中对主题中消息进行同步，在同步过程中，满足如下条件：

对于发布到本地通讯站的第一消息和从远端通讯站同步到本地通讯站的第二消息，第一消息和第二消息的排列顺序与消息上传到通讯站的时间顺序一致。

所述同步包括摘要同步步骤，所述摘要同步步骤包括：

本地通讯站随机读取任一远端通讯站关于主题的同步表；

比较本地通讯站与该远端通讯站的同步表中每个通讯站相对应的可获得消息实体数量，如果本地通讯站同步表中通讯站的可获得消息实体数量比远端通讯站同步表中同一通讯站的可获得消息实体数量小，使用远端通讯站同步表中该通讯站的可获得消息实体数量更新本地通讯站同步表中该通讯站的可获得消息实体数量；如果本地通讯站同步表中通讯站的可获得消息实体数量比远端通讯站同步表中同一通讯站的可获得消息实体数量大，将本地通讯站同步表中该通讯站的可获得消息实体数量添加到新建的空摘要中；

比较本地通讯站与该远端通讯站的同步表中每个通讯站相对应的消息实体最大数量，如果本地通讯站同步表中通讯站的消息实体最大数量比远端通讯站同步表中同一通讯站的消息实体最大数量小，使用远端通讯站同步表中该通讯站的消息实体最大数量更新本地通讯站同步表中该通讯站的消息实体最大数量；如果本地通讯站同步表中通讯站的消息实体最大数量比远端通讯站同步表中同一通讯站的消息实体最大数量大，将本地通讯站同步表中该通讯站的消息实体最大数量添加到新建的空摘要中；

将空摘要发送至所述远端通讯站。

所述同步还包括数据复制步骤，所述数据复制步骤包括：

比较本地通讯站的同步表中每个通讯站相对应的可获得消息实体数量，如果本地通讯站的可获得消息实体数量小于任一远端通讯站的可获得消息实体数量，则从该远端通讯站获取自身没有的消息。

本发明还提供了一种基于流言协议的广域网中消息的发布系统，包括主体部分和客户端，其中：所述主体部分包括通讯站，该通讯站包括主节点，所述主节点用于接收客户端发布到主题中的消息，并将消息同步到其他订阅该主题的通讯站；对主题中消息进行同步，在同步过程中，满足如下条件：对于发布到本地通讯站的第一消息和从远端通讯站同步到本地通讯站的第二消息，第一消息和第二消息的排列顺序与消息上传到通讯站的时间顺序一致；所述客户端，用于将消息发布到本地通讯站的主题中。

所述系统还包括管理部分，其用于存储和维护元数据，所述元数据包括主节点与通讯站的成员关系、主题与通讯站的订阅关系、主节点的地址信息，并向主体部分提供所述元数据。

所述管理部分，还用于向客户端提供所述元数据；或者，所述系统还包括缓存部分，所述缓存部分用于从管理部分获得元数据，并存储元数据，向对应的客户端提供元数据。

所述通讯站还包括从节点，所述系统还包括复制选举器，其用于当主节点发生故障时，将一个从节点选举为新的主节点，并在主节点和从节点之间复制消息。

所述通讯站还包括从节点，所述系统还包括选举器和复制器，所述选举器用于当主节点发生故障时选举一个从节点选举为新的主节点，所述复制器用于在主节点和从节点之间复制消息。

本发明还提供了一种基于流言协议的广域网中消息的订阅方法，其基于上述的发布方法，所述订阅方法包括步骤：对预定主题进行订阅；从通讯站中获得订阅的主题，并从该主题中获得消息。

本发明还提供了一种基于流言协议的广域网中消息的订阅系统，其基于上述的发布系统，包括主体部分和客户端，其中：所述主体部分包括通讯站，该通讯站包括从节点，从节点用于向客户端发布订阅的主题；所述客户端用于订阅该主题，并通过该主题从主体部分的通讯站的从节点中获得关于所述主题的消息。

本发明的实施例通过将消息发布到主题，客户端通过订阅主题来获得消息，消息在订阅主题的通讯站之间同步，这时，当其中一个通讯站出现故障时，客户端可通过其它通讯站获得其订阅主题的消息，从而不会妨碍对该消息的获得，消除了单点故障问题，并提高了系统的整体写入效率，及提高了可扩展性。

附图说明

图1示出了本发明实施例的广域网消息的发布方法；

图2示出了本发明实施例的广域网消息的发布系统；

图3示出了本发明另一实施例的广域网消息的发布系统。

具体实施方式

为了便于本领域一般技术人员理解和实现本发明，现结合附图描绘本发明的实施例。

在描述系统架构以及组成前，首先阐明如下几个概念：

主题(Topic)：消息的聚合体，在一个主题内消息按照入队先后排列；

应用(Application)：每一个主题都是属于一个应用，也就是在创建任何主题前都要先创建一个应用，一个应用下可以创建多个主题；

通讯站(Station)：一个通讯站包含一组服务节点，一般地，不同的通讯站位于不同的IDC；

本地通讯站：客户端程序将消息发布到的通讯站。

实施例一

如图1所示，本实施例提供了一种基于流言协议的广域网消息的发布方法，所述方法包括步骤：

步骤11、接收客户端发布到主题中的消息；

步骤12、将消息同步到其他订阅该主题的通讯站；

步骤13、在订阅所述主题的通讯站中对主题中消息进行同步，在同步过程中，满足如下条件：对于发布到本地通讯站的第一消息和从远端通讯站同步到本地通讯站的第二消息，第一消息和第二消息的排列顺序与消息上传到通讯站的时间顺序一致。

首先描述下面要用到的符号定义。定义消息为

其中p表示消息对应的主题，d是消息发布到的通讯站，i是d为其分配的id（按消息在d接收的先后顺序，时间越靠后id越大）。设c是一个通讯站，

是

上传到c的时刻，是c收到的所有关于主题p的消息的集合，那么定义上反自反全序关系

如下：

设有两个通讯站分别为E和F，它们都对某一个主题Q感兴趣，那么E获取的Q的消息序列中的消息的顺序应当满足：

1、在E待发布的所有消息

的排列顺序，与这些消息从客户端发布到E时的时间顺序一致；

2、从F复制过来的所有消息

的排列顺序，与这些消息从客户端发布到F时的时间顺序一致；

3、对于在E待发布的某一条消息

和从F同步到E的某一条消息

这两条消息的排序，按照和

的大小排列，即，按照这些消息上传到通讯站的时间顺序进行排列。

总体上来说，对于在本地通讯站待发布的消息和从任一远端通讯站同步过来的消息，这些消息的排列顺序与其上传到通讯站的时间顺序一致。这三个条件规定了消息分发的有序性。条件1、2规定了局部有序性，即消息在客户端A发布的顺序和最终交付到客户端B的顺序是一致的。条件3规定了全局有序性，即来自于广域网的全局消息保持服务器时间轴有序。

显然

关系满足这两个条件的要求，因此消息发布系统将满足

关系的消息序列交付给客户端。

在本实施例中，通讯站之间消息的复制是基于运行在各个通讯站主节点上的流言协议实现的，流言协议保证了复制的连续性和顺序性。因此，为实现通讯站之间数据复制，需要有两个过程，一个过程是消息状态的同步，一个过程则是消息实体的复制。而消息状态的同步就是通过流言协议实现的。流言协议主要有两种方式，一种是反熵法(anti-entropy)，一种是谣言传播法(rumor-mongering)。反熵法的策略是，每个节点周期性地随机选择一个对等节点，对比本节点和对等节点之间数据的指纹或版本，如果有差异则说明数据已经被更新过，需要通过交换使得拥有较旧数据的节点获得较新的数据。谣言传播法的策略是，当节点产生一个更新时，这个更新就进入到“热点”状态，节点会周期性地向随机选择的对等节点传播这个更新，直到它认为这个更新不再是“热点”(此时有它认为的足够多的节点已经收到了这个更新)后，就会停止对这个更新的传播。

本实施例中，消息复制状态的同步采用是反熵法，主要原因是反熵法更为可靠，更有助于实现最终一致性。在谣言传播法中，因为当节点认为一个处于“热点”状态的更新已经被足够多的节点收到时就会停止传播，所以可能有的节点还没有收到更新时，传播就已经停止了，尽管这种情况的概率很低。而反熵法则是通过指纹或版本来对比两个节点间的整体数据，不一致时就会更新，因此可以保证所有节点的数据都能达到最终一致，因而比谣言传播法更为可靠。而且，各节点间交换的不是整体数据，而是将消息队列补全，因此反熵法不会比谣言传播法耗费更大的带宽。

本实施例中，与以往流言协议所解决的同步问题的不同之处在于，系统要同步的对象不是一个普通的值或状态，而是一个消息序列。这个序列不但包含一系列的消息，而且这些消息是有序的。采用反熵策略，可以将当前消息的最大id(设为max_id)作为消息序列的版本号。max_id从1开始编号。每进入一条新消息，max_id就会增加，也就是消息序列的版本更新。设更新前的max_id为m,更新后的max_id为m′，于是得出要同步的消息为m+1,m+2,...,m′共m′-m条。

前面提到，为实现通讯站之间数据复制，需要有两个过程，一个过程是消息复制状态的同步，一个过程则是消息实体的复制。我们将消息复制状态的同步称之为摘要同步(digest reconciliation)，消息实体的复制称之为数据复制(data replication)。

为了进行摘要同步，每个通讯站都将需要同步的各个通讯站的max_id组织到一个名为同步表的数据结构中。同步表包含了一个通讯站感兴趣的全部主题，把每一个主题及其对应的状态（如该主题所包含的消息数量）称为一个摘要(digest)。因此一个同步表是由若干个摘要组成的，摘要和主题是一一对应的关系。为了说明一个摘要中包含哪些状态，给出摘要的形式化描述。设摘要的主题是P，通讯站包括S₀,S₁,...,S_n-1共n个通讯站，D_k是S_k维护的关于P的摘要(其中k∈[0,n))。S_k既然要同步各个通讯站的状态，因此D_k应当包含S_k已知的S₀,S₁,...,S_n-1所有这n个通讯站的状态，分别记为D_k[S₀],D_k[S₁],...D_k[S_n-1]。每一个D_k[S_i](其中i∈[0,n))包含一个max_id以及n个available_max_id，分别记为D_k[S_i].max_id和D_k[S_i][S_j].avl_max_id(其中j∈[0,n))。max_id是目前S_k已知的S_i接收到的消息的最大id。S_k目前同步到的消息可能没有这么多，但作为“目标”，S_k 知道S_i又发布了新的消息(max_id实际上是各个通讯站在本地成功发布消息后更新的，因此S_k实际收到的消息不可能多于D_k[S_i].max_id条)。available_max_id记录的就是实际同步到的可获得消息实体数量。D_k[S_i][S_j].avl_max_id的含义是：S_k已知的S_j实际从S_i同步到的消息实体最大数量。当S_k发现D_k[S_i][S_k].avl_max_id小于D_k[S_i].max_id时，就认为有新消息需要同步，于是找出所有满足D_k[S_i][S_j].avl_max_id=D_k[S_i].max_id的S_j(j≠k且j∈[0,n))。设共有r(0<r≤n-1且j∈[0,n))个通讯站

满足条件，从这些通讯站中随机选择一个来同步消息。那么，S_k不仅记录自己的D_k[S_i][S_k].avl_max_id，还要记录所有通讯站的available_max_id，这是因为，尽管S_k从S_i一定可以获取到新消息，但如果所有通讯站都从S_i读取可能会增加S_i的压力。而且一旦S_i发生故障，则不知道从其他哪些通讯站还可以获取到新消息而出现单点故障问题。

可以用矩阵以及定义在矩阵上的二元运算来精确描述摘要同步过程。设V是n个通讯站的id的集合(不妨设V=[0,n))，把通讯站k(k∈V)关于P的摘要D_k定义为一个n×(n+1)矩阵：

&ForAll; i, j &Element; [0, n), a_{i, j}^{k} &GreaterEqual; 0, m_{i}^{k} &GreaterEqual; 0

其中

相当于D_k[S_i][S_j].avl_max_id，

相当于D_k[S_i].max_id。

在n×(n+1)矩阵上定义两种二元运算

和

D_{σ} &CirclePlus; D_{τ} : = ({(\max (a_{i, j}^{σ}, a_{i, j}^{τ}))}_{n \times (n + 1)}, {(\max (m_{i}^{σ}, m_{i}^{τ}))}_{n}^{T})

D_{σ} &CircleTimes; D_{τ} : = ({(a_{i, j}^{&CircleTimes;})}_{n \times (n + 1)}, {(m_{i}^{&CircleTimes;})}_{n}^{T})

其中和

分别定义为：

a_{i, j}^{&CircleTimes;} : = \{\begin{matrix} a_{i, j}^{σ}, & a_{i, j}^{σ} > a_{i, j}^{τ} \\ 0, & a_{i, j}^{σ} \leq a_{i, j}^{τ} \end{matrix}

m_{i, j}^{&CircleTimes;} : = \{\begin{matrix} m_{i}^{σ}, & m_{i}^{σ} > m_{i}^{τ} \\ 0, & m_{i}^{σ} \leq m_{i}^{τ} \end{matrix}

观察式子可知，

运算得到的新n×(n+1)矩阵中的元素，取的是D_σ和D_τ中相应元素的最大值。

运算得到的新矩阵中的元素则是D_σ中比D_τ大的元素，比D_τ小的元素则设为零。显然，

遵守交换律、结合律和幂等律，则不遵守这三条规律。

根据前面的形式化定义，两个通讯站S_σ和S_τ之间由S_σ发起的摘要同步过程描述为如下：

(i)更新S_τ的同步表同时从τ的同步表中取出比σ更新的状态

D_{τ}^{&CircleTimes;} &DoubleLeftArrow; D_{τ} &CircleTimes; D_{σ};

(ii)更新S_σ的同步表

D_{σ}^{''} &DoubleLeftArrow; D_{σ}^{'} &CirclePlus; D_{τ}^{&CircleTimes;} .

可以把

得到的

看作一个稀疏矩阵，在实际的数据传输中只把矩阵中那些非零的元素反馈回S_σ。

和

这两个运算也是同时进行的，也就是在比较D_σ和D_τ中两个元素

和

之间的大小时，替换D_τ中较小的元素就得到了D′_τ，提取D_τ中较大的元素就得到了

第(ii)步中是D′_σ而不是D_σ和

进行运算的原因是，在第(i)步结束后，此时可能有别的通讯站向σ发起摘要同步，因此等到第二步更新S_σ的同步表时，S_σ的同步表可能已经发生更改而不再是D_σ了，D′_σ就是变化后同步表的摘要，当然D_σ=D′_σ也是有可能的。

摘要同步过程进行的同时，数据复制过程也在进行着(当然，二者对于同步表的访问时互斥的)。数据复制过程实际上是根据摘要同步后的新状态去读取新的消息。对每一个i∈[0,n)，数据复制会比较

和

的大小如果

则从表中找到所有的通讯站ω，使得

在其中随机取一个ω′，从读取相应的消息实体。

下面描述摘要同步和数据复制的过程。

摘要同步步骤包括：

1、本地通讯站随机读取任一远端通讯站关于主题的同步表；

2、比较本地通讯站与该远端通讯站的同步表中每个通讯站相对应的可获得消息实体数量，如果本地通讯站同步表中通讯站的可获得消息实体数量比远端通讯站同步表中同一通讯站的可获得消息实体数量小，使用远端通讯站同步表中该通讯站的可获得消息实体数量更新本地通讯站同步表中该通讯站的可获得消息实体数量；如果本地通讯站同步表中通讯站的可获得消息实体数量比远端通讯站同步表中同一通讯站的可获得消息实体数量大，将本地通讯站同步表中该通讯站的可获得消息实体数量添加到新建的空摘要中；

3、比较本地通讯站与该远端通讯站的同步表中每个通讯站相对应的消息实体最大数量，如果本地通讯站同步表中通讯站的消息实体最大数量比远端通讯站同步表中同一通讯站的消息实体最大数量小，使用远端通讯站同步表中该通讯站的消息实体最大数量更新本地通讯站同步表中该通讯站的消息实体最大数量；如果本地通讯站同步表中通讯站的消息实体最大数量比远端通讯站同步表中同一通讯站的消息实体最大数量大，将本地通讯站同步表中该通讯站的消息实体最大数量添加到新建的空摘要中；

4、将空摘要发送至所述远端通讯站。

数据复制步骤包括：比较本地通讯站的同步表中每个通讯站相对应的可获得消息实体数量，如果本地通讯站的可获得消息实体数量小于任一远端通讯站的可获得消息实体数量，则从该远端通讯站获取自身没有的消息。

下面给出摘要同步和数据复制算法描述。算法中的变量说明参见上面对摘要同步的论述部分(τ是本地通讯站的下标，σ是远端通讯站的下标)。

结合表1-4的例子进一步说明摘要同步和数据复制过程。

表1

表1示出了通讯站A发送到通讯站B的摘要。其中，第一行的含义是指客户端发布到通讯站A的消息为10条，第二行的含义是指通讯站B通过同步获得的由客户端发布到通讯站A的消息为0条，第三行的含义是指通讯站C通过同步获得的由客户端发布到通讯站A的消息为0条。类似地，第四行的含义是指通讯站A通过同步获得的由客户端发布到通讯站B的消息为95条，第五行的含义是指客户端发布到通讯站B的消息为100条，第六行的含义是指通讯站C通过同步获得的由客户端发布到通讯站B的消息为65条。第七行的含义是指通讯站A通过同步获得的由客户端发布到通讯站C的消息为30条，第八行的含义是指通讯站B通过同步获得的由客户端发布到通讯站C的消息为10条，第九行的含义是指客户端发布到通讯站C的消息为30条。

假定有一个主题，名称记作art，现在要在A、B和C这三个通讯站之间同步art的消息。现在A随机选择了通讯站B，并与通讯站B进行摘要同步，于是从自己的同步表中读取art的摘要。表1所示就是art的摘要，我们看到，在表1中通讯站A已收到的art的可获得消息实体数量（available_max_id）是10。因为是通讯站A的同步表，因此消息实体最大数量（max_id）等于available_max_id，都是 10。但通讯站B和通讯站C目前还没有收到任何通讯站A的消息(可能是在通讯站A刚刚发布了10条消息)，所以available_max_id还为0。通讯站B和通讯站C对应的available_max_id和max_id同理。需要注意的是，由于通讯站B和通讯站C的消息都不是通讯站A本地发布的，所以在同步过程中，通讯站A在将自己的状态推送给通讯站B和通讯站C的同时，也希望从通讯站B和通讯站C同步到它们本地最新的状态。

表2

表2示出了同步前通讯站B的同步表。

表2所示的是此时通讯站B的同步表中art的状态。当收到通讯站A发来的摘要后，通讯站B会逐项比较。首先发现通讯站A的max_id已经到10了，将自己的同步表的状态从0修改为10(修改后的同步表见表3)。通讯站B发现自己的max_id是0，但实际上通讯站A的max_id已经是10，为了更新，得去将这10条消息取来。那么从哪里去取这10条消息呢？由于通讯站B发现A的available_max_id是10，于是通讯站B由此知道通讯站A那里有这最新的10条消息。继续检查同步表中通讯站B对应的状态，通讯站B本地发布的消息已达120 条，但发现通讯站A发来的摘要中通讯站A已知最大的max_id为100，小于120，说明通讯站A记录的已经不是最新状态，于是通讯站B将自己这里最新的状态也要封装成一条摘要，将自己的最新情况写进去，表4所示的就是这条摘要，包含了通讯站A所需要的最新状态，当然之后是要返回给通讯站A的。通讯站B又发现通讯站A对于通讯站C的available_max_id的值为65，小于自己的85，也写进将要反馈给通讯站A的摘要中。当检查到通讯站C的状态时，发现自己的通讯站A和通讯站C的available_max_id以及C的max_id都变旧了，都已经到30了，而自己的只有15条，于是更新状态。同时，通讯站B既可以到通讯站A去取那新的15条消息，也可以到通讯站C去取。另外通讯站A摘要中相信通讯站B只取到了C的10条消息，而实际上通讯站B已取到15条了，因此通讯站B把这个新状态也添加到给通讯站A的反馈中。B更新完成后的状态如表3所示，反馈给通讯站A的摘要如表4所示。通讯站A收到反馈后同样会按照前面所述的那样更新自己的状态。

表3

表3示出了同步后B的同步表。

表4

表4示出了B返回给A的摘要。

在数据复制过程中，每个通讯站会比较同步表中available_max_id和max_id的大小，如果自己的available_max_id更小，就认为自己的状态是旧的，于是查看其他通讯站的available_max_id比本通讯站的大。在表3中，通讯站B发现通讯站A和通讯站C都有通讯站C的更新的消息，通讯站B将从通讯站A和通讯站C中随机选择一个获得这些消息。并设置其对应的available_max_id这个字段，一方面是让通讯站检查是否自己的状态已经变旧，应当去哪里获取新消息，另一方面也是让通讯站在更新自己的消息时有更多的选择，避免所有通讯站都去一个地方取，缓解了通讯站的访问压力，也防止单点故障问题的出现。

实施例二

如图2所示，本实施例还公开了一种基于流言协议的广域网中消息的发布系统，该系统包括主体部分、管理部分、缓存部分和客户端。图2是本实施例的系统的整体架构。接下来对各部分进行详细说明。

客户端包括用户编写的应用程序和系统的软件开发工具包。客户端通过调用软件开发工具包的接口，将消息发布到某个通讯站，或是从某个通讯站订阅消息。

管理部分的主要作用是维护节点的成员关系和存储客户端应用名称、主题等元数据，向其他部分提供对这些数据的存取，所述节点的成员关系包括系统内的节点、节点归属哪一个通讯站的属性。主体部分中各个节点启动时，向管理部分注册自己的信息，从管理部分读取应用和主题等元数据；同时在本通讯站内的成员关系发生变化时，比如发现某个节点新加入到通讯站，或是认为某个节点崩溃，也会通知到通讯站内的各个节点。应用调用客户端软件开发工具包可以原子地在管理部分上创建、删除主题；同时，客户端也需要从管理部分读取主题以及通讯站中主、从节点的地址信息。

缓存部分，为了分散管理部分的压力，根据客户端数量部署多个缓存部分，用于缓存元数据。这样，客户端可从缓存部分中读取元数据。当管理部分维护的元数据和成员关系发生变化时，会通知缓存部分也进行相应的更新。元数据和成员关系变化的频率是很低的，因而管理部分将这些变化通知到每一个缓存部分的压力也不大。因此，当客户端的数量较多时，采用缓存部分有效地解决了管理部分所承受的读取压力。

主体部分由若干个通讯站组成，每个通讯站包括一个主节点和一个或多个从节点。客户端应用发布的消息首先被发送到通讯站的主节点，然后复制到系统内的各个从节点。复制过程分为两个层次：一个层次是通讯站内消息的复制，在通讯站内，采用Paxos协议作为复制选举器，进行主从复制，包含一个主节点，若干个从节点，消息在主节点发布后，被可靠地复制到其他从节点；另一个层次是通讯站之间消息的复制，是各个通讯站的主节点之间的复制，采用的是对等的去中心化的复制模式。客户端从某一通讯站订阅消息的请求被发送到这个通讯站内的从节点，由从节点将相应的消息返回给客户端。

在本实施例中，通讯站内消息的复制采用Paxos一致性协议。消息在主节点发布，再通过Paxos算法被复制到从节点。一旦主节点发生故障，通过Paxos算法可以将一个从节点选举为新的主节点，实现了系统的高可用性。Paxos算法是一种一致性算法，解决的是在可能发生故障(比如节点崩溃或出现网络分区)的分布式系统中，如何使得各节点就某一项事务达成一致的问题。

如图3所示，图3示出了本发明实施例的另一系统图，下面是对图2的若干修改，修改说明如下。

在图2中，通讯站间的复制包括摘要同步和数据复制两个过程。其中，摘要同步中的max_id表示的是消息的序号，数据复制则是直接复制消息。图3所示系统同样包括这两个过程，但数据则是以日志的形式来复制的。在图3中，当客户端将消息发布到通讯站的主节点后，主节点会把消息写入日志，因此在图3所示的系统中的数据复制实际就是复制日志。在图3中，摘要同步同样是基于流言协议的，但是max_id表示的不再是消息的序号，而是日志序号(Log Sequence Number，简写为LSN)。将每条消息以一条日志的形式写入日志文件中，因此日志序号的格式就是(file_id，offset)，其中file_id是日志文件的id，offset则是这条日志在这个日志文件内的位置(即偏移)。显然，用日志序号表示的max_id和用消息序号表示的max_id是等价的。

在图2中，通讯站内的复制是基于Paxos协议的。图3所示系统的通讯站内的复制，则是通讯站间的复制时相同的，即包括摘要同步和数据复制两个过程，摘要同步基于流言协议，max_id表示日志序号，数据复制则是复制日志。在图3中，与图2相同的是，通讯站内还是包括一个主节点和多个从节点，客户端把消息发布到主节点，在从节点读取消息。

图3所示系统包括主体部分、管理部分、缓存部分、选举器、复制器和客户端。图3所示系统在图2基础上加入了选举器。在图3所示系统中，通讯站内的主节点的选举不再通过Paxos算法，而是通过选举器。首先，通讯站内的成员关系的变化会通过管理部分通知到选举器，如果选举器发现是主节点崩溃，那么就会在通讯站内所有存活的从节点中选出一个新的主节点，通知管理部分，再由管理部分通知给通讯站内各个节点。另外，主节点和从节点之间复制消息通过复制器进行，复制器进行摘要同步时基于流言协议，max_id表示日志序号，数据复制则是复制日志。

实施例三

本实施例提供了一种基于流言协议的广域网中消息的订阅方法，其基于实施例一所述的发布方法，所述订阅方法包括步骤：对预定主题进行订阅；从通讯站中获得订阅的主题，并从该主题中获得消息。

本实施例的订阅方法可参见实施例一的描述。

实施例四

本实施例提供了一种基于流言协议的广域网中消息的订阅系统，其基于实施例二所述的发布系统，包括：主体部分和客户端，所述主体部分包括通讯站，该通讯站包括从节点，从节点用于向客户端发布订阅的主题；所述客户端用于订阅该主题，并通过该主题从主体部分的通讯站的从节点中获得关于所述主题的消息。本实施例的各个单元的工作原理可参见实施例二的描述。

虽然通过实施例描绘了本发明，但本领域普通技术人员知道，在不脱离本发明的精神和实质的情况下，就可使本发明有许多变形和变化，本发明的范围由所附的权利要求来限定。

Claims

1.一种基于流言协议的广域网中消息的发布方法，其特征在于，所述方法包括步骤：

接收客户端发布到主题中的消息，并将消息同步到其他订阅该主题的通讯站；

在订阅所述主题的通讯站中对主题中消息进行同步，在同步过程中，满足如下条件：

2.根据权利要求1所述的方法，其特征在于，所述同步包括摘要同步步骤，所述摘要同步步骤包括：

本地通讯站随机读取任一远端通讯站关于主题的同步表；

将空摘要发送至所述远端通讯站。

3.根据权利要求2所述的方法，其特征在于，所述同步还包括数据复制步骤，所述数据复制步骤包括：

4.一种基于流言协议的广域网中消息的发布系统，其特征在于，包括主体部分和客户端，其中：

所述主体部分包括通讯站，该通讯站包括主节点，所述主节点用于接收客户端发布到主题中的消息，并将消息同步到其他订阅该主题的通讯站；对主题中消息进行同步，在同步过程中，满足如下条件：对于发布到本地通讯站的第一消息和从远端通讯站同步到本地通讯站的第二消息，第一消息和第二消息的排列顺序与消息上传到通讯站的时间顺序一致；

所述客户端，用于将消息发布到本地通讯站的主题中。

5.根据权利要求4所述的发布系统，其特征在于，所述系统还包括管理部分，其用于存储和维护元数据，所述元数据包括主节点与通讯站的成员关系、主题与通讯站的订阅关系、主节点的地址信息，并向主体部分提供所述元数据。

6.根据权利要求5所述的发布系统，其特征在于，

所述管理部分，还用于向客户端提供所述元数据；

或者，所述系统还包括缓存部分，所述缓存部分用于从管理部分获得元数据，并存储元数据，向对应的客户端提供元数据。

7.根据权利要求4所述的发布系统，其特征在于，所述通讯站还包括从节点，所述系统还包括复制选举器，其用于当主节点发生故障时，将一个从节点选举为新的主节点，并在主节点和从节点之间复制消息。

8.根据权利要求4所述的发布系统，其特征在于，所述通讯站还包括从节点，所述系统还包括选举器和复制器，所述选举器用于当主节点发生故障时选举一个从节点选举为新的主节点，所述复制器用于在主节点和从节点之间复制消息。

9.一种基于流言协议的广域网中消息的订阅方法，其基于权利要求1所述的发布方法，其特征在于，所述方法包括步骤：

对预定主题进行订阅；

从通讯站中获得订阅的主题，并从该主题中获得消息。

10.一种基于流言协议的广域网中消息的订阅系统，其基于权利要求4所述的发布系统，其特征在于，包括主体部分和客户端，其中：

所述主体部分包括通讯站，该通讯站包括从节点，从节点用于向客户端发布订阅的主题；

所述客户端用于订阅该主题，并通过该主题从主体部分的通讯站的从节点中获得关于所述主题的消息。