CN110633164A - 一种面向消息的中间件故障恢复方法及装置 - Google Patents

一种面向消息的中间件故障恢复方法及装置 Download PDF

Info

Publication number
CN110633164A
CN110633164A CN201910734177.7A CN201910734177A CN110633164A CN 110633164 A CN110633164 A CN 110633164A CN 201910734177 A CN201910734177 A CN 201910734177A CN 110633164 A CN110633164 A CN 110633164A
Authority
CN
China
Prior art keywords
data
mom
outdb
client
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910734177.7A
Other languages
English (en)
Other versions
CN110633164B (zh
Inventor
梁小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ruijie Networks Co Ltd
Original Assignee
Ruijie Networks Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ruijie Networks Co Ltd filed Critical Ruijie Networks Co Ltd
Priority to CN201910734177.7A priority Critical patent/CN110633164B/zh
Publication of CN110633164A publication Critical patent/CN110633164A/zh
Application granted granted Critical
Publication of CN110633164B publication Critical patent/CN110633164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Retry When Errors Occur (AREA)

Abstract

本发明公开了一种面向消息的中间件MOM故障恢复方法及装置,其中,所述方法应用于单机设备中的MOM节点,包括:MOM进行重启,读取数据库的备份文件;确定所述备份文件的文件块个数;启动与所述文件块个数相等数量的后台子线程以使每个子线程读取一个文件块,直至所述备份文件读取完毕以完成MOM重启。本发明实施例提供的方法及装置能够解决如何在单机设备实现MOM故障恢复的问题。

Description

一种面向消息的中间件故障恢复方法及装置
技术领域
本发明涉及计算机网络通讯技术领域,尤指一种面向消息的中间件(Message-Oriented Middleware,MOM)故障恢复方法及装置。
背景技术
MOM可以描述为一类能够为分布式应用程序或者异构的操作系统提供松散耦合的、可靠的、可扩展的、安全的消息通信软件架构。MOM在消息的发送者和消息的接收者之间提供一个消息中介的作用,这种中介作用本质上解决了应用通信之间的耦合关系。
在MOM系统中,消息是由一个应用程序发布给MOM,MOM中转发给另一个应用程序的业务信息。通过MOM,消息将会投递给订阅它的订阅者。发送者无需对订阅者做任何假设和了解,订阅者也无需知道发送者的相关信息,这种基于消息发布/订阅(P/S)的模型是松散耦合通信机制的根本。这样的系统即使在有个别组件出异常时,整个系统也能够正常对外提供功能。
为了发送或接收消息,客户端必须先连接到MOM,客户端本身就是消息生成方和/或消息使用方。消息生成方向MOM管理的目的地发送一条消息,消息使用方访问该目的地以使用此消息。该消息包括消息头、属性(可选)和主体。消息主体用来保存数据;消息头中包含代理路由和管理消息所需的信息;属性可以由客户端应用程序或提供者定义,以满足处理消息的需要。
MOM可以很好的解决耦,具备以下特点:1、异步:基于存储转发机制的异步通信方式,发送者将消息发送给MOM,MOM将消息存放起来,在合适的时候再将消息转发给接收者。2、松耦合:客户和服务对象的生命周期松耦合,由MOM来保障消息队列及服务,二者的生命周期无需相同,即发送消息的时候接收者不一定运行,接收消息的时候发送者也不一定运行。3、可靠性:由MOM来保障即使系统中有个别应用出现异常,整个系统也能够正常对外提供功能。
MOM作为系统消息通信的中心,也是整个系统正常运行的中心节点。一旦MOM出现故障,就会导致整个系统异常。因此业界通常采用集群技术达到去中心化的目的,多个MOM实例共同组成一个群体对外提供服务,每个MOM实例就是集群中的一个节点。集群中的每个节点都是平等的关系,都是对等的,每个节点都保存各自的数据和整个集群的状态。每个节点都和其他所有节点连接,而且这些连接保持活跃,这样就保证了只需要连接集群中的任意一个节点,就可以获取到其他节点的数据。
MOM为了保证数据的高可用性,集群技术中存在主从模式,一个主节点对应一个或多个从节点,主节点提供数据存取,从节点则是从主节点拉取数据备份,当这个主节点挂掉后,就会在从节点中选取一个来充当主节点,从而保证集群不会挂掉。
一主多从的集群模式,在主节点出现故障的时候,通过在从节点中选取新主的方式达到故障恢复。但是该方案在单机网络设备上,无法有效实施。原因如下:1、单机网络设备本身的内存、cpu等硬件资源存在瓶颈,无法做到一主多从的集群模式,每增加一个从机,需要多消耗等量的内存并占用相当的cpu资源。2、MOM一主多从的集群模式下通常用于分布式场景下的容灾恢复策略,不同的主机和从机一般分布于不同的物理机上。而对于单机如嵌入式设备场景下,该方案并不适用。
发明内容
本发明实施例提供一种MOM故障恢复方法及装置,用以解决现有技术中如何在单机设备实现MOM故障恢复的问题。
一种面向消息的中间件MOM故障恢复方法,所述方法应用于单机设备中的MOM节点,包括:
MOM进行重启,读取数据库的备份文件;
确定所述备份文件的文件块个数;
启动与所述文件块个数相等数量的后台子线程以使每个子线程读取一个文件块,直至所述备份文件读取完毕以完成MOM重启。
进一步地,所述方法,还包括:
MOM在正常运行期间,采用快照备份方式对数据库进行备份,并将备份文件划分为预设大小的文件块进行存储。
本发明实施例还提供一种面向消息的中间件MOM故障恢复方法,所述方法应用于与发生重启MOM连接的客户端;所述方法,包括:
所述客户端获取第一MOM的下游数据OutDB;所述OutDB为所述第一MOM存储的所述客户端发来的数据;
将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分标记为确定数据,所述OutDB中与所述内部数据不重合的部分标记为不确定数据;
获取第二MOM的上游数据InputDB;所述InputDB为所述第二MOM提供给所述客户端的数据;
判断自身是否存储有所述InputDB,若未存储所述InputDB,则存储所述InputDB并进行处理,得到增量OutDB并输出给所述第一MOM;
当遍历完所有第二MOM的InputDB后,将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致。
其中,所述将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分标记为确定数据,所述OutDB中与所述内部数据不重合的部分标记为不确定数据,包括:
将所述OutDB标记为脏数据;
将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分的脏标记去除;
将去除脏标记的数据作为确定数据,保留脏标记的数据作为不确定数据。
其中,所述将所述OutDB中标记为不确定数据的部分进行清除,包括:
将所述OutDB中标记为脏数据的部分进行清除。
进一步地,在所述当遍历完所有第二MOM的InputDB后,将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致之后,所述方法还包括:
当存在其他客户端的数据依赖所述客户端的数据时,所述客户端发送数据一致性校验完成通告给所述其他客户端以使所述其他客户端接收到所述数据一致性校验完成通告后开始进行数据一致性校验。
进一步地,当所述客户端的数据依赖其他客户端的数据时,在所述客户端获取所述第一MOM的下游数据OutDB之前,所述方法,还包括:
接收所述其他客户端发送的数据一致性校验完成通告。
本发明实施例还提供一种面向消息的中间件MOM故障恢复装置,所述装置应用于单机设备中的MOM节点,包括:读取单元、确定单元、启动单元;其中,
所述读取单元,用于所述MOM节点重启时,读取数据库的备份文件,所述备份文件采用快照备份方式获得;
所述确定单元,用于确定所述备份文件的文件块个数;
所述启动单元,用于启动与所述文件块个数相等数量的后台子线程以使每个子线程读取一个文件块,直至所述备份文件读取完毕以完成MOM重启。
进一步地,所述装置,还包括:备份单元,用于在MOM正常运行期间,采用快照备份方式对数据库进行备份,并将备份文件划分为预设大小的文件块进行存储。
本发明实施例还提供一种面向消息的中间件MOM故障恢复装置,所述装置应用于与发生重启MOM连接的客户端;所述装置,包括:第一获取模块、比对模块、第二获取模块、判断模块、处理模块以及清除模块;其中,
所述第一获取模块,用于获取第一MOM的下游数据OutDB;所述OutDB为所述第一MOM存储的所述客户端发来的数据;
所述比对模块,用于将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分标记为确定数据,所述OutDB中与所述内部数据不重合的部分标记为不确定数据;
所述第二获取模块,用于获取第二MOM的上游数据InputDB;所述InputDB为所述第二MOM提供给所述客户端的数据;
所述判断模块,用于判断自身是否存储有所述InputDB;
所述处理模块,用于若未存储所述InputDB,则存储所述InputDB并进行处理,得到增量OutDB并输出给所述第一MOM;
所述清除模块,用于当所述第二获取模块遍历完所有第二MOM的InputDB后,将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致。
其中,所述比对模块,具体用于将所述OutDB标记为脏数据;将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分的脏标记去除;将去除脏标记的数据作为确定数据,保留脏标记的数据作为不确定数据。
其中,所述清除模块,具体用于将所述OutDB中标记为脏数据的部分进行清除。
进一步地,所述装置,还包括:通告模块,用于在所述清除模块将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致后,当存在其他客户端的数据依赖所述客户端的数据时,发送数据一致性校验完成通告给所述其他客户端以使所述其他客户端接收到所述数据一致性校验完成通告后开始进行数据一致性校验。
进一步地,所述装置,还包括:接收模块,用于当所述客户端的数据依赖其他客户端的数据时,接收所述其他客户端发送的数据一致性校验完成通告。
本发明有益效果如下:
本发明实施例提供的MOM故障恢复方法及装置,通过对MOM的数据库进行快照备份操作,并采用文件块存储备份文件的方式,多线程并行读取文件块,能够使得MOM实现快速故障重启,并在MOM发生重启时,对与该MOM连接的客户端进行内外数据一致性校验,以保证客户端重连所述MOM后能够正常工作,并能够基于数据一致性校验完成通知的机制,保证依赖业务的强数据一致性要求,解决了单机设备MOM故障恢复问题,保证了网络设备的高可用性,节约了成本。
附图说明
图1为本发明实施例中MOM故障恢复方法的流程图;
图2为本发明实施例中MOM故障恢复方法的另一流程图;
图3为本发明实施例中MOM故障恢复装置的结构示意图;
图4为本发明实施例中MOM故障恢复装置的另一结构示意图。
具体实施方式
针对现有技术中存在的单机设备实现MOM故障恢复的问题,本发明实施例提供的MOM故障恢复方法,通过对MOM的数据库进行备份操作,使得MOM能够实现快速故障重启,并在MOM发生重启时,对与该MOM连接的客户端进行内外数据一致性校验以保证客户端重连所述MOM后能够正常工作。本发明方法的流程如图1所示,所述方法应用于单机设备中的MOM节点,执行步骤如下:
步骤101,MOM进行重启,读取数据库的备份文件;
这里,可以启用MOM保存快照备份文件的功能对MOM正常运行期间的数据库进行备份,以减少MOM重启期间的数据丢失,这里快照备份的周期可以按照实际需要进行设置,例如可以为1分钟/次等等。
步骤102,确定所述备份文件的文件块个数;
对备份文件采用块存储的方式,每个文件块的大小可以相同或不同,具体可以按照实际需要预先进行设置。
步骤103,启动与所述文件块个数相等数量的后台子线程以使每个子线程读取一个文件块,直至所述备份文件读取完毕以完成MOM重启;
启动与文件块个数相同数量的后台子线程来并行读取备份文件以实现快速载入内存恢复数据的目的。
进一步地,所述方法,还包括:
MOM在正常运行期间,采用快照备份方式对数据库进行备份,并将备份文件划分为预设大小的文件块进行存储。
MOM重启之后,与该发生重启的MOM连接的客户端在该重启MOM中的数据可能与内部自身存储的数据存在不一致的问题,因此所述客户端需要进行内外数据一致性校验。
所述客户端进行内外数据一致性校验,主要保证上下游数据和自身内部数据一致性问题即可;这里,客户端的上游数据为MOM中存储的要输入给所述客户端的数据,这里记为InputDB;客户端的下游数据为所述客户端输出给MOM并存储在MOM中的数据,这里记为OutDB;
本发明实施例还提供一种MOM故障恢复方法,具体流程如图2所示,所述方法应用于与发生重启MOM连接的客户端;应当理解,只要与发生重启的MOM连接的客户端,均需要进行内外数据一致性校验;所述方法执行步骤如下:
步骤201,所述客户端获取第一MOM的下游数据OutDB;所述OutDB为所述第一MOM存储的所述客户端发来的数据;
步骤202,将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分标记为确定数据,所述OutDB中与所述内部数据不重合的部分标记为不确定数据;
步骤203,获取第二MOM的上游数据InputDB;所述InputDB为所述第二MOM提供给所述客户端的数据;
应当理解,所述第一MOM可能同时也是第二MOM,这里的第一MOM和第二MOM仅是为了表述方便进行命名。
步骤204,判断自身是否存储有所述InputDB,若未存储所述InputDB,则存储所述InputDB并进行处理,得到增量OutDB并输出给所述第一MOM;
步骤205,当遍历完所有第二MOM的InputDB后,将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致。
其中,步骤202,所述将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分标记为确定数据,所述OutDB中与所述内部数据不重合的部分标记为不确定数据,包括:
将所述OutDB标记为脏数据;
将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分的脏标记去除;
将去除脏标记的数据作为确定数据,保留脏标记的数据作为不确定数据。
相应地,步骤205中,将所述OutDB中标记为不确定数据的部分进行清除,包括:
将所述OutDB中标记为脏数据的部分进行清除。
这里,有些客户端之间存在业务逻辑上存在依赖关系,为了保证不同客户端之间的数据一致性校验能够按照业务需求有序进行,通过在这些客户端之间添加一个控制信息来控制多个客户端之间的数据一致性校验顺序。
优选地,在所述当遍历完所有第二MOM的InputDB后,将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致之后,所述方法还包括:
当存在其他客户端的数据依赖所述客户端的数据时,所述客户端发送数据一致性校验完成通告给所述其他客户端以使所述其他客户端接收到所述数据一致性校验完成通告后开始进行数据一致性校验。
优选地,当所述客户端的数据依赖其他客户端的数据时,在所述客户端获取所述第一MOM的下游数据OutDB之前,所述方法,还包括:
接收所述其他客户端发送的数据一致性校验完成通告。
基于同一发明构思,本发明实施例提供一种面向消息的中间件MOM故障恢复装置,该装置可以应用于单机设备中的MOM节点,结构如图3所示,包括:读取单元31、确定单元32、启动单元33;其中,
所述读取单元31,用于所述MOM节点重启时,读取数据库的备份文件;
所述确定单元32,用于确定所述备份文件的文件块个数;
所述启动单元33,用于启动与所述文件块个数相等数量的后台子线程以使每个子线程读取一个文件块,直至所述备份文件读取完毕以完成MOM重启。
进一步地,所述装置,还包括:备份单元34,用于在MOM正常运行期间,采用快照备份方式对数据库进行备份,并将备份文件划分为预设大小的文件块进行存储。
本发明实施例还提供一种面向消息的中间件MOM故障恢复装置,所述装置应用于与发生重启MOM连接的客户端;结构如图4所示,包括:第一获取模块41、比对模块42、第二获取模块43、判断模块44、处理模块45以及清除模块46;其中,
所述第一获取模块41,用于获取第一MOM的下游数据OutDB;所述OutDB为所述第一MOM存储的所述客户端发来的数据;
所述比对模块42,用于将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分标记为确定数据,所述OutDB中与所述内部数据不重合的部分标记为不确定数据;
所述第二获取模块43,用于获取第二MOM的上游数据InputDB;所述InputDB为所述第二MOM提供给所述客户端的数据;
所述判断模块44,用于判断自身是否存储有所述InputDB;
所述处理模块45,用于若未存储所述InputDB,则存储所述InputDB并进行处理,得到增量OutDB并输出给所述第一MOM;
所述清除模块46,用于当遍历完所有第二MOM的InputDB后,将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致。
其中,所述比对模块42,具体用于将所述OutDB标记为脏数据;将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分的脏标记去除;将去除脏标记的数据作为确定数据,保留脏标记的数据作为不确定数据。
其中,所述清除模块46,具体用于将所述OutDB中标记为脏数据的部分进行清除。
进一步地,所述装置,还包括:通告模块47,用于在所述清除模块将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致后,当存在其他客户端的数据依赖所述客户端的数据时,发送数据一致性校验完成通告给所述其他客户端以使所述其他客户端接收到所述数据一致性校验完成通告后开始进行数据一致性校验。
进一步地,所述装置,还包括:接收模块48,用于当所述客户端的数据依赖其他客户端的数据时,接收所述其他客户端发送的数据一致性校验完成通告。
应当理解,本发明实施例提供的面向消息的中间件MOM故障恢复装置实现原理及过程与上述图1、图2及所示的实施例类似,在此不再赘述。
本发明实施例提供的MOM故障恢复方法及装置,通过对MOM的数据库进行快照备份操作,并采用文件块存储备份文件的方式,多线程并行读取文件块,能够使得MOM实现快速故障重启,并在MOM发生重启时,对与该MOM连接的客户端进行内外数据一致性校验以保证客户端重连所述MOM后能够正常工作,并能够基于数据一致性校验完成通知的机制保证依赖业务的强数据一致性要求,解决了单机设备MOM故障恢复问题,保证了网络设备的高可用性,节约了成本。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如201、202、203等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的可选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括可选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种面向消息的中间件MOM故障恢复方法,其特征在于,所述方法应用于单机设备中的MOM节点,包括:
MOM进行重启,读取数据库的备份文件;
确定所述备份文件的文件块个数;
启动与所述文件块个数相等数量的后台子线程以使每个子线程读取一个文件块,直至所述备份文件读取完毕以完成MOM重启。
2.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
MOM在正常运行期间,采用快照备份方式对数据库进行备份,并将备份文件划分为预设大小的文件块进行存储。
3.一种面向消息的中间件MOM故障恢复方法,其特征在于,所述方法应用于与发生重启MOM连接的客户端;所述方法,包括:
所述客户端获取第一MOM的下游数据OutDB;所述OutDB为所述第一MOM存储的所述客户端发来的数据;
将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分标记为确定数据,所述OutDB中与所述内部数据不重合的部分标记为不确定数据;
获取第二MOM的上游数据InputDB;所述InputDB为所述第二MOM提供给所述客户端的数据;
判断自身是否存储有所述InputDB,若未存储所述InputDB,则存储所述InputDB并进行处理,得到增量OutDB并输出给所述第一MOM;
当遍历完所有第二MOM的InputDB后,将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致。
4.根据权利要求3所述的方法,其特征在于,所述将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分标记为确定数据,所述OutDB中与所述内部数据不重合的部分标记为不确定数据,包括:
将所述OutDB标记为脏数据;
将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分的脏标记去除;
将去除脏标记的数据作为确定数据,保留脏标记的数据作为不确定数据。
5.根据权利要求4所述的方法,其特征在于,所述将所述OutDB中标记为不确定数据的部分进行清除,包括:
将所述OutDB中标记为脏数据的部分进行清除。
6.根据权利要求3至5任一项所述的方法,其特征在于,在所述当遍历完所有第二MOM的InputDB后,将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致之后,所述方法还包括:
当存在其他客户端的数据依赖所述客户端的数据时,所述客户端发送数据一致性校验完成通告给所述其他客户端,以使所述其他客户端接收到所述数据一致性校验完成通告后开始进行数据一致性校验。
7.根据权利要求3至5任一项所述的方法,其特征在于,当所述客户端的数据依赖其他客户端的数据时,在所述客户端获取所述第一MOM的下游数据OutDB之前,所述方法,还包括:
接收所述其他客户端发送的数据一致性校验完成通告。
8.一种面向消息的中间件MOM故障恢复装置,其特征在于,所述装置应用于单机设备中的MOM节点,包括:读取单元、确定单元、启动单元;其中,
所述读取单元,用于所述MOM节点重启时,读取数据库的备份文件;
所述确定单元,用于确定所述备份文件的文件块个数;
所述启动单元,用于启动与所述文件块个数相等数量的后台子线程以使每个子线程读取一个文件块,直至所述备份文件读取完毕以完成MOM重启。
9.根据权利要求8所述的装置,其特征在于,所述装置,还包括:备份单元,用于在MOM正常运行期间,采用快照备份方式对数据库进行备份,并将备份文件划分为预设大小的文件块进行存储。
10.一种面向消息的中间件MOM故障恢复装置,其特征在于,所述装置应用于与发生重启MOM连接的客户端;所述装置,包括:第一获取模块、比对模块、第二获取模块、判断模块、处理模块以及清除模块;其中,
所述第一获取模块,用于获取第一MOM的下游数据OutDB;所述OutDB为所述第一MOM存储的所述客户端发来的数据;
所述比对模块,用于将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分标记为确定数据,所述OutDB中与所述内部数据不重合的部分标记为不确定数据;
所述第二获取模块,用于获取第二MOM的上游数据InputDB;所述InputDB为所述第二MOM提供给所述客户端的数据;
所述判断模块,用于判断自身是否存储有所述InputDB;
所述处理模块,用于若未存储所述InputDB,则存储所述InputDB并进行处理,得到增量OutDB并输出给所述第一MOM;
所述清除模块,用于当所述第二获取模块遍历完所有第二MOM的InputDB后,将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致。
11.根据权利要求10所述的装置,其特征在于,所述比对模块,具体用于将所述OutDB标记为脏数据;将所述客户端的内部数据与所述OutDB进行比对,将所述OutDB中与所述内部数据重合的部分的脏标记去除;将去除脏标记的数据作为确定数据,保留脏标记的数据作为不确定数据。
12.根据权利要求11所述的装置,其特征在于,所述清除模块,具体用于将所述OutDB中标记为脏数据的部分进行清除。
13.根据权利要求10至12任一所述的装置,其特征在于,所述装置,还包括:通告模块,用于在所述清除模块将所述OutDB中标记为不确定数据的部分进行清除以使客户端内外数据一致后,当存在其他客户端的数据依赖所述客户端的数据时,发送数据一致性校验完成通告给所述其他客户端以使所述其他客户端接收到所述数据一致性校验完成通告后开始进行数据一致性校验。
14.根据权利要求10至12任一所述的装置,其特征在于,所述装置,还包括:接收模块,用于当所述客户端的数据依赖其他客户端的数据时,接收所述其他客户端发送的数据一致性校验完成通告。
CN201910734177.7A 2019-08-09 2019-08-09 一种面向消息的中间件故障恢复方法及装置 Active CN110633164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910734177.7A CN110633164B (zh) 2019-08-09 2019-08-09 一种面向消息的中间件故障恢复方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910734177.7A CN110633164B (zh) 2019-08-09 2019-08-09 一种面向消息的中间件故障恢复方法及装置

Publications (2)

Publication Number Publication Date
CN110633164A true CN110633164A (zh) 2019-12-31
CN110633164B CN110633164B (zh) 2023-05-16

Family

ID=68969600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910734177.7A Active CN110633164B (zh) 2019-08-09 2019-08-09 一种面向消息的中间件故障恢复方法及装置

Country Status (1)

Country Link
CN (1) CN110633164B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030105800A1 (en) * 2001-11-30 2003-06-05 Sonic Software Corporation Dynamically routing messages between software application programs using named routing nodes and named message queues
US20050246312A1 (en) * 2004-05-03 2005-11-03 Airnet Communications Corporation Managed object member architecture for software defined radio
CN102299904A (zh) * 2010-06-23 2011-12-28 阿里巴巴集团控股有限公司 一种实现业务数据备份的系统及方法
CN102790788A (zh) * 2011-05-23 2012-11-21 同济大学 一种网格资源管理系统
CN103761162A (zh) * 2014-01-11 2014-04-30 深圳清华大学研究院 分布式文件系统的数据备份方法
CN104375906A (zh) * 2014-11-19 2015-02-25 天津南大通用数据技术股份有限公司 一种基于文件系统的大规模备份数据快速校验方法
CN104484242A (zh) * 2014-12-10 2015-04-01 上海爱数软件有限公司 一种写时拷贝快照备份过程中可断点传输的方法
CN106598762A (zh) * 2016-12-29 2017-04-26 上海理想信息产业(集团)有限公司 一种消息同步方法及系统
CN109391694A (zh) * 2018-10-26 2019-02-26 深圳壹账通智能科技有限公司 基于sftp的文件传输方法及相关设备
CN109408203A (zh) * 2018-11-01 2019-03-01 无锡华云数据技术服务有限公司 一种队列消息一致性的实现方法、装置、计算系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030105800A1 (en) * 2001-11-30 2003-06-05 Sonic Software Corporation Dynamically routing messages between software application programs using named routing nodes and named message queues
US20050246312A1 (en) * 2004-05-03 2005-11-03 Airnet Communications Corporation Managed object member architecture for software defined radio
CN102299904A (zh) * 2010-06-23 2011-12-28 阿里巴巴集团控股有限公司 一种实现业务数据备份的系统及方法
CN102790788A (zh) * 2011-05-23 2012-11-21 同济大学 一种网格资源管理系统
CN103761162A (zh) * 2014-01-11 2014-04-30 深圳清华大学研究院 分布式文件系统的数据备份方法
CN104375906A (zh) * 2014-11-19 2015-02-25 天津南大通用数据技术股份有限公司 一种基于文件系统的大规模备份数据快速校验方法
CN104484242A (zh) * 2014-12-10 2015-04-01 上海爱数软件有限公司 一种写时拷贝快照备份过程中可断点传输的方法
CN106598762A (zh) * 2016-12-29 2017-04-26 上海理想信息产业(集团)有限公司 一种消息同步方法及系统
CN109391694A (zh) * 2018-10-26 2019-02-26 深圳壹账通智能科技有限公司 基于sftp的文件传输方法及相关设备
CN109408203A (zh) * 2018-11-01 2019-03-01 无锡华云数据技术服务有限公司 一种队列消息一致性的实现方法、装置、计算系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
于晓鹏等: "基于消息队列的分布式系统数据一致性方法研究", 《吉林大学学报(信息科学版)》 *
冯江等: "基于P-S系统的MOM模型研究", 《计算机工程》 *
张玮: "基于数据库多线程文件保存及恢复的研究", 《电脑编程技巧与维护》 *

Also Published As

Publication number Publication date
CN110633164B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN108566290B (zh) 服务配置管理方法、系统、存储介质和服务器
CN107590072B (zh) 一种应用开发和测试的方法和装置
CN110830283B (zh) 故障检测方法、装置、设备和系统
CN104486107A (zh) 一种日志采集装置及方法
CN110895488B (zh) 任务调度方法及装置
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN110602250A (zh) 数据同步方法、装置、服务器和终端设备
CN112486707A (zh) 基于Redis的消息异步消费方法及装置
CN113703954A (zh) 一种消息备份方法、装置、电子设备及计算机存储介质
CN111400041A (zh) 服务器配置文件的管理方法、装置及计算机可读存储介质
CN113946362B (zh) 消费数据处理方法及存储介质
CN105281940B (zh) 一种基于netconf协议的hello报文交互的方法、设备和系统
CN113364852A (zh) 文件的传输方法、装置和服务器
CN112817883A (zh) 接口平台的适配方法、设备、系统及计算机可读存储介质
CN117130730A (zh) 面向联邦Kubernetes集群的元数据管理方法
CN110633164B (zh) 一种面向消息的中间件故障恢复方法及装置
CN111092956A (zh) 资源同步方法、装置、存储介质及设备
CN111241200A (zh) 基于SQLite数据库的主备同步处理方法及装置
CN112835643B (zh) 基于设备影子服务对云对讲设备的管理方法和装置及设备
CN110545296A (zh) 一种日志数据获取方法、装置及其设备
CN113032477A (zh) 基于gtid的长距离数据同步方法、装置及计算设备
CN113010337B (zh) 故障检测方法、总控节点、工作节点及分布式系统
US11599387B2 (en) Re-initiation of microservices utilizing context information provided via service calls
CN112433860B (zh) 一种事件管理的方法、系统、设备及介质
CN117666970B (zh) 数据存储方法以及数据存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant