CN111611057A - 分布式重试方法、装置、电子设备和存储介质 - Google Patents

分布式重试方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111611057A
CN111611057A CN202010328917.XA CN202010328917A CN111611057A CN 111611057 A CN111611057 A CN 111611057A CN 202010328917 A CN202010328917 A CN 202010328917A CN 111611057 A CN111611057 A CN 111611057A
Authority
CN
China
Prior art keywords
retry
data
client
point
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010328917.XA
Other languages
English (en)
Other versions
CN111611057B (zh
Inventor
马文斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ruiting Network Technology Shanghai Co ltd
Original Assignee
Ruiting Network Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ruiting Network Technology Shanghai Co ltd filed Critical Ruiting Network Technology Shanghai Co ltd
Priority to CN202010328917.XA priority Critical patent/CN111611057B/zh
Publication of CN111611057A publication Critical patent/CN111611057A/zh
Application granted granted Critical
Publication of CN111611057B publication Critical patent/CN111611057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/466Transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Retry When Errors Occur (AREA)

Abstract

本发明提供了一种分布式重试方法、装置、电子设备和存储介质,应用于重试客户端时方法包括:在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并将重试数据和所述重试点对应的重试点标识发送给重试服务器,所述重试服务器用于对所述重试数据在所述重试客户端对应的集群中进行重试调度,所述重试点是执行业务逻辑的重试操作的入口;接收重试服务器发送来的重试调用指令,所述重试调用指令包括重试数据和重试点标识;根据所述重试调用指令,启动重试线程,通过所述重试线程调用接收到的重试数据执行重试点标识对应业务逻辑的重试操作。本发明不占用业务逻辑的主流程,不会影响集群的服务性能,而且降低了代码侵入性。

Description

分布式重试方法、装置、电子设备和存储介质
技术领域
本发明涉及异常处理技术领域,特别是涉及一种分布式重试方法、装置、电子设备和存储介质。
背景技术
现有技术中,对于分布式环境下导致的服务异常、超时等异常,一般会在业务逻辑的代码中加“3次重试”的操作,以减少偶然超时导致的系统影响。
现有技术的重试方式,代码侵入性较强,而且当所依赖的服务长时间出现不可恢复的问题时,“3次重试”会增加线程运行时间,导致长时间阻塞,进而导致自身服务性能的整体下降。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种分布式重试方法、装置、电子设备和存储介质。
依据本发明的第一方面,提供了一种分布式重试方法,包括:
在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并将所述重试数据和所述重试点对应的重试点标识发送给重试服务器,所述重试服务器用于对所述重试数据在所述重试客户端对应的集群中进行重试调度,所述重试点是执行业务逻辑的重试操作的入口;
接收重试服务器发送来的重试调用指令,所述重试调用指令包括重试数据和重试点标识;
根据所述重试调用指令,启动重试线程,通过所述重试线程调用接收到的重试数据执行重试点标识对应业务逻辑的重试操作。
依据本发明的第二方面,提供了一种分布式重试方法,包括:
接收重试客户端发送的重试数据和对应的重试点标识,并将所述重试数据放入所述重试点标识对应的第一重试队列,所述重试点标识是预先注册的重试点的标识,所述重试点是执行业务逻辑的重试操作的入口;
在到达所述第一重试队列中的重试数据对应的重试时间时,根据所述重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,并将到达重试时间的重试数据作为目标重试数据;
根据所述目标重试数据和所述重试点标识,生成重试调用指令,并将所述重试调用指令发送至所述目标重试客户端,所述重试调用指令用于指示所述目标重试客户端通过重试线程调用所述目标重试数据执行所述重试点标识对应业务逻辑的重试操作。
依据本发明的第三方面,提供了一种分布式重试装置,包括:
重试数据上报模块,用于在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并将所述重试数据和所述重试点对应的重试点标识发送给重试服务器,所述重试服务器用于对所述重试数据在所述重试客户端对应的集群中进行重试调度,所述重试点是执行业务逻辑的重试操作的入口;
调用指令接收模块,用于接收重试服务器发送来的重试调用指令,所述重试调用指令包括重试数据和重试点标识;
重试操作执行模块,用于根据所述重试调用指令,启动重试线程,通过所述重试线程调用接收到的重试数据执行重试点标识对应业务逻辑的重试操作。
依据本发明的第四方面,提供了一种分布式重试装置,包括:
重试数据接收模块,用于接收重试客户端发送的重试数据和对应的重试点标识,并将所述重试数据放入所述重试点标识对应的第一重试队列,所述重试点标识是预先注册的重试点的标识,所述重试点是执行业务逻辑的重试操作的入口;
目标节点确定模块,用于在到达所述第一重试队列中的重试数据对应的重试时间时,根据所述重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,并将到达重试时间的重试数据作为目标重试数据;
调用指令发送模块,用于根据所述目标重试数据和所述重试点标识,生成重试调用指令,并将所述重试调用指令发送至所述目标重试客户端,所述重试调用指令用于指示所述目标重试客户端通过重试线程调用所述目标重试数据执行所述重试点标识对应业务逻辑的重试操作。
依据本发明的第五方面,还提供了一种电子设备,处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面或第二方面所述的分布式重试方法。
依据本发明的第六方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第二方面所述的分布式重试方法。
本发明提供的分布式重试方法、装置、电子设备和存储介质,通过重试客户端监控预先注册的重试点对应业务逻辑的执行过程,在业务逻辑出现异常时将重试数据和重试点标识发送给重试服务器,重试服务器将重试数据放入与重试点标识对应的第一重试队列中,并对第一重试队列中的重试数据进行调度,在到达第一重试队列中的重试数据对应的重试时间时,确定待执行重试操作的目标重试客户端,并将包括目标重试数据和重试点标识的重试调用指令发送给重试客户端,重试客户端通过重试线程调用目标重试数据执行重试点标识对应业务逻辑的重试操作,由于在进行重试操作时由重试服务器对集群中的重试客户端进行统一调度,而且通过启动重试线程来执行重试操作,不占用业务逻辑的主流程,不会影响集群的服务性能,而且不会侵入业务逻辑的代码,降低了代码侵入性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1是本发明实施例提供的一种分布式重试系统的结构框图;
图2是本发明实施例提供的一种分布式重试方法的步骤流程图;
图3是本发明实施例中的重试客户端的内部交互图;
图4是本发明实施例提供的一种分布式重试方法的步骤流程图;
图5是本发明实施例提供的一种分布式重试方法的步骤流程图;
图6是本发明实施例提供的一种分布式重试方法的步骤流程图;
图7是本发明实施例中的重试服务器的内部交互图;
图8是本发明实施例提供的一种分布式重试装置的结构框图;
图9是本发明实施例提供的一种分布式重试装置的结构框图;
图10为本发明实施例提供的一种电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种分布式重试系统的结构框图,如图1所示,该分布式重试系统包括:
重试服务器11,用于记录业务集群的集群信息、重试点信息、重试客户端的客户端标识以及重试数据等相关信息,对于自动重试的数据会根据重试点对应的重试策略进行重试调度;对于手动重试的数据,可通过可视化界面根据用户的重试指令触发重试调度;其中,所述重试点信息包括重试点标识和重试策略,所述重试策略包括重试时间计算方式、重试数据有效期和重试次数阈值;
至少一个业务集群12,每个业务集群包括至少一个节点,用于执行业务逻辑;
重试客户端13,部署于业务集群的各个节点中,用于向重试服务器11注册所示业务集群12的集群信息、重试点信息和当前重试客户端13的客户端标识,监控所述业务集群中预先注册的重试点对应的业务逻辑的执行过程,若监控到异常,则将重试数据和重试点标识发送给重试服务器,并根据重试服务器的重试调用指令通过重试线程调用重试数据执行所述重试点标识对应业务逻辑的重试操作,并将执行结果发送给重试服务器。
其中,图1是以包括两个业务集群为例,如图1所示,可以包括业务集群A和业务集群B。图1中是以一个业务集群包括三个重试客户端为例。具体接入的业务集群的数量不限,一个业务集群中的重试客户端的数量不限。
其中,重试服务器和重试客户端的具体执行过程在下述实施例中详述,此处不再赘述。
本实施例提供的分布式重试系统,通过重试客户端监控业务逻辑的执行过程,并在监控到异常时,将对应的重试数据发送给重试服务器,重试服务器对重试数据进行调度,确定调用重试数据执行重试操作的重试客户端,并生成重试调用指令,将重试调用指令发送给该重试客户端,该重试客户端基于重试调用指令通过重试线程调用所述重试数据执行对应业务逻辑的重试操作,实现了通过重试线程来执行重试操作,不占用业务逻辑的主流程,不会影响集群的服务性能,而且不会侵入业务逻辑的代码,降低了代码侵入性。本发明实施例通过重试服务器和重试客户端实现了重试策略调度与重试操作执行的分离,实现了基于重试点的可复用的分布式重试调度。
图2是本发明实施例提供的一种分布式重试方法的步骤流程图,可以由上述分布式重试系统中的重试客户端执行,如图2所示,该方法可以包括:
步骤201,在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并将所述重试数据和所述重试点对应的重试点标识发送给重试服务器,所述重试服务器用于对所述重试数据在所述重试客户端对应的集群中进行重试调度,所述重试点是执行业务逻辑的重试操作的入口。
其中,所述重试点标识例如可以是所述业务逻辑对应的类名。
用户可以通过重试客户端在容易出现异常的业务逻辑中定义重试点,如可以将该业务逻辑的类名定义为重试点标识,集群中的每个重试客户端可以将集群信息、重试点信息和客户端标识向重试服务器注册,从而重试服务器可以保存集群信息、重试点信息和集群中的多个重试客户端的客户端标识。所述重试点信息包括重试点标识和重试策略,所述重试策略包括重试时间的计算方式、重试数据的有效期和重试次数阈值。
在业务集群中某个业务节点执行的业务逻辑的过程中,部署于该业务节点的重试客户端会监控该业务逻辑的执行过程,若预先注册的重试点对应的业务逻辑在执行过程中出现异常,则获取该业务逻辑执行中需要的业务参数,将该业务参数作为重试数据,并将重试数据和该重试数据对应的重试点标识发送给重试服务器。
重试服务器在接收到所述重试数据和重试点标识后,将重试数据放入所述重试点标识对应的第一重试队列中,并基于重试点对应的重试策略对第一重试队列中的重试数据进行调度,在到达一个重试数据的重试时间时,确定集群中待执行重试操作的重试客户端,并根据该重试数据和重试点标识生成重试调用指令,将重试调用指令发送给确定的重试客户端。
步骤202,接收重试服务器发送来的重试调用指令,所述重试调用指令包括重试数据和重试点标识。
重试客户端接收重试服务器发送来的重试调用指令,解析该重试调用指令,得到待执行重试操作所需的重试数据和重试点标识。
步骤203,根据所述重试调用指令,启动重试线程,通过所述重试线程调用接收到的重试数据执行重试点标识对应业务逻辑的重试操作。
在接收到重试服务器发送来的重试调用指令后,启动一个重试线程,通过该重试线程调用重试调用指令中的重试数据,执行重试调用指令中重试点标识对应业务逻辑的重试操作,并监控重试操作的执行过程。
需要说明的是,重试客户端可以同时启动多个重试线程,来分别执行不同重试数据的重试操作。
本实施例提供的分布式重试方法,通过在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取异常数据,并将异常数据和重试点对应的重试点标识发送给重试服务器,重试服务器可以对重试数据在重试客户端对应的集群中进行重试调用,在接收到重试服务器发送来的重试调用指令时,启动重试线程,并通过重试线程调用接收到的重试数据执行重试点标识对应业务逻辑的重试操作,由于在进行重试操作时由重试服务器对集群中的重试客户端进行统一调度,而且通过启动重试线程来执行重试操作,不占用业务逻辑的主流程,不会影响集群的服务性能,而且不会侵入业务逻辑的代码,降低了代码侵入性。
在上述技术方案的基础上,在所述通过所述重试线程调用接收到的重试数据执行重试点标识对应业务逻辑的重试操作之后,还包括:获取所述重试操作的执行结果,将所述执行结果存放到结果队列中;通过回调线程从所述结果队列中读取所述执行结果,并将所述执行结果发送给所述重试服务器。
重试客户端监控重试操作的执行过程,获取重试操作的执行结果。重试客户端可以通过结果队列来缓存重试数据对应重试操作的执行结果,在获取到重试操作的执行结果后,将执行结果放入结果队列中缓存,通过回调线程从结果队列中读取执行结果,将读取到的执行结果发送给重试服务器,重试服务器可以基于执行结果对重试数据进行相应的操作,如在执行结果为执行成功时将第一重试队列中的该重试数据出队,或者在执行结果为执行失败时确定下次重试时间并变更重试次数。从而通过独立于重试线程的另一个线程即回调线程来负责执行结果的回调,不影响重试线程的操作,可以提高各个操作的执行效率。
在上述技术方案的基础上,在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据之前,还包括:获取所述重试客户端所在集群的集群信息,并获取所述集群中的重试点信息,所述重试点信息包括重试点标识和重试策略,所述重试策略包括重试时间计算方式、重试数据有效期和重试次数阈值;根据所述集群信息、重试点信息和所述重试客户端的客户端标识,生成注册信息,并将所述注册信息发送至重试服务器。
在重试客户端初始化时,获取重试客户端所在集群的集群信息,并获取用户针对重试点标识配置的重试策略,得到集群中的重试点信息,获取当前的重试客户端的客户端标识,将集群信息、重试点信息和客户端标识生成注册信息,并将注册信息发送至重试服务器,实现重试客户端的注册,在注册成功后,可以启动socket或http服务。集群信息可以包括集群标识和集群内各个节点的标识,客户端标识包括IP地址和端口。通过重试客户端的初始化实现了用户对重试策略的配置。
在上述技术方案的基础上,所述在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并将所述重试数据和所述重试点对应的重试点标识发送给重试服务器,包括:在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并确定所述业务逻辑对应的重试类型,所述重试类型包括自动重试或手动重试;将所述重试数据、重试类型和所述重试点标识发送给重试服务器。
用户可以预先配置每个重试点对应业务逻辑的重试类型,比如某个业务逻辑出现异常时需要人工干预处理,则将该业务逻辑的重试类型设置为手动重试,如果某个业务逻辑出现异常时不需要人工干预处理,则将该业务逻辑的重试类型设置为自动重试。重试客户端在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,同时获取该业务逻辑对应的重试类型,将重试数据、重试类型和重试点标识发送给重试服务器,以便于重试服务器针对不同的重试类型存储重试数据,并可以进行不同的重试调度。
图3是本发明实施例中的重试客户端的内部交互图,如图3所示,重试客户端内部设置一RPC(Remote Procedure Call,远程过程调用)模块,用于接收重试服务器发送的重试调用指令,并将重试调用指令放入指令队列,重试线程从指令队列读取重试调用指令,并调用其中的重试数据执行对应业务逻辑的重试操作,重试线程将重试操作的执行结果放入结果队列,回调线程读取结果队列中的执行结果,并将读取到的执行结果发送给重试服务器。重试客户端通过重试数据监听器监控业务逻辑的执行过程,并在业务逻辑出现异常时,将重试数据发送给重试服务器。
图4是本发明实施例提供的一种分布式重试方法的步骤流程图,可以由上述分布式重试系统中的重试服务器执行,如图4所示,该方法可以包括:
步骤401,接收重试客户端发送的重试数据和对应的重试点标识,并将所述重试数据放入所述重试点标识对应的第一重试队列,所述重试点标识是预先注册的重试点的标识,所述重试点是执行业务逻辑的重试操作的入口。
其中,所述重试点标识例如可以是所述业务逻辑对应的类名。
重试客户端对业务逻辑的执行过程进行监控,在监控到业务逻辑在执行过程中出现异常时,获取该业务逻辑执行中需要的业务参数,将该业务参数作为重试数据,并将重试数据和对应的重试点标识发送给重试服务器。重试服务器可以接收到重试客户端发送的重试数据和对应的重试点标识,经重试数据放入重试点标识对应的第一重试队列。其中,一个重试点标识对应一个第一重试队列,从而可以根据每个重试点标识对应的第一重试队列,分别对每个重试点标识对应的重试操作进行调度。
在本发明的一个实施例中,所述接收重试客户端发送的重试数据和对应的重试点标识,并将所述重试数据放入所述重试点标识对应的第一重试队列,包括:接收重试客户端发送的重试数据、重试点标识和重试类型;若所述重试类型为自动重试,则将所述重试数据放入所述重试点标识对应的第一重试队列;
所述方法还包括:若所述重试类型为手动重试,则将所述重试数据放入所述重试点标识对应的第二重试队列。
重试客户端在发送重试数据时,还可以将业务逻辑对应的重试类型发送给重试服务器,从而重试服务器可以根据重试类型将重试数据放入对应的重试队列,若重试类型为自动重试,则将重试数据放入第一重试队列,若重试类型为手动重试,则将数据放入第二重试队列。对于第一重试队列中的重试数据可以自动遍历并根据重试策略进行调度,对于第二重试队列中的重试数据可以根据用户的指令执行重试操作。实现了用户对重试类型的设置,并依据重试类型执行对应重试操作的调度。
步骤402,在到达所述第一重试队列中的重试数据对应的重试时间时,根据所述重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,并将到达重试时间的重试数据作为目标重试数据。
其中,所述重试时间可以是基于重试客户端预先注册的重试策略来进行计算的。
遍历第一重试队列中的重试数据,如果当前时间到达第一重试队列中的重试数据对应的重试时间,则根据预先注册的重试点标识与多个重试客户端的对应关系,确定当前的重试点标识对应的多个重试客户端,从多个重试客户端中选择一个可用的重试客户端作为待执行重试操作的目标重试客户端。其中,所述重试客户端可以通过客户端标识进行识别,客户端标识可以是IP地址和端口。
在本发明的一个实施例中,所述根据所述重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,包括:对所述重试点标识对应的多个重试客户端进行轮询;若轮询到的重试客户端可用,则将该重试客户端作为待执行重试操作的目标重试客户端;若轮询到的重试客户端不可用,则将下一个可用的重试客户端作为待执行重试操作的目标重试客户端。
在确定待执行重试操作的目标重试客户端时,可以通过轮询算法和节点失效转移来确定,即对重试点标识对应的多个重试客户端进行轮询,当轮询到一个重试客户端时,确定该重试客户端的状态,若该重试客户端可用,则将该重试客户端作为待执行重试操作的目标重试客户端,若轮询到的重试客户端不可用,则确定下一个重试客户端是否可用,在下一个重试客户端可用时,将下一个重试客户端作为待执行重试操作的目标重试客户端,若下一个重试客户端也不可用,则再继续向下判断,直至找到可用的重试客户端,并将该可用的重试客户端作为待执行重试操作的目标重试客户端。通过轮询方式和节点失效转移来确定目标重试客户端,可以使分布式系统中的每个重试客户端均衡的执行重试操作。其中,重试服务器可以通过心跳检测重试客户端的状态,即重试客户端每隔一定时间间隔向重试服务器发送一次心跳消息,若重试服务器接收到重试客户端的心跳消息,则确定重试客户端可用,若重试服务器连续预设次数没有接收到重试客户端的心跳消息,则确定重试客户端不可用。
步骤403,根据所述目标重试数据和所述重试点标识,生成重试调用指令,并将所述重试调用指令发送至所述目标重试客户端,所述重试调用指令用于指示所述目标重试客户端通过重试线程调用所述目标重试数据执行所述重试点标识对应业务逻辑的重试操作。
生成包括目标重试数据和重试点标识的重试调用指令,将重试调用指令发送至目标重试客户端,即通过目标重试客户端的IP地址和端口将重试调用指令发送至目标重试客户端,目标重试客户端在接收到该重试调用指令后,可以通过重试线程调用目标重试数据执行重试点标识对应业务逻辑的重试操作。
本实施例提供的分布式重试方法,通过接收重试客户端发送来的重试数据和对应的重试点标识,并将重试数据放入重试点标识对应的第一重试队列,在到达第一重试队列中的重试数据对应的重试时间时,根据重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,并将到达重试时间的重试数据作为目标重试数据,根据目标重试数据和重试点标识生成重试调用指令,并将重试调用指令发送至目标重试客户端,从而通过重试调用指令可以指示目标重试客户端通过重试线程调用重试数据执行重试点标识对应业务逻辑的重试操作,由于由重试服务器对分布式系统中的重试客户端进行统一调度,而且重试客户端通过启动重试线程来执行重试操作,不占用业务逻辑的主流程,不会影响集群的服务性能,而且不会侵入业务逻辑的代码,降低了代码侵入性。
在上述技术方案的基础上,在接收重试客户端发送的重试数据之前,还包括:接收重试客户端发送来的注册信息,所述注册信息包括集群信息、重试点信息和客户端标识,所述重试点信息包括重试点标识和重试策略,所述重试策略包括重试时间计算方式、重试数据有效期和重试次数阈值;保存所述注册信息。
在重试客户端初始化时,会进行注册,将注册信息发送给重试服务器,重试服务器可以保存重试客户端的注册信息。在一个集群内的第一个重试客户端进行注册时,重试服务器保存该重试客户端的注册信息,即保存集群信息、重试点信息和客户端标识,该集群内的下一个客户端进行注册时,重试服务器接收到注册信息,确定集群信息和重试点信息是否已保存,若已保存则将该客户端标识保存到集群信息对应的保存位置。其中,客户端标识可以是IP地址和端口。实现了用户可通过重试客户端配置重试策略,并通过重试服务器保存注册信息,从而可以基于重试策略进行重试的调度。
在上述技术方案的基础上,所述方法还可选包括:
在接收到数据查看指令时,通过可视化界面显示所述第二重试队列中的重试数据。
重试服务器提供重试接口,该重试接口可以供用户进行操作。用户通过重试接口接入重试服务器的可视化界面,基于该可视化界面可以输入数据查看指令,从而服务器在接收到数据查看指令时,获取第二重试队列中的重试数据,并通过可视化界面进行显示。从而在出现数据不一致的问题时,用户通过可视化界面可以直观的了解到哪些数据不一致,并可以快速地完成数据的修复,解决了现有技术中需要打印系统日志并基于系统日志进行繁琐的操作、分析及开发来完成数据修复的问题,大大降低了人力成本。
在上述技术方案的基础上,在通过可视化界面显示所述第二重试队列中的重试数据之后,还可选包括:通过所述可视化界面接收到用户对指定重试数据的重试指令时,基于所述重试指令触发对所述指定重试数据的重试操作的调度。
用户还可以通过可视化界面输入对指定重试数据的重试指令,重试服务器接收到用户对指定重试数据的重试指令时,触发对指定重试数据的重试操作的调度,即确定指定重试数据对应的重试点标识,并确定该重试点标识对应的多个重试客户端,通过轮询算法和节点失效转移确定待执行重试操作的目标重试客户端,将指定重试数据和重试点标识生成重试调用指令,并将重试调用指令发送至目标重试客户端,从而目标重试客户端可以通过重试线程调用指定重试数据对重试点标识对应的业务逻辑执行重试操作。通过可视化界面可以方便地手动触发重试操作的执行。
图5是本发明实施例提供的一种分布式重试方法的步骤流程图,可以由上述分布式重试系统中的重试服务器执行,如图5所示,该方法可以包括:
步骤501,接收重试客户端发送的重试数据和对应的重试点标识,并将所述重试数据放入所述重试点标识对应的第一重试队列。
其中,所述重试点标识是预先注册的重试点的标识,所述重试点是执行业务逻辑的重试操作的入口。
步骤502,在到达所述第一重试队列中的重试数据对应的重试时间时,根据所述重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,并将到达重试时间的重试数据作为目标重试数据。
步骤503,根据所述目标重试数据和所述重试点标识,生成重试调用指令,并将所述重试调用指令发送至所述目标重试客户端。
其中,所述重试调用指令用于指示所述目标重试客户端通过重试线程调用所述目标重试数据执行所述重试点标识对应业务逻辑的重试操作。
步骤504,接收所述目标重试客户端发送来的执行结果。
目标重试客户端可以监控重试操作的执行过程,并获取执行结果,将执行结果发送给重试服务器,从而重试服务器接收到目标重试客户端发送来的执行结果,可以根据该执行结果对目标重试数据进行相应的处理,如在执行成功时将该目标重试数据从第一重试队列中删除,在执行失败时计算下次重试时间,并变更重试次数。
步骤505,若所述执行结果为执行成功,则将所述目标重试数据从所述第一重试队列中出队。
若目标重试数据对应的重试操作的执行结果为执行成功,则确定业务逻辑异常已解决,从而可以将目标重试数据从第一重试队列中删除,及时释放存储空间,而且可以避免再次被调用。
步骤506,若所述执行结果为执行失败,则判断所述目标重试数据对应的重试次数是否小于重试次数阈值,若是,则执行步骤507,若否,则执行步骤509。
在接收到目标重试客户端发送的执行结果时,变更重试次数,即将重试次数在原有次数的基础上加1,并判断该重试次数是否小于重试次数阈值。重试次数阈值是重试客户端预先注册的重试点标识对应的重试策略中的一项。所述重试策略还包括重试时间计算方式和重试数据的有效期。
步骤507,判断所述目标重试数据是否过期,若否,则执行步骤508,若是,则执行步骤509。
基于重试客户端预先注册的重试点标识对应的重试策略中的重试数据有效期,判断目标重试数据从入队到当前时间的时长,将该时长与有效期进行比较,判断目标重试数据是否过期,即若该时长大于有效期,则确定该目标重试数据已过期,若该时长小于有效期,则确定该目标重试数据未过期。
步骤508,根据所述重试点对应的重试时间计算方式,确定下次重试时间。
重试时间计算方式中可以定义重试间隔时间的计算方式,从而在得到重试间隔时间时,可以根据当前时间与重试间隔时间的和,确定下次重试时间。可以将重试时间间隔表示为一个函数f(n),即重试间隔时间interval=f(n),值域∈N+∩(0,expire],定义域n∈N+∩[1,maxNum],其中,interval表示下次重试时间距离当前时间差,expire代表数据有效期,maxNum代表重试次数阈值,c代表每次重试的间隔时间,c>=1∩c∈N+。注册的重试策略中的f(n)的确定方式可以是常量法、函数法或自定义时间点法来确定。其中,常量法是指每次的重试间隔时间相同,即f(n)=c。函数法例如可以是f(n)=cn,即每次的间隔时间均匀增加,或者还可以是f(n)=c*2^n,即每次的间隔时间增加为c的2^n倍。自定义时间点法即可以自定义每次的重试间隔时间点,如f(n)={1,3,5,10,15},自定义时间点法的重试次数为数组长度加1次,即n∈[1,length+1],其中,length为数组长度。
步骤509,将所述目标重试数据从所述第一重试队列移入第二重试队列。
在目标重试数据过期或者重试次数达到重试次数阈值时,将目标重试数据从第一重试队列移入第二重试队列,即通过多次重试仍不能解决该业务逻辑的故障,从而将目标重试数据移入第二重试队列,可以通过人工的方式进行解决。
本实施例提供的分布式重试方法,在上述实施例的基础上,通过接收目标重试客户端发送来的执行结果,并根据执行结果对目标重试数据进行相应的操作,在执行结果为执行成功时,从第一重试队列中及时清理掉,避免被再次调用,在执行结果为执行失败时,确定下次重试时间,从而可以依据下次重试时间进行目标重试数据的调用。
图6是本发明实施例提供的一种分布式重试方法的步骤流程图,可以由上述分布式重试系统中的重试服务器执行,如图6所示,该方法可以包括:
步骤601,接收重试客户端发送的重试数据和对应的重试点标识,并将所述重试数据放入所述重试点标识对应的第一重试队列。
其中,所述重试点标识是预先注册的重试点的标识,所述重试点是执行业务逻辑的重试操作的入口。
步骤602,每隔预设时间间隔读取所述第一重试队列中的重试数据。
每隔预设时间间隔对第一重试队列中的重试数据进行遍历,读取遍历到的重试数据。若读取到的重试数据对应的重试次数为0,即该重试数据是首次进行重试,则立即触发对该重试数据的重试调用,即执行步骤607。
步骤603,判断读取到的重试数据对应的重试状态是否为待执行状态,若否,则执行步骤604,若是,则执行步骤606。
在遍历到的重试数据不为空的情况下,判断读取到的重试数据对应的重试状态是否为待执行状态。
步骤604,判断重试数据的重试执行时长是否超过预设执行时长,若是,则执行步骤605,若否,则执行步骤602。
在读取到的重试数据对应的重试状态不是待执行状态,即为执行中状态时,进一步判断重试数据的重试执行时长是否超过预设执行时长。
步骤605,将该重试数据从所述第一重试队列移入第二重试队列。
在重试数据的重试执行时长超过预设执行时长时,确定重试执行过程中遇到了问题,将该重试数据从第一重试队列移入第二重试队列,后续可通过人工解决。
步骤606,判断当前时间是否到达该重试数据的重试时间,若是,则执行步骤607,若否,则执行步骤602。
由于每隔预设时间间隔遍历一次第一重试队列,在遍历到一个重试数据时不一定正到达该重试数据的重试时间,所以,在具体执行时,可以判断下次重试时间是否小于或等于当前时间,如果下次重试时间小于或等于当前时间,则确定到达该重试数据的重试时间,如果下次重试时间不是小于或等于当前时间,则确定还没到达该重试数据的重试时间。
其中,步骤602至步骤606可通过Quartz模块执行,对一个重试点分配一个Quartz的定时任务,Quartz模块使用mysql可实现调度的高可用,如可多节点部署Quartz模块。
步骤607,根据所述重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,并将到达重试时间的重试数据作为目标重试数据。
步骤608,根据目标重试数据和所述重试点标识,生成重试调用指令,并将所述重试调用指令发送至确定的目标重试客户端。
其中,所述重试调用指令用于指示目标重试客户端通过重试线程调用所述目标重试数据执行所述重试点标识对应业务逻辑的重试操作。
本实施例提供的分布式重试方法,通过每隔预设时间间隔读取第一重试队列中的重试数据,并在读取到的重试数据对应的重试状态为待执行状态时,判断当前时间是否到达重试数据的重试时间,并在到达重试时间时及时启动对重试操作的调度,在重试数据的重试操作执行超时时,将该重试数据及时从第一重试队列移入第二重试队列,避免一直执行重试操作而不能解决问题,浪费资源。
图7是本发明实施例中的重试服务器的内部交互图,如图7所示,重试服务器可以包括自动重试模块、重试策略控制模块、回调结果监控模块、路由模块和客户端节点监控模块,还包括存储集群信息、重试点信息和客户端信息的数据库,以及重试接口和重试队列。其中,自动重试模块可以为Quartz模块,用于触发自动重试,一个重试点对应于一个Quartz的定时任务,Quartz模块使用mysql实现了调度的高可用;重试策略控制模块用于进行重试策略的控制,比如下次重试时间计算、重试次数控制、重试数据淘汰等;回调结果监控模块对重试客户端回调的执行结果进行监控,根据监控到的执行结果对重试数据进行状态变更,包括变更下次重试时间、变更重试次数、出队等操作;路由模块用于通过轮询算法和节点失效转移选择重试客户端目标节点;客户端节点监控模块用于通过心跳消息监控重试客户端的状态,并将状态保存到集群信息、重试点信息和客户端信息的数据库中;重试队列包括第一重试队列和第二重试队列,第一重试队列用于存储重试类型为自动重试的重试数据,第二重试队列用于存储重试类型为手动重试的重试数据;重试接口用于供用户查看第二重试队列中的重试数据并触发重试。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图8是本发明实施例提供的一种分布式重试装置的结构框图,该分布式重试装置应用于重试客户端中,如图8所示,该分布式重试装置可以包括:
重试数据上报模块801,用于在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并将所述重试数据和所述重试点对应的重试点标识发送给重试服务器,所述重试服务器用于对所述重试数据在所述重试客户端对应的集群中进行重试调度,所述重试点是执行业务逻辑的重试操作的入口;
调用指令接收模块802,用于接收重试服务器发送来的重试调用指令,所述重试调用指令包括重试数据和重试点标识;
重试操作执行模块803,用于根据所述重试调用指令,启动重试线程,通过所述重试线程调用接收到的重试数据执行重试点标识对应业务逻辑的重试操作。
可选的,所述装置还包括:
执行结果获取模块,用于获取所述重试操作的执行结果,将所述执行结果存放到结果队列中;
执行结果回调模块,用于通过回调线程从所述结果队列中读取所述执行结果,并将所述执行结果发送给所述重试服务器。
可选的,所述装置还包括:
信息获取模块,用于获取所述重试客户端所在集群的集群信息,并获取所述集群中的重试点信息,所述重试点信息包括重试点标识和重试策略,所述重试策略包括重试时间计算方式、重试数据有效期和重试次数阈值;
注册信息发送模块,用于根据所述集群信息、重试点信息和所述重试客户端的客户端标识,生成注册信息,并将所述注册信息发送至重试服务器。
可选的,所述重试数据上报模块包括:
重试数据获取单元,用于在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并确定所述业务逻辑对应的重试类型,所述重试类型包括自动重试或手动重试;
重试数据发送单元,用于将所述重试数据、重试类型和所述重试点标识发送给重试服务器。
本实施例提供的分布式重试装置,通过数据上报模块在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取异常数据,并将异常数据和重试点对应的重试点标识发送给重试服务器,重试服务器可以对重试数据在重试客户端对应的集群中进行重试调用,调用指令接收模块接收到重试服务器发送来的重试调用指令,重试操作执行模块启动重试线程,并通过重试线程调用接收到的重试数据执行重试点标识对应业务逻辑的重试操作,由于在进行重试操作时由重试服务器对集群中的重试客户端进行统一调度,而且通过启动重试线程来执行重试操作,不占用业务逻辑的主流程,不会影响集群的服务性能,而且不会侵入业务逻辑的代码,降低了代码侵入性。
图9是本发明实施例提供的一种分布式重试装置的结构框图,该分布式重试装置应用于重试服务器中,如图9所示,该分布式重试装置可以包括:
重试数据接收模块901,用于接收重试客户端发送的重试数据和对应的重试点标识,并将所述重试数据放入所述重试点标识对应的第一重试队列,所述重试点标识是预先注册的重试点的标识,所述重试点是执行业务逻辑的重试操作的入口;
目标节点确定模块902,用于在到达所述第一重试队列中的重试数据对应的重试时间时,根据所述重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,并将到达重试时间的重试数据作为目标重试数据;
调用指令发送模块903,用于根据所述目标重试数据和所述重试点标识,生成重试调用指令,并将所述重试调用指令发送至所述目标重试客户端,所述重试调用指令用于指示所述目标重试客户端通过重试线程调用所述目标重试数据执行所述重试点标识对应业务逻辑的重试操作。
可选的,所述装置还包括:
注册信息接收模块,用于接收重试客户端发送来的注册信息,所述注册信息包括集群信息、重试点信息和客户端标识,所述重试点信息包括重试点标识和重试策略,所述重试策略包括重试时间计算方式、重试数据有效期和重试次数阈值;
注册信息保存模块,用于保存所述注册信息。
可选的,所述目标节点确定模块包括:
轮询单元,用于对所述重试点标识对应的多个重试客户端进行轮询;
目标节点确定单元,用于若轮询到的重试客户端可用,则将该重试客户端作为待执行重试操作的目标重试客户端;若轮询到的重试客户端不可用,则将下一个可用的重试客户端作为待执行重试操作的目标重试客户端。
可选的,所述重试数据接收模块包括:
重试数据接收单元,用于接收重试客户端发送的重试数据、重试点标识和重试类型;
数据缓存单元,用于若所述重试类型为自动重试,则将所述重试数据放入所述重试点标识对应的第一重试队列;
所述方法还包括:
数据缓存模块,用于若所述重试类型为手动重试,则将所述重试数据放入所述重试点标识对应的第二重试队列。
可选的,所述装置还包括:
重试数据显示模块,用于在接收到数据查看指令时,通过可视化界面显示所述第二重试队列中的重试数据。
可选的,所述装置还包括:
重试调度触发模块,用于通过所述可视化界面接收到用户对指定重试数据的重试指令时,基于所述重试指令触发对所述指定重试数据的重试操作的调度。
可选的,所述装置还包括:
执行结果接收模块,用于接收所述目标重试客户端发送来的执行结果;
出队模块,用于若所述执行结果为执行成功,则将所述目标重试数据从所述第一重试队列中出队;
重试时间计算模块,用于若所述执行结果为执行失败,则在所述目标重试数据对应的重试次数小于重试次数阈值且所述目标重试数据未过期时,根据所述重试点对应的重试时间计算方式,确定下次重试时间。
可选的,所述装置还包括:
第一重试数据转移模块,用于若所述执行结果为执行失败,则在所述目标重试数据对应的重试次数等于所述重试次数阈值,或者在所述目标重试数据已过期时,将所述目标重试数据从所述第一重试队列移入第二重试队列。
可选的,所述装置还包括:
重试数据读取模块,用于每隔预设时间间隔读取所述第一重试队列中的重试数据;
时间判断模块,用于若读取到的重试数据对应的重试状态为待执行状态,则判断当前时间是否到达该重试数据的重试时间。
可选的,所述装置还包括:
第二重试数据转移模块,用于若读取到的重试数据对应的重试状态为执行中状态,且该重试数据的重试执行时长超过预设执行时长,则将该重试数据从所述第一重试队列移入第二重试队列。
本实施例提供的分布式重试方法,通过重试数据接收模块接收重试客户端发送来的重试数据和对应的重试点标识,并将重试数据放入重试点标识对应的第一重试队列,目标节点确定模块在到达第一重试队列中的重试数据对应的重试时间时,根据重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,并将到达重试时间的重试数据作为目标重试数据,调用指令发送模块根据目标重试数据和重试点标识生成重试调用指令,并将重试调用指令发送至目标重试客户端,从而通过重试调用指令可以指示目标重试客户端通过重试线程调用重试数据执行重试点标识对应业务逻辑的重试操作,由于由重试服务器对分布式系统中的重试客户端进行统一调度,而且重试客户端通过启动重试线程来执行重试操作,不占用业务逻辑的主流程,不会影响集群的服务性能,而且不会侵入业务逻辑的代码,降低了代码侵入性。
图10为本发明实施例提供的一种电子设备的结构框图。如图10所示,该电子设备1000可以包括一个或多个处理器1001以及与处理器1001连接的一个或多个存储器1002。电子设备1000还可以包括输入接口1003和输出接口1004,用于与另一装置或系统进行通信。被处理器1001的CPU执行的程序代码可存储在存储器1002中。
电子设备1000中的处理器1001调用存储在存储器1002的程序代码,以执行上述实施例中的分布式重试方法。
上述电子设备中的上述元件可通过总线彼此连接,总线例如数据总线、地址总线、控制总线、扩展总线和局部总线之一或其任意组合。
根据本发明的一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,存储介质可以是只读存储器(Read-Only Memory,ROM),或是可读写的,例如硬盘、闪存。所述计算机程序被处理器执行时实现前述实施例的CPU资源分配方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种分布式重试方法、装置、电子设备和存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种分布式重试方法,其特征在于,应用于重试客户端,包括:
在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并将所述重试数据和所述重试点对应的重试点标识发送给重试服务器,所述重试服务器用于对所述重试数据在所述重试客户端对应的集群中进行重试调度,所述重试点是执行业务逻辑的重试操作的入口;
接收重试服务器发送来的重试调用指令,所述重试调用指令包括重试数据和重试点标识;
根据所述重试调用指令,启动重试线程,通过所述重试线程调用接收到的重试数据执行重试点标识对应业务逻辑的重试操作。
2.根据权利要求1所述的方法,其特征在于,在所述通过所述重试线程调用接收到的重试数据执行重试点标识对应业务逻辑的重试操作之后,还包括:
获取所述重试操作的执行结果,将所述执行结果存放到结果队列中;
通过回调线程从所述结果队列中读取所述执行结果,并将所述执行结果发送给所述重试服务器。
3.根据权利要求1所述的方法,其特征在于,在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据之前,还包括:
获取所述重试客户端所在集群的集群信息,并获取所述集群中的重试点信息,所述重试点信息包括重试点标识和重试策略,所述重试策略包括重试时间计算方式、重试数据有效期和重试次数阈值;
根据所述集群信息、重试点信息和所述重试客户端的客户端标识,生成注册信息,并将所述注册信息发送至重试服务器。
4.根据权利要求1所述的方法,其特征在于,所述在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并将所述重试数据和所述重试点对应的重试点标识发送给重试服务器,包括:
在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并确定所述业务逻辑对应的重试类型,所述重试类型包括自动重试或手动重试;
将所述重试数据、重试类型和所述重试点标识发送给重试服务器。
5.一种分布式重试方法,其特征在于,应用于重试服务器,包括:
接收重试客户端发送的重试数据和对应的重试点标识,并将所述重试数据放入所述重试点标识对应的第一重试队列,所述重试点标识是预先注册的重试点的标识,所述重试点是执行业务逻辑的重试操作的入口;
在到达所述第一重试队列中的重试数据对应的重试时间时,根据所述重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,并将到达重试时间的重试数据作为目标重试数据;
根据所述目标重试数据和所述重试点标识,生成重试调用指令,并将所述重试调用指令发送至所述目标重试客户端,所述重试调用指令用于指示所述目标重试客户端通过重试线程调用所述目标重试数据执行所述重试点标识对应业务逻辑的重试操作。
6.根据权利要求5所述的方法,其特征在于,在接收重试客户端发送的重试数据之前,还包括:
接收重试客户端发送来的注册信息,所述注册信息包括集群信息、重试点信息和客户端标识,所述重试点信息包括重试点标识和重试策略,所述重试策略包括重试时间计算方式、重试数据有效期和重试次数阈值;
保存所述注册信息。
7.根据权利要求5所述的方法,其特征在于,所述根据所述重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,包括:
对所述重试点标识对应的多个重试客户端进行轮询;
若轮询到的重试客户端可用,则将该重试客户端作为待执行重试操作的目标重试客户端;
若轮询到的重试客户端不可用,则将下一个可用的重试客户端作为待执行重试操作的目标重试客户端。
8.根据权利要求5所述的方法,其特征在于,所述接收重试客户端发送的重试数据和对应的重试点标识,并将所述重试数据放入所述重试点标识对应的第一重试队列,包括:
接收重试客户端发送的重试数据、重试点标识和重试类型;
若所述重试类型为自动重试,则将所述重试数据放入所述重试点标识对应的第一重试队列;
所述方法还包括:
若所述重试类型为手动重试,则将所述重试数据放入所述重试点标识对应的第二重试队列。
9.根据权利要求8所述的方法,其特征在于,还包括:
在接收到数据查看指令时,通过可视化界面显示所述第二重试队列中的重试数据。
10.根据权利要求9所述的方法,其特征在于,在通过可视化界面显示所述第二重试队列中的重试数据之后,还包括:
通过所述可视化界面接收到用户对指定重试数据的重试指令时,基于所述重试指令触发对所述指定重试数据的重试操作的调度。
11.根据权利要求5所述的方法,其特征在于,在所述将所述重试调用指令发送至所述目标重试客户端之后,还包括:
接收所述目标重试客户端发送来的执行结果;
若所述执行结果为执行成功,则将所述目标重试数据从所述第一重试队列中出队;
若所述执行结果为执行失败,则在所述目标重试数据对应的重试次数小于重试次数阈值且所述目标重试数据未过期时,根据所述重试点对应的重试时间计算方式,确定下次重试时间。
12.根据权利要求11所述的方法,其特征在于,在所述接收所述目标重试客户端发送来的执行结果之后,还包括:
若所述执行结果为执行失败,则在所述目标重试数据对应的重试次数等于所述重试次数阈值,或者在所述目标重试数据已过期时,将所述目标重试数据从所述第一重试队列移入第二重试队列。
13.根据权利要求5所述的方法,其特征在于,在所述在到达所述第一重试队列中的重试数据对应的重试时间时,根据所述重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端之前,还包括:
每隔预设时间间隔读取所述第一重试队列中的重试数据;
若读取到的重试数据对应的重试状态为待执行状态,则判断当前时间是否到达该重试数据的重试时间。
14.根据权利要求13所述的方法,其特征在于,还包括:
若读取到的重试数据对应的重试状态为执行中状态,且该重试数据的重试执行时长超过预设执行时长,则将该重试数据从所述第一重试队列移入第二重试队列。
15.一种分布式重试装置,其特征在于,应用于重试客户端,包括:
重试数据上报模块,用于在监控到预先注册的重试点对应的业务逻辑在执行过程中出现异常时,获取重试数据,并将所述重试数据和所述重试点对应的重试点标识发送给重试服务器,所述重试服务器用于对所述重试数据在所述重试客户端对应的集群中进行重试调度,所述重试点是执行业务逻辑的重试操作的入口;
调用指令接收模块,用于接收重试服务器发送来的重试调用指令,所述重试调用指令包括重试数据和重试点标识;
重试操作执行模块,用于根据所述重试调用指令,启动重试线程,通过所述重试线程调用接收到的重试数据执行重试点标识对应业务逻辑的重试操作。
16.一种分布式重试装置,其特征在于,应用于重试服务器,包括:
重试数据接收模块,用于接收重试客户端发送的重试数据和对应的重试点标识,并将所述重试数据放入所述重试点标识对应的第一重试队列,所述重试点标识是预先注册的重试点的标识,所述重试点是执行业务逻辑的重试操作的入口;
目标节点确定模块,用于在到达所述第一重试队列中的重试数据对应的重试时间时,根据所述重试点标识对应的多个重试客户端,确定待执行重试操作的目标重试客户端,并将到达重试时间的重试数据作为目标重试数据;
调用指令发送模块,用于根据所述目标重试数据和所述重试点标识,生成重试调用指令,并将所述重试调用指令发送至所述目标重试客户端,所述重试调用指令用于指示所述目标重试客户端通过重试线程调用所述目标重试数据执行所述重试点标识对应业务逻辑的重试操作。
17.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-4任一项所述的分布式重试方法或如权利要求5-14任一项所述的分布式重试方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的分布式重试方法或如权利要求5-14任一项所述的分布式重试方法。
CN202010328917.XA 2020-04-23 2020-04-23 分布式重试方法、装置、电子设备和存储介质 Active CN111611057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010328917.XA CN111611057B (zh) 2020-04-23 2020-04-23 分布式重试方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010328917.XA CN111611057B (zh) 2020-04-23 2020-04-23 分布式重试方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111611057A true CN111611057A (zh) 2020-09-01
CN111611057B CN111611057B (zh) 2024-02-02

Family

ID=72199842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010328917.XA Active CN111611057B (zh) 2020-04-23 2020-04-23 分布式重试方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111611057B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157440A (zh) * 2021-03-23 2021-07-23 北京云上曲率科技有限公司 应用于移动端的自适应负载均衡和保证高可用的方法
CN113434337A (zh) * 2021-06-24 2021-09-24 华云数据控股集团有限公司 重试策略的控制方法、装置及电子设备
CN115421898A (zh) * 2022-11-07 2022-12-02 杭州比智科技有限公司 一种基于quartz框架的大数据任务调度管理系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647482A (zh) * 2002-04-05 2005-07-27 甲骨文国际公司 多层网络通信系统的重试技术
US20140282988A1 (en) * 2013-03-15 2014-09-18 Microsoft Corporation Retry and Snapshot Enabled Cross-Platform Synchronized Communication Queue
CN109785041A (zh) * 2018-12-13 2019-05-21 深圳平安财富宝投资咨询有限公司 基于分布式的订单执行方法、装置、设备及可读存储介质
CN110764881A (zh) * 2019-10-23 2020-02-07 中国工商银行股份有限公司 分布式系统后台重试方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647482A (zh) * 2002-04-05 2005-07-27 甲骨文国际公司 多层网络通信系统的重试技术
US20140282988A1 (en) * 2013-03-15 2014-09-18 Microsoft Corporation Retry and Snapshot Enabled Cross-Platform Synchronized Communication Queue
CN109785041A (zh) * 2018-12-13 2019-05-21 深圳平安财富宝投资咨询有限公司 基于分布式的订单执行方法、装置、设备及可读存储介质
CN110764881A (zh) * 2019-10-23 2020-02-07 中国工商银行股份有限公司 分布式系统后台重试方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余志坚;姜春志;: "采用Scheduled Thread Pool Executor执行定时重试任务时内存溢出的分析及解决" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157440A (zh) * 2021-03-23 2021-07-23 北京云上曲率科技有限公司 应用于移动端的自适应负载均衡和保证高可用的方法
CN113157440B (zh) * 2021-03-23 2023-06-27 北京云上曲率科技有限公司 应用于移动端的自适应负载均衡和保证高可用的方法
CN113434337A (zh) * 2021-06-24 2021-09-24 华云数据控股集团有限公司 重试策略的控制方法、装置及电子设备
CN113434337B (zh) * 2021-06-24 2024-03-19 华云数据控股集团有限公司 重试策略的控制方法、装置及电子设备
CN115421898A (zh) * 2022-11-07 2022-12-02 杭州比智科技有限公司 一种基于quartz框架的大数据任务调度管理系统及方法

Also Published As

Publication number Publication date
CN111611057B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
US10862740B2 (en) Method and apparatus for switching service nodes in a distributed storage system
US9369521B2 (en) Naming of distributed business transactions
CN111611057A (zh) 分布式重试方法、装置、电子设备和存储介质
CN106936618B (zh) 一种数据采集方法和系统
CN112416581B (zh) 定时任务的分布式调用系统
CN110830283B (zh) 故障检测方法、装置、设备和系统
JP4562568B2 (ja) 異常検出プログラムおよび異常検出方法
CN111324423B (zh) 容器内进程的监控方法、装置、存储介质和计算机设备
US20070168201A1 (en) Formula for automatic prioritization of the business impact based on a failure on a service in a loosely coupled application
CN107623731B (zh) 一种任务调度方法、客户端、服务集群及系统
CN110618889A (zh) 服务可用性的探测方法、装置、计算机设备和存储介质
CN110971485A (zh) 业务指标的监控系统及方法
CN111565135A (zh) 监控服务器运行的方法、监控服务器和存储介质
US11930292B2 (en) Device state monitoring method and apparatus
CN110096305B (zh) 灰度发布方法、装置、设备及存储介质
CN106506278B (zh) 一种服务可用性监控方法及装置
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN111026606A (zh) 基于hystrix熔断器监控的报警方法、装置及计算机设备
US9317355B2 (en) Dynamically determining an external systems management application to report system errors
CN107426012B (zh) 一种基于超融合架构的故障恢复方法及其装置
CN113448699A (zh) 一种分布式定时任务处理系统、方法及相关装置
US9575865B2 (en) Information processing system and monitoring method
CN114328156B (zh) 协议端口的健康检测方法、装置、设备及可读存储介质
CN113886122A (zh) 一种系统运行异常处理方法、装置、设备及存储介质
CN112463317A (zh) 机房任务调度方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant