CN113595760B - 一种系统故障的处理方法和装置 - Google Patents

一种系统故障的处理方法和装置 Download PDF

Info

Publication number
CN113595760B
CN113595760B CN202110701790.6A CN202110701790A CN113595760B CN 113595760 B CN113595760 B CN 113595760B CN 202110701790 A CN202110701790 A CN 202110701790A CN 113595760 B CN113595760 B CN 113595760B
Authority
CN
China
Prior art keywords
service
service instance
instance
state
dns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110701790.6A
Other languages
English (en)
Other versions
CN113595760A (zh
Inventor
郭川
赵飞
张攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Innovation Co
Original Assignee
Alibaba Singapore Holdings Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Singapore Holdings Pte Ltd filed Critical Alibaba Singapore Holdings Pte Ltd
Priority to CN202110701790.6A priority Critical patent/CN113595760B/zh
Publication of CN113595760A publication Critical patent/CN113595760A/zh
Application granted granted Critical
Publication of CN113595760B publication Critical patent/CN113595760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/122Shortest path evaluation by minimising distances, e.g. by selecting a route with minimum of number of hops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/24Multipath
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 

Abstract

本申请实施例提供了一种系统故障的处理方法和装置,涉及到DNS服务集群,所述方法包括:获取所述DNS服务集群中的服务实例和所述服务实例的路由优先级;所述服务实例部署有基于服务实例节点进行相互通信的交互协议模块;通过所述交互协议模块检测所述服务实例的服务状态;根据所述服务实例的服务状态,调整所述服务实例的路由优先级以实现流量迁移。通过所部署的服务实例之间的交互协议,实现高负载的场景下健康节点可以自动调高本地路由优先级,主动吸引流量,从而保证系统的高可用能力。

Description

一种系统故障的处理方法和装置
技术领域
本申请涉及通信技术领域,特别是涉及一种系统故障的处理方法和一种系统故障的处理装置。
背景技术
任播(Anycast)是一种能够支持多节点发布相同IP地址的路由信息的网络寻址方式,其与具有一对多特点的组播(Multicast)不同,任播是一个可以与在具有相同IP地址的多个节点的服务“对话”的源,而组播可以包括使用组播组地址向多个节点提供服务的源,其中,任播作为源,是服务的发送器,组播(可以称为多播)的常见用途是流音频,音频通过多播寻址发布,并且客户端将路由流作为频道进行拾取。
网络任播技术可以广泛应用在DNS(DomainName System,域名系统)领域,其能够在提供负载均衡能力的同时,还可以起到将网络攻击限制在局部范围的作用。
然而,在虚拟化环境的混部架构下,其资源隔离能力比较弱,所具有的资源弱隔离的特性可能导致在采用任播技术的DNS服务计算资源使用时,出现资源受阻的情况,进而影响DNS服务的稳定性。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种系统故障的处理方法和相应的一种系统故障的处理装置。
为了解决上述问题,本申请实施例公开了一种系统故障的处理方法,涉及到DNS服务集群,所述方法包括:
获取所述DNS服务集群中的服务实例和所述服务实例的路由优先级;所述服务实例部署有基于服务实例节点进行相互通信的交互协议模块;
通过所述交互协议模块检测所述服务实例的服务状态;
根据所述服务实例的服务状态,调整所述服务实例的路由优先级以实现流量迁移。
可选地,所述服务实例包括第一服务实例和与所述第一服务实例对端的第二服务实例;
所述通过所述交互协议模块检测所述服务实例的服务状态,包括:
通过所述交互协议模块检测所述第一服务实例的服务状态,以及检测对端的第二服务实例的服务状态。
可选地,所述通过所述交互协议模块检测所述第一服务实例的服务状态,以及检测对端的第二服务实例的服务状态,包括:
在判定所述第一服务实例的服务状态正常的情况下,检测与所述第一服务实例对端的第二服务实例的服务状态。
可选地,所述检测对端的第二服务实例的服务状态,包括:
检测所述对端的第二服务实例的网络连通状态;
在所述第二服务实例的网络连通状态正常的情况下,检测所述第二服务实例的服务解析状态。
可选地,所述根据所述服务实例的服务状态,调整所述服务实例的路由优先级,包括:
获取所述第一服务实例的路由优先级;
若所述对端的第二服务实例的服务状态处于异常状态,则调高所述第一服务实例的路由优先级;
和/或,若所述对端的第二服务实例的服务状态处于正常状态,则恢复所述第一服务实例的路由优先级。
可选地,所述调高所述第一服务实例的路由优先级,包括:
获取所述第一服务实例的负载水位;
若所述第一服务实例的负载水位小于预设阈值,则调高所述第一服务实例的路由优先级。
本申请实施例还公开了一种系统故障的处理系统,涉及到DNS服务集群,包括DNS服务集群的交换机和服务实例,
所述交换机,用于根据预设交换路由信息向所述服务实例发送预设资源;
所述服务实例,部署有基于服务实例节点进行相互通信的交互协议模块,用于通过所述交互协议模块检测所述服务实例的服务状态,并根据所述服务实例的服务状态,调整所述服务实例的路由优先级,以便根据调整后的路由优先级接收所述预设资源。
本申请实施例还公开了一种系统故障的处理装置,涉及到DNS服务集群,所述装置包括:
服务实例获取模块,用于获取所述DNS服务集群中的服务实例和所述服务实例的路由优先级;所述服务实例部署有基于服务实例节点进行相互通信的交互协议模块;
服务状态检测模块,位于所述交互协议模块,用于检测所述服务实例的服务状态;
路由优先级调整模块,用于根据所述服务实例的服务状态,调整所述服务实例的路由优先级。
可选地,所述服务实例包括第一服务实例和与所述第一服务实例对端的第二服务实例;所述服务状态检测模块包括:
服务状态检测子模块,用于通过所述交互协议模块检测所述第一服务实例的服务状态,以及检测对端的第二服务实例的服务状态。
可选地,所述服务状态检测子模块包括:
第一服务状态检测单元,用于在判定所述第一服务实例的服务状态正常的情况下,检测与所述第一服务实例对端的第二服务实例的服务状态。
可选地,所述服务状态检测子模块包括:
网络连通状态检测单元,用于检测所述对端的第二服务实例的网络连通状态;
第二服务状态检测单元,用于在所述第二服务实例的网络连通状态正常的情况下,检测所述第二服务实例的服务解析状态。
可选地,所述路由优先级调整模块包括:
路由优先级获取子模块,用于获取所述第一服务实例的路由优先级;
第一路由优先级调整子模块,用于在所述对端的第二服务实例的服务状态处于异常状态的情况下,调高所述第一服务实例的路由优先级;
第二路由优先级调整子模块,用于在所述对端的第二服务实例的服务状态处于正常状态的情况下,恢复所述第一服务实例的路由优先级。
可选地,所述第一路由优先级调整子模块包括:
负载水位获取单元,用于获取所述第一服务实例的负载水位;
路由优先级调高单元,用于若所述第一服务实例的负载水位小于预设阈值,则调高所述第一服务实例的路由优先级。
本申请实施例还公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现任一项所述统故障的处理方法的步骤。
本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现任一项所述系统故障的处理方法的步骤。
本申请实施例包括以下优点:
在本申请实施例中,涉及到DNS服务集群,可以获取DNS服务集群中的服务实例和服务实例对应的路由优先级,其中,服务实例可以部署有基于服务实例节点进行相互通信的交互协议模块,此时可以通过所部署的交互协议模块对服务实例的服务状态进行检测,并根据所检测得到的服务状态调整服务实例的路由优先级,以便基于调整后的路由优先级接收上连交换机所传输的资源。通过所部署的服务实例之间的交互协议,实现高负载的场景下健康节点可以自动调高本地路由优先级,主动吸引流量,从而保证系统的高可用能力。
附图说明
图1是一种处理系统故障的相关技术示意图;
图2是另一种处理系统故障的相关技术示意图;
图3是本申请的一种系统故障的处理方法实施例的步骤流程图;
图4是本申请的另一种系统故障的处理方法实施例的步骤流程图;
图5是本申请实施例中处理系统故障的示意图;
图6是本申请实施例中处理系统故障的应用场景图;
图7是本申请的一种系统故障的处理装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
专有云中各云产品可以通过OPS DNS域名解析(指的是专有云上OPS服务器的域名解析服务)来实现服务发现和服务互访需求,具体的,OPS DNS两个服务实例可以和对端交换机建立动态路由BGP(Border Gateway Protocol,边界网关协议)邻居,路由器可以配置ECMP(Equal Cost Multipath Routing,存在多条不同链路到达同一目的地址的网络环境中)的等价路由策略,实现OPS DNS解析服务的高可用,在单节点故障时,可以触发故障逃逸的机制。
其中,DNS解析服务的高可用能力指的是在服务单点故障的场景下,服务仍然具备对外提供服务的能力;故障逃逸可以指的是在负载均衡系统中,后台服务某个节点服务异常时可以自动摘除流量的机制,在专有云中,可以通过路由自动摘除来实现流量的迁移。
然而,在虚拟化环境的混部架构下,由于虚拟化的混部架构可以让不同的服务集群混合起来部署,通过调度、资源隔离等手段将不同类型的任务调度到相同的物理资源,在保证SLO(Service Level Objectives,服务水平目标,用于定义集群性能的衡量标准和集群性能要达到的目标)的基础上充分使用资源能力,其资源隔离能力比较弱,在同一宿主机上的其他服务导致的系统问题可能会影响到OPS DNS服务,尤其是宿主机的CPU/IO由于资源抢占而导致负载load高的问题,会导致现有的路由自动摘除方式失效。需要说明的是,现有的路由自动摘除方式是基于服务器本地健康检查操作实现的,而在前述因负载load高而导致的服务器宿主机夯死的场景下,本地健康检查拆除路由的方式将会失效。
另外,不同的虚拟化技术资源的隔离能力不统一,并不能从根本上保证虚拟化混部的服务资源隔离,那么对于DNS Anycast高可用架构的路由自动摘除方式失效的问题,并不能从根本上解决。
在相关技术中,可以存在以下针对DNS Anycast高可用架构的路由自动摘除方式失效的解决方案。
第一种解决方案,参照图1,示出了一种处理系统故障的相关技术示意图,假设两个DNS Anycast,即任播的服务实例(例如DNS Anycast node1和DNS Anycast node2)和上联交换机建立BGP或OSPF(Open Shortest Path First,开放式短路径优先)的路由邻居关系,并发布Anycast vip地址(即任播地址),LSW交换机(为一种综合接入交换机)可以内置有用于检查路由协议之外的侧通道流量的流量管理模块,此时LSW流量管理模块在发现某个DNS Anycast实例出现流量异常(例如节点资源高占用)时,可以从LSW交换机侧采用主动摘除路由的方式,实现流量迁移。
然而在这个方案中,所接入的Anycast服务的应用,其对端交换机一般情况下为第三方维护,应用侧无法使用此方案;且如果在Anycast服务接入交换机时尚未支持侧通道自动流量管理功能,则此方案也无法使用。
第二种解决方案,参照图2,示出了另一种处理系统故障的相关技术示意图,相较于第一种Anycast服务在接入LSW交换机时需要支持在交换机内部的侧通道自动流量管理功能的情况,可以部署外部DNS服务管控或路由管理模块Router Control Manager,通过路由管理模块Router Control Manager检查DNS服务状态,以及发布DNS Anycast路由控制命令,在检查到某个DNS Anycast实例服务异常的情况下,可以向进行任播的服务实例,即DNSAnycast node1或DNS Anycast node2中服务异常的节点发送路由控制命令,以摘除针对DNSAnycast侧的路由分布,实现流量的迁移。
然而在这个方案中,需要在DNS服务实例中部署路由管控模块,还需要部署外部服务管控/路由管控模块Router Control Manager,且在虚拟化弱隔离高load的场景下,可能会由于故障实例节点无法接收路由管控命令,而导致此方案失效的现象。
本申请实施例的核心思想之一是提出DNS服务集群内部的自检测逻辑,内部自检测逻辑可以基于所部署的服务实例之间的互检协议实现,在服务集群中的单一节点资源受限,即单一节点的负载较高的情况下,能够自动发现并通过提升健康节点的路由优先级的方式,保证DNS服务集群的整体服务不受影响,解决了虚拟化环境中资源隔离弱引起资源抢占进而影响DNS高可用的问题。
参照图3,示出了本申请的一种系统故障的处理方法实施例的步骤流程图,涉及到DNS服务集群,具体可以包括如下步骤:
步骤301,获取DNS服务集群中的服务实例和服务实例的路由优先级;
在本申请的一种实施例中,可以获取DNS服务集群中的服务实例和服务实例的路由优先级,以便对服务实例的服务状态进行检测,以及基于所检测到的服务状态调整服务实例的路由优先级。
其中,DNS服务进群中的服务实例可以是进行任播的服务实例,即支持多节点发布相同IP地址的路由信息。
具体的,可以基于DNS服务集群内部的自检测逻辑,自定义针对服务集群中服务实例节点的互检协议,以便能够基于服务实例节点间的互检协议,解决虚拟环境资源隔离问题引起的DNSAnycast高可用架构失效。
在实际应用中,为了避免因使用外部管控/路由管控服务资源,而导致故障实例节点无法接收路由管控命令,可以采用内置模块的方式实现。具体可以表现为在服务实例中部署基于服务实例节点进行相互通信的交互协议模块,即部署有交互协议模块的服务实例节点之间可以实现相互检测的操作。
其中,服务实例可以指的是服务进程,主要可以包括DNS服务、路由发布服务。
步骤302,通过交互协议模块检测服务实例的服务状态;
在本申请实施例中,将交互协议模块内置于服务实例之后,可以通过内置的交互协议模块,对服务实例的服务状态进行检测,以便基于所检测到的服务状态对路由优先级进行相应调整。
其中,可以采用交互协议模块检测服务实例的服务状态和/或资源状态,针对服务状态的检测可以表现为对服务解析状态、网络连通情况等进行检测,针对资源状态的检测可以表现为对资源抢占情况等进行检测,对此,本申请实施例不加以限制。
在实际应用中,在DNS服务集群中,所内置有交互协议模块的服务实例可以包括多个服务实例,即多个服务实例可以分别部署有交互协议模块,在对于其中某个交互协议模块而言,其可以对本地服务或资源状态进行检测,对与该交互协议模块所位于服务实例对端的另一服务实例的服务状态进行检测。
在具体实现中,对服务实例的本地服务/资源状态和对端服务状态的检测,可以通过具体DNS服务健康检查接口和/或系统命令检测实现,以通过前述对服务状态的检测判断本地节点和邻居节点服务是否正常。
步骤303,根据服务实例的服务状态,调整服务实例的路由优先级。
在经由交互协议模块对所获取的多个任播的服务实例进行检测之后,可以基于所检测得到的服务实例的服务状态,调整路由优先级,具体的,可以基于其中某一任播的服务实例的服务状态进行另一任播的服务实例的路由优先级调整,基于所提升后的路由优先级吸引流量,间接实现对故障节点的流量迁移。
在实际应用中,当任播技术应用在DNS的互联网基础服务部署场景上,即在DNS服务集群中时,可以通过对一组提供相同服务的服务器配置同一个的服务地址,并结合网络层的路由选路功能,获得这组服务器中网络状况较优(例如距离用户侧跳数较少,带宽较大,延时较小等)的服务器提供的服务,若此时较优服务器出现故障(相当于某一任播的服务实例出现load高)的情况,则可以通过修改BGP的路由配置调整路由优先级。
在本申请实施例中,涉及到DNS服务集群,可以获取DNS服务集群中的服务实例和服务实例对应的路由优先级,其中,服务实例可以部署有基于服务实例节点进行相互通信的交互协议模块,此时可以通过所部署的交互协议模块对服务实例的服务状态进行检测,并根据所检测得到的服务状态调整服务实例的路由优先级,以便基于调整后的路由优先级接收上连交换机所传输的资源。通过所部署的服务实例之间的交互协议,实现高负载的场景下健康节点可以自动调高本地路由优先级,主动吸引流量,从而保证系统的高可用能力。
参照图4,示出了本申请的另一种系统故障的处理方法实施例的步骤流程图,涉及到DNS服务集群,具体可以包括如下步骤:
步骤401,获取DNS服务集群中的第一服务实例和与第一服务实例对端的第二服务实例;
在本申请的一种实施例中,所内置有交互协议模块的服务实例可以包括多个服务实例,此时可以获取DNS服务集群中的第一服务实例,以及对端的第二服务实例,以便基于所内置的交互协议模块实现对所获取的第一服务实例和第二服务实例进行互检。
需要说明的是,针对内置的交互协议模块的服务实例的数量,本申请实施例不加以限制,可以存在多个服务实例经过所内置的交互协议模块,与另外的服务实例进行相互通信实现互检的操作。
步骤402,通过交互协议模块检测第一服务实例的服务状态,以及检测对端的第二服务实例的服务状态;
在获取DNS服务集群中的第一服务实例,和与第一服务实例对端的第二服务实例之后,可以采用所内置的交互协议模块实现两端的服务实例之间的互检操作。
其中,可以对第一服务实例与第二服务实例的服务状态进行检测。具体的,可以通过第一服务实例内置的第一交互协议模块,对第一服务实例以及对端的第二服务实例进行检测,同理,可以通过第二服务实例内置的第二交互协议模块,对第二服务实例以及对端的第一服务实例进行检测。
在实际应用中,可以在判定第一服务实例的服务状态正常的情况下,检测与第一服务实例对端的第二服务实例的服务状态。
作为一种示例,可以采用第一交互协议模块检测本地(即第一服务实例)的解析服务和资源抢占情况,在一种情况下,如果本地服务正常,则进入到下一步检测对端(即第二服务实例)的服务状态的步骤;在另一种情况下,如果本地服务异常,则可以恢复本地路由的默认优先级。其中,资源抢占情况正常的指标可以基于针对虚拟环境中steal time值确定,该steal time值可以按照实际情况配置。
在本申请的一种实施例中,采用第一交互协议模块检测对端的第二服务实例的服务状态,其实现方式可以如下:首先可以采用第一交互协议模块检测对端的第二服务实例的网络连通状态,在第二服务实例的网络连通状态正常的情况下,可以对第二服务实例的服务解析状态进行检测。
在实际应用中,可以检查对端服务实例网络连通性,并判断所对端服务实例的网络是否连通,如果连通正常,则可以进入下一步判断对端解析服务是否正常的步骤,如果对端解析服务正常,则此时可以恢复本地路由优先级。
步骤403,根据第二服务实例的服务状态,调整第一服务实例的路由优先级。
其中,可以获取第一服务实例的路由优先级,对第一服务实例的路由优先级进行调整,可以出现以下两种情况:(1)若对端的第二服务实例的服务状态处于异常状态,则可以调高第一服务实例的路由优先级;(2)和/或,若对端的第二服务实例的服务状态处于正常状态,则可以恢复第一服务实例的路由优先级,以保证避免服务长期单点。
在本申请实施例中,第二服务实例的服务状态处于异常状态,可以表现为对端服务网络不能连通或对端解析服务异常等。
在发现对端服务异常情况下,对第一服务实例的路由优先级进行调高,在调高本地的路由优先级的过程中,可以获取第一服务实例的负载水位,若第一服务实例的负载水位小于预设阈值,则可以调高第一服务实例的路由优先级。
作为一种示例,所获取的第一服务实例的负载水位可以指的是本地当前平均水位,假设预设阈值为50%,则在本地当前平均水位小于50%的情况下,提升本地的路由优先级,以实现将对端流量引入本地,即自动提升本地路由优先级吸引流量,间接实现故障节点流量迁移的目的。需要说明的是,对于预设阈值的确定,可以根据实际需要进行确定,本申请实施例不加以限制。
在本申请实施例中,涉及到DNS服务集群,可以获取DNS服务集群中的服务实例和服务实例对应的路由优先级,其中,服务实例可以部署有基于服务实例节点进行相互通信的交互协议模块,此时可以通过所部署的交互协议模块对服务实例的服务状态进行检测,并根据所检测得到的服务状态调整服务实例的路由优先级,以便基于调整后的路由优先级接收上连交换机所传输的资源。通过所部署的服务实例之间的交互协议,实现高负载的场景下健康节点可以自动调高本地路由优先级,主动吸引流量,从而保证系统的高可用能力。
参照图5,示出了本申请实施例中处理系统故障的示意图,涉及到DNS服务集群,此时可以存在系统故障的处理系统,该系统可以包括DNS服务集群的LSW交换机和进行任播的服务实例(包括DNSAnycast node1和DNS Anycast node2),其中,LSW交换机基于任播地址分别与多个服务实例建立BGP或OSPF的路由邻居关系,DNS Anycast node1和DNS Anycastnode2可以部署有用于进行互检的交互协议模块。
在实际应用中,LSW交换机可以用于根据预设交换路由信息(例如所建立的BGP或OSPF路由表信息)向相应的进行任播的服务实例发送预设资源,进行任播的服务实例DNSAnycast node1和DNS Anycast node2可以部署有基于服务实例节点进行相互通信的交互协议模块,此时可以通过交互协议模块检测任播服务实例DNS Anycast node1和DNSAnycast node2的服务状态,并根据其中一任播服务实例的服务状态,调整另一任播服务实例的路由优先级,以便根据调整后的路由优先级接收预设资源,即通过在健康节点上提升路由优先级,将故障实例节点流量吸引过来。
为了便于本领域技术人员进一步了解本申请实施例所提出的系统故障的处理方法,结合应用场景进行如下说明:
参照图6,示出了本申请实施例中处理系统故障的应用场景图,可以应用于专有云底座DNS的场景。
私有云指的是企业采用自身的数据中心自建的私有云平台,而专有云可以相当于是将企业的私有云建立在云服务企业的数据中心,以类似于云托管的方式在公有云架构上实现的云平台系统,其中,私有云仅是将企业数据中心云化,数据存储与处理都在企业自身的数据中心完成,这增加了后期向公共云迁移的难度,而专有云的设计提供和公共云一样的弹性伸缩能力,使得专有云能够和客户现有的账号体系和运维体系进行无缝对接。
作为一种示例,专有云可以为不同企业的数据中心进行云托管,通过专有云天基底座DNS可以基于负载均衡为不同企业提供数据查询能力,所托管的数据中心可以向所请求的不同企业传输所要查询的数据。
假设专有云底座存在两个DNS服务容器(例如DNS服务容器A和DNS服务容器B),其分别部署在两台物理机上,且两个DNS服务容器内可以预先部署用于互检的交互协议模块,当某个企业向专有云请求资源数据时,可以对一组提供相同服务的服务器配置同一个的服务地址,即DNS服务容器A和DNS服务容器B均可以为企业反馈数据中心上所请求的资源数据,此时DNS服务容器A内置的交互协议模块可以对自身的服务状态和对端DNS服务容器A的服务状态进行检测,DNS服务容器B内置的交互协议模块同样可以对自身的服务状态和对端DNS服务容器B的服务状态进行检测,当其中某单台物理机夯机或资源受限,例如DNS服务容器B所在的物理机宕机时,即对端的DNS服务容器B属于故障实例节点,DNS服务容器A作为健康的节点,可以通过DNS服务容器A的交互协议模块提升其所在物理机的路由优先级,以将故障实例节点DNS服务容器B的流量吸引过来,间接实现故障节点流量迁移,保证系统的高可用能力。
在本申请实施例中,通过所部署的进行任播的服务实例DNS Anycast之间的交互协议(即互检协议),实现高负载的场景下健康节点可以自动调高本地路由优先级,主动吸引流量,从而保证系统的高可用能力,解决了虚拟化环境中资源隔离弱引起资源抢占进而影响DNS高可用的问题。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图7,示出了本申请的一种系统故障的处理装置实施例的结构框图,涉及到DNS服务集群,具体可以包括如下模块:
服务实例获取模块701,用于获取所述DNS服务集群中的服务实例和所述服务实例的路由优先级;所述服务实例部署有基于服务实例节点进行相互通信的交互协议模块;
服务状态检测模块702,位于所述交互协议模块,用于检测所述服务实例的服务状态;
路由优先级调整模块703,用于根据所述服务实例的服务状态,调整所述服务实例的路由优先级。
在本申请的一种实施例中,服务实例可以包括第一服务实例和与所述第一服务实例对端的第二服务实例;服务状态检测模块702可以包括如下子模块:
服务状态检测子模块,用于通过所述交互协议模块检测所述第一服务实例的服务状态,以及检测对端的第二服务实例的服务状态。
在本申请的一种实施例中,服务状态检测子模块可以包括如下单元:
第一服务状态检测单元,用于在判定所述第一服务实例的服务状态正常的情况下,检测与所述第一服务实例对端的第二服务实例的服务状态。
在本申请的一种实施例中,服务状态检测子模块可以包括如下单元:
网络连通状态检测单元,用于检测所述对端的第二服务实例的网络连通状态;
第二服务状态检测单元,用于在所述第二服务实例的网络连通状态正常的情况下,检测所述第二服务实例的服务解析状态。
在本申请的一种实施例中,路由优先级调整模块703可以包括如下子模块:
路由优先级获取子模块,用于获取所述第一服务实例的路由优先级;
第一路由优先级调整子模块,用于在所述对端的第二服务实例的服务状态处于异常状态的情况下,调高所述第一服务实例的路由优先级;
第二路由优先级调整子模块,用于在所述对端的第二服务实例的服务状态处于正常状态的情况下,恢复所述第一服务实例的路由优先级。
在本申请的一种实施例中,第一路由优先级调整子模块可以包括如下单元:
负载水位获取单元,用于获取所述第一服务实例的负载水位;
路由优先级调高单元,用于若所述第一服务实例的负载水位小于预设阈值,则调高所述第一服务实例的路由优先级。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例还提供了一种电子设备,包括:
包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述系统故障的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述系统故障的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种系统故障的处理方法和一种系统故障的处理装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种系统故障的处理方法,其特征在于,涉及到DNS服务集群,所述方法包括:
获取所述DNS服务集群中的服务实例和所述服务实例的路由优先级;所述服务实例部署有基于服务实例节点进行相互通信的交互协议模块;
通过所述交互协议模块检测所述服务实例的服务状态;
根据所述服务实例的服务状态,调整所述服务实例的路由优先级以实现流量迁移。
2.根据权利要求1所述的方法,其特征在于,所述服务实例包括第一服务实例和与所述第一服务实例对端的第二服务实例;
所述通过所述交互协议模块检测所述服务实例的服务状态,包括:
通过所述交互协议模块检测所述第一服务实例的服务状态,以及检测对端的第二服务实例的服务状态。
3.根据权利要求2所述的方法,其特征在于,所述通过所述交互协议模块检测所述第一服务实例的服务状态,以及检测对端的第二服务实例的服务状态,包括:
在判定所述第一服务实例的服务状态正常的情况下,检测与所述第一服务实例对端的第二服务实例的服务状态。
4.根据权利要求2或3所述的方法,其特征在于,所述检测对端的第二服务实例的服务状态,包括:
检测所述对端的第二服务实例的网络连通状态;
在所述第二服务实例的网络连通状态正常的情况下,检测所述第二服务实例的服务解析状态。
5.根据权利要求2所述的方法,其特征在于,所述根据所述服务实例的服务状态,调整所述服务实例的路由优先级,包括:
获取所述第一服务实例的路由优先级;
若所述对端的第二服务实例的服务状态处于异常状态,则调高所述第一服务实例的路由优先级;
和/或,若所述对端的第二服务实例的服务状态处于正常状态,则恢复所述第一服务实例的路由优先级。
6.根据权利要求5所述的方法,其特征在于,所述调高所述第一服务实例的路由优先级,包括:
获取所述第一服务实例的负载水位;
若所述第一服务实例的负载水位小于预设阈值,则调高所述第一服务实例的路由优先级。
7.一种系统故障的处理系统,其特征在于,涉及到DNS服务集群,包括DNS服务集群的交换机和服务实例,
所述交换机,用于根据预设交换路由信息向所述服务实例发送预设资源;
所述服务实例,部署有基于服务实例节点进行相互通信的交互协议模块,用于通过所述交互协议模块检测所述服务实例的服务状态,并根据所述服务实例的服务状态,调整所述服务实例的路由优先级,以便根据调整后的路由优先级接收所述预设资源。
8.一种系统故障的处理装置,其特征在于,涉及到DNS服务集群,所述装置包括:
服务实例获取模块,用于获取所述DNS服务集群中的服务实例和所述服务实例的路由优先级;所述服务实例部署有基于服务实例节点进行相互通信的交互协议模块;
服务状态检测模块,位于所述交互协议模块,用于检测所述服务实例的服务状态;
路由优先级调整模块,用于根据所述服务实例的服务状态,调整所述服务实例的路由优先级。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-6中任一项所述统故障的处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述系统故障的处理方法的步骤。
CN202110701790.6A 2021-06-23 2021-06-23 一种系统故障的处理方法和装置 Active CN113595760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110701790.6A CN113595760B (zh) 2021-06-23 2021-06-23 一种系统故障的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110701790.6A CN113595760B (zh) 2021-06-23 2021-06-23 一种系统故障的处理方法和装置

Publications (2)

Publication Number Publication Date
CN113595760A CN113595760A (zh) 2021-11-02
CN113595760B true CN113595760B (zh) 2023-05-16

Family

ID=78244546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110701790.6A Active CN113595760B (zh) 2021-06-23 2021-06-23 一种系统故障的处理方法和装置

Country Status (1)

Country Link
CN (1) CN113595760B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569149A (zh) * 2019-09-16 2019-12-13 上海新炬网络技术有限公司 基于故障探测触发Oracle容灾自动应急切换的方法
CN112953992A (zh) * 2019-12-11 2021-06-11 阿里巴巴集团控股有限公司 网络系统、通信与组网方法、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9462427B2 (en) * 2015-01-14 2016-10-04 Kodiak Networks, Inc. System and method for elastic scaling using a container-based platform
US10992536B2 (en) * 2016-08-15 2021-04-27 At&T Intellectual Property I, L.P. Method and apparatus to control anycast traffic using a software defined network controller

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569149A (zh) * 2019-09-16 2019-12-13 上海新炬网络技术有限公司 基于故障探测触发Oracle容灾自动应急切换的方法
CN112953992A (zh) * 2019-12-11 2021-06-11 阿里巴巴集团控股有限公司 网络系统、通信与组网方法、设备及存储介质

Also Published As

Publication number Publication date
CN113595760A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
US11237858B2 (en) Software-defined data center, and deployment method for service cluster therein
US10601728B2 (en) Software-defined data center and service cluster scheduling and traffic monitoring method therefor
CN107454155B (zh) 一种基于负载均衡集群的故障处理方法、装置以及系统
TWI724106B (zh) 資料中心間的業務流量控制方法、裝置及系統
CN112671882B (zh) 一种基于微服务的同城双活系统和方法
US11277283B2 (en) Resilient zero touch provisioning
CN108306777B (zh) 基于sdn控制器的虚拟网关主备切换方法及装置
US8135771B2 (en) Digital signal processor clustering in integrated media-services gateways
EP3864801B1 (en) Technique for monitoring a redundancy status of a connection
JP7313480B2 (ja) スライスベースネットワークにおける輻輳回避
US20220131935A1 (en) Service Unit Switching Method, System, and Device
US20150288597A1 (en) Traffic distribution for an edge device
WO2014146541A1 (zh) Cdn与网络融合系统、调度模块选定方法及计算机存储介质
Alasadi et al. SSED: Servers under software-defined network architectures to eliminate discovery messages
CN106452882B (zh) 一种万能网络护照服务器的备份切换方法及系统
CN107438098B (zh) 一种动态内容分发方法及其系统
CN113595760B (zh) 一种系统故障的处理方法和装置
KR20200072941A (ko) 실시간 오류 감지를 통한 vrrp 기반의 네트워크 장애 대응 방법 및 장치
US9015518B1 (en) Method for hierarchical cluster voting in a cluster spreading more than one site
CN114268581B (zh) 一种实现网络设备高可用和负载分担的方法
CN116208483A (zh) 高可用裸金属服务的实现方法、相关装置及存储介质
CN114900526A (zh) 负载均衡方法及系统、计算机存储介质、电子设备
US11290319B2 (en) Dynamic distribution of bidirectional forwarding detection echo sessions across a multi-processor system
WO2022060413A1 (en) Methods, systems, and computer-readable media for distributing s1 connections to mobility management entities (mmes) and n2 connections to access and mobility management functions (amfs)
CN111835858A (zh) 设备接入方法、设备及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40069941

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240304

Address after: 51 Belarusian Pasha Road, Singapore, Lai Zan Da Building 1 # 03-06, Postal Code 189554

Patentee after: Alibaba Innovation Co.

Country or region after: Singapore

Address before: Room 01, 45th Floor, AXA Building, 8 Shanton Road, Singapore

Patentee before: Alibaba Singapore Holdings Ltd.

Country or region before: Singapore