CN109218044A - 一种故障处理方法和装置 - Google Patents

一种故障处理方法和装置 Download PDF

Info

Publication number
CN109218044A
CN109218044A CN201710522844.6A CN201710522844A CN109218044A CN 109218044 A CN109218044 A CN 109218044A CN 201710522844 A CN201710522844 A CN 201710522844A CN 109218044 A CN109218044 A CN 109218044A
Authority
CN
China
Prior art keywords
configuration file
atom
passing
version
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710522844.6A
Other languages
English (en)
Other versions
CN109218044B (zh
Inventor
符立佳
苗辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Baishan Cloud Polytron Technologies Inc
Original Assignee
Guizhou Baishan Cloud Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Baishan Cloud Polytron Technologies Inc filed Critical Guizhou Baishan Cloud Polytron Technologies Inc
Priority to CN201710522844.6A priority Critical patent/CN109218044B/zh
Publication of CN109218044A publication Critical patent/CN109218044A/zh
Application granted granted Critical
Publication of CN109218044B publication Critical patent/CN109218044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种故障处理方法和装置。涉及计算机网络领域;解决了现有的配置文件异常处理方式处理效率低下、影响正常业务进行的问题。该方法包括:在发生业务故障时,定位当前配置文件中故障业务涉及的部分;使用发生业务故障的时间点前的过往版本配置文件中相应的部分,替换所述当前配置文件中故障业务涉及的部分,生成修正后的配置文件。本发明提供的技术方案适用于可以更小粒度拆分配置文件的网络系统,实现了在精确高效修复配置文件错误的同时保证其他业务依照最新的配置文件内容进行。

Description

一种故障处理方法和装置
技术领域
本发明涉及计算机网络领域,尤其涉及一种故障处理方法和装置。
背景技术
互联网服务运营维护过程中,大部分系统组件都需要使用配置文件进行业务的管理和操作。配置文件的变更每天要进行几次、几百次、甚至上千次。在频繁的配置文件变更操作中,由于人员操作失误、程序BUG等原因引起配置文件错误,最终导致的故障的情况经常发生,根据某一特定业务场景统计,此类问题占所有故障的10%左右。此类故障的快速处理和业务影响范围的控制,完全依赖于配置文件的修正和操作回退的效率,所以如何实现配置文件错误的快速回退或修正,非常的重要。
现有技术一般通过操作人员手动修复异常配置文件并下发,通常是将配置文件回退到故障发生前的版本。此种处理方式存在如下问题:
a)通过手动修复异常配置并下发,此方法一般会耗费大量时间,导致故障影响业务的时间长。
b)直接将配置文件回退到故障前的备份版本,为多客户/业务提供服务的系统的配置文件,会导致其他正常客户/业务的配置也被回退,如果期间正常业务有配置变更,则会影响正常客户/业务的服务效果。
c)配置文件备份个数一般为有限个,当需要回退的版本已经没有备份文件,则无法执行备份操作,只能手动修复异常配置,执行效率差。
d)异常的客户配置,如果在异常版本和回退版本之间,存在正常的操作,则回退后会使已经产生的正常操作也被回退,影响正常服务。
综上,现有的配置文件异常处理方式处理效率低下,影响正常业务进行。
发明内容
本发明旨在解决上面描述的问题。
根据本发明的第一方面,提供了一种故障处理方法,包括:
在发生业务故障时,定位当前配置文件中故障业务涉及的部分;
使用发生业务故障的时间点前的过往版本配置文件中相应的部分,替换所述当前配置文件中故障业务涉及的部分,生成修正后的配置文件。
优选的,该方法还包括:
将配置文件按照一个或多个共同维度,拆分成多个配置文件原子,每个配置文件原子可以独立加载后提供服务,每个配置文件原子可被独立定位。
优选的,该方法还包括:
按照标准格式生成配置文件,所述标准格式包含多个配置文件原子,各个配置文件原子均具有一个或多个共同维度,不同配置文件的所述共同维度的值不同。
优选的,在发生业务故障时,定位当前配置文件中故障业务涉及的部分包括:
在发生业务故障时,确定业务故障涉及的所述共同维度的取值范围;
定位所述共同维度的值落入所述取值范围的一个或多个配置文件原子。
优选的,使用发生故障的时间点前的过往版本配置文件中相应的部分,替换所述当前配置文件中发生错误的部分,生成修正后的配置文件的步骤包括:
分别确定业务故障涉及的各个配置文件原子发生故障的时间点;
分别确定各个配置文件原子发生故障的时间点前的过往版本的配置文件中相应的部分;
分别使用各个配置文件原子发生故障的时间点前的过往版本的配置文件中的相应部分进行替换,生成修正后的配置文件。
优选的,在确定配置文件原子发生故障的时间点前的过往版本的配置文件中相应的部分时,通过以下方式中的任一完成:
方式一:读取本地备份或其他实体上备份的所述过往版本的配置文件,提取所述过往版本的配置文件中与所述配置文件原子相应的部分;
方式二:获取生成时间距离所述发生故障的时间点最近的过往版本的配置文件的版本信息,查询配置文件变更记录表,确认所述过往版本的配置文件到目前的全部操作记录,根据所述操作记录,对所述配置文件原子逆向回退至与所述过往版本的配置文件一致。
根据本发明的另一方面,提供了一种故障处理装置,包括:
错误细化定位模块,用于在发生业务故障时,定位当前配置文件中故障业务涉及的部分;
修正模块,用于使用发生业务故障的时间点前的过往版本配置文件中相应的部分,替换所述当前配置文件中故障业务涉及的部分,生成修正后的配置文件。
优选的,该装置还包括:
文件粒度细化模块,用于将配置文件按照一个或多个共同维度,拆分成多个配置文件原子,每个配置文件原子可以独立加载后提供服务,每个配置文件原子可被独立定位。
优选的,该装置还包括:
配置文件标准化模块,用于按照标准格式生成配置文件,所述标准格式包含多个配置文件原子,各个配置文件原子均具有一个或多个共同维度,不同配置文件的所述共同维度的值不同。
优选的,所述错误细化定位模块包括:
故障范围分析单元,用于在发生业务故障时,确定业务故障涉及的所述共同维度的取值范围;
故障部分定位单元,用于定位所述共同维度的值落入所述取值范围的一个或多个配置文件原子。
优选的,所述修正模块包括:
时间点确定单元,用于分别确定业务故障涉及的各个配置文件原子发生故障的时间点;
替换内容确定单元,用于分别确定各个配置文件原子发生故障的时间点前的过往版本的配置文件中相应的部分;
修正文件生成单元,用于分别使用各个配置文件原子发生故障的时间点前的过往版本的配置文件中的相应部分进行替换,生成修正后的配置文件。
优选的,所述替换内容确定单元包括:
备份提取子单元,用于读取本地备份或其他实体上备份的所述过往版本的配置文件,提取所述过往版本的配置文件中与所述配置文件原子相应的部分;
记录回溯子单元,用于获取生成时间距离所述发生故障的时间点最近的过往版本的配置文件的版本信息,查询配置文件变更记录表,确认所述过往版本的配置文件到目前的全部操作记录,根据所述操作记录,对所述配置文件原子逆向回退至与所述过往版本的配置文件一致。
本发明提供了一种故障处理方法和装置,在发生业务故障时,定位当前配置文件中故障业务涉及的部分,并使用发生业务故障的时间点前的过往版本配置文件中相应的部分,替换所述当前配置文件中故障业务涉及的部分,生成修正后的配置文件。相较于现有技术中的整个配置文件回退,本发明的实施例提供的技术方案只需要对故障涉及的配置文件中的部分内容进行回退处理,而不对故障未涉及的部分造成影响,在精确高效修复配置文件错误的同时,保证了其他业务依照最新的配置文件内容进行,保障了用户体验,解决了现有的配置文件异常处理方式处理效率低下、影响正常业务进行的问题。
参照附图来阅读对于示例性实施例的以下描述,本发明的其他特性特征和优点将变得清晰。
附图说明
并入到说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于解释本发明的原理。在这些附图中,类似的附图标记用于表示类似的要素。下面描述中的附图是本发明的一些实施例,而不是全部实施例。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。
图1示例性地示出了本发明的实施例一提供的一种故障处理方法的流程;
图2示例性地示出了本发明的实施例二提供的一种故障处理装置的结构;
图3示例性地示出了本发明的实施例二使用的一种配置文件原子回退方式的原理;
图4示例性地示出了本发明的实施例三提供的一种故障处理装置的结构;
图5示例性地示出了图4中错误细化定位模块401的结构;
图6示例性地示出了图4中修正模块402的结构;
图7示例性地示出了图6中替换内容确定单元602的结构。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
现有技术一般通过操作人员手动修复异常配置文件并下发,通常是将配置文件回退到故障发生前的版本。此种处理方式存在如下问题:
a)通过手动修复异常配置并下发,此方法一般会耗费大量时间,导致故障影响业务的时间长。
b)直接将配置文件回退到故障前的备份版本,为多客户/业务提供服务的系统的配置文件,会导致其他正常客户/业务的配置也被回退,如果期间正常业务有配置变更,则会影响正常客户/业务的服务效果。
c)配置文件备份个数一般为有限个,当需要回退的版本已经没有备份文件,则无法执行备份操作,只能手动修复异常配置,执行效率差。
d)异常的客户配置,如果在异常版本和回退版本之间,存在正常的操作,则回退后会使已经产生的正常操作也被回退,影响正常服务。
综上,现有的配置文件异常处理方式处理效率低下,影响正常业务进行。
为了解决上述问题,本发明的实施例提供了一种故障处理方法和装置。对配置文件进行更小粒度的划分,精确定位业务故障涉及的配置文件部分,对发生错误的部分配置文件进行回退到过往版本,其他部分的配置文件保护不变,实现了更有针对性更灵活的配置文件回退,降低了配置文件回退对服务造成的影响。
首先结合附图,对本发明的实施例一进行说明。
本发明实施例提供了一种故障处理方法,使用该方法完成配置文件修正的流程如图1所示,包括:
步骤101、在发生业务故障时,定位当前配置文件中故障业务涉及的部分;
配置文件往往包含多个更小粒度的数据结构,每个数据结构可独立加载某项业务服务,多个数据结构均具有相同的一个或多个元素。其于配置文件的上述特点,本发明实施例中可将配置文件按照一个或多个共同维度,拆分成多个配置文件原子,每个配置文件原子可以独立加载后提供服务,每个配置文件原子可被独立定位。
本步骤具体包括:
1、在发生业务故障时,确定业务故障涉及的所述共同维度的取值范围;
2、定位所述共同维度的值落入所述取值范围的一个或多个配置文件原子。
以DNS分区域调度配置文件为例,现有如下格式的配置文件:
www.a.com联通-北京1.1.1.1
www.a.com电信-上海1.1.1.2
www.b.com联通-北京2.1.1.1
www.b.com电信-上海2.1.1.2
www.c.com联通-北京3.1.1.1
www.c.com电信-上海3.1.1.2
www.d.com联通-北京4.1.1.1
www.d.com电信-上海4.1.1.2
www.e.com联通-北京5.1.1.1
www.e.com电信-上海5.1.1.2
以共同维度是域名,域名值相同划分为同一配置文件原子,共有5个配置文件原子,分别为www.a.com、www.b.com、www.c.com、www.d.com、www.e.com:
1)www.a.com联通-北京1.1.1.1
www.a.com电信-上海1.1.1.2
2)www.b.com联通-北京2.1.1.1
www.b.com电信-上海2.1.1.2
3)www.c.com联通-北京3.1.1.1
www.c.com电信-上海3.1.1.2
4)www.d.com联通-北京4.1.1.1
www.d.com电信-上海4.1.1.2
5)www.e.com联通-北京5.1.1.1
www.e.com电信-上海5.1.1.2
以共同维度是区域,区域值相同划分为同一配置文件原子,共有2个配置文件原子,分别是:
1)www.a.com联通-北京1.1.1.1
www.b.com联通-北京2.1.1.1
www.c.com联通-北京3.1.1.1
www.d.com联通-北京4.1.1.1
www.e.com联通-北京5.1.1.1
2)www.a.com电信-上海1.1.1.2
www.b.com电信-上海2.1.1.2
www.c.com电信-上海3.1.1.2
www.d.com电信-上海4.1.1.2
www.e.com电信-上海5.1.1.2
以共同维度是区域及域名来划分,则每一行都是一个配置文件原子,共有10个配置文件原子。
优选的,本发明实施例中,还可按照标准格式生成配置文件,所述标准格式包含多个配置文件原子,各个配置文件原子均具有一个或多个共同维度,不同配置文件的所述共同维度的值不同。
步骤102、使用发生业务故障的时间点前的过往版本配置文件中相应的部分,替换所述当前配置文件中故障业务涉及的部分,生成修正后的配置文件;
本步骤具体包括:
1、分别确定业务故障涉及的各个配置文件原子发生故障的时间点;
对各个配置文件原子单独考虑发生错误的时间。一般情况下,判定发生错误的时间为最早将配置文件原子配置为当前内容的时间。可通过配置文件的版本来体现发生错误的时间。
2、分别确定各个配置文件原子发生故障的时间点前的过往版本的配置文件中相应的部分;
根据当前本实体或存在连接关系可传输数据的其他实体上当前数据备份情况的不同,在确定配置文件原子发生故障的时间点前的过往版本的配置文件中相应的部分时,可通过以下方式中的任一完成:
方式一:读取本地备份或其他实体上备份的所述过往版本的配置文件,提取所述过往版本的配置文件中与所述配置文件原子相应的部分;此种方式适用于可直接获取备份文件,可在本地备份中获取,也可通过网络由其他实体中获取。
方式二:获取生成时间距离所述发生故障的时间点最近的过往版本的配置文件的版本信息,查询配置文件变更记录表,确认所述过往版本的配置文件到目前的全部操作记录,根据所述操作记录,对所述配置文件原子逆向回退至与所述过往版本的配置文件一致;此种方式适用于无法直接获取备份文件时,例如故障一直没有发现,而前N个版本都存在故障的信息,或数据发生丢失。相应的,本发明的实施例提供的技术方案中,除了备份的配置文件之外,还维护有对配置文件的操作记录,操作记录会记录N+1甚至更多版本的操作记录和操作的时间点。通过故障时间,找到故障发生时间点之前的最近版本,就是可用来替换当前错误数据的版本。
3、分别使用各个配置文件原子发生故障的时间点前的过往版本的配置文件中的相应部分进行替换,生成修正后的配置文件。
下面结合附图,对本发明的实施例二进行说明。
本发明实施例提供了一种故障处理装置,该装置的结构如图2所示,包括接收模块、回退控制模块、配置文件原子化模块、配置文件生成模块、配置文件修复模块。
本发明实施例通过将配置文件按照指定方式或者维度进行原子化划分,在进行配置文件版本回退时,可将某个配置文件原子回退到指定的版本,其他正常配置文件原子不变,实现更灵活的回退。并通过配置文件自动修复功能,解决回退的配置文件原子不存在或者发生变更等问题,降低回退操作的服务影响,提高回退效率。
1)接收模块接收故障回退任务,并将回退任务发送给回退控制模块。
回退任务格式:
2)回退控制模块接收回退任务,并从配置文件原子化模块抓取配置文件原子,如果存在部分配置文件原子无法直接获取,则生成修复任务给配置文件修复模块,对配置文件原子进行修复,将修复后的原子文件发送给配置文件原子话模块;直到获取所有所需的配置文件原子为止;将配置文件原子发送给配置文件生成模块。
A.回退控制模块接受回退任务;
B.回退控制模块根据回退任务,并每隔一个时间周期向配置文件原子化模块请求配置文件原子,请求内容为“配置文件名称对应的配置文件中非故障相关的最新配置文件原子”和“配置文件名称对应的配置文件中故障相关的原子配置在故障时间前的版本内容”;如果可获取全部内容则将获取的配置文件原子发送给配置文件生成模块;如果无法获取,则生成修复任务,发送给配置文件修复模块,直到获取所有原子配置为止。
结合上述故障处理系统,本发明实施例还提供了一种故障修复方法,具体说明如下。
1)配置文件原子化:
将配置文件按照某一个或者多个维度拆分成各个配置文件原子
A.配置文件本身要支持原子化,配置文件设置时可以按照地区、域名、客户、url等信息进行划分;
B.可原子化的判定条件是,原子化后的配置文件原子可以独立加载后,服务对应的业务。
很多系统的配置文件具有部分模板化重复的特征,如包含列表的配置文件,列表中的每一条目格式均相同,条目涉及的参数项目(即维度)也相同,只是不同条目的参数值各不相同。每一条目或每组条目可完成对一项业务的配置,不同业务的配置数据实际上是相互独立的。
例如:
a)DNS配置,每个view+域名可以进行原子化配置。
b)http配置,每个url配置可以进行原子化配置。
c)正常情况下,使用最新的配置文件配置文件3进行服务(如图3所示,三个配置文件的新旧顺序为由新到旧:配置文件3、配置文件2、配置文件1)。
3)接收到回退任务,与故障无关的配置文件原子使用最新(即当前)版本,与故障相关的配置文件原子使用故障时间点前的配置文件版本,最终组得到修正后的配置文件新版本,进行服务。
如图3所示:假设故障为P1原子配置,故障发生在配置文件3操作后,需要回退到配置文件2。
A.P2、P3、P4使用配置文件3版本;
B.P1使用配置文件2版本;
C.合并形成回退版本,即:
P1’=P1(配置文件2)
P2’=P2(配置文件3)
P3’=P3(配置文件3)
P4’=P4(配置文件3)。
4)当故障相关的配置文件原子无法获取故障时间点前的配置文件版本,则进行配置文件自动修复。
A.获取与当前故障的配置文件原子内容相同且时间最早的配置文件版本,并提取故障相关的配置文件原子,以该配置文件版本的时间作为发生故障的时间点;
B.查询配置文件变更记录表,确认需要回退时间到时间最老的配置文件版本的操作记录。一般配置文件的备份版本个数是有限个,操作记录会记录所有内容,所以根据操作记录可以回溯出无备份版本的配置文件。
C.根据操作记录、服务日志逆向回退故障相关的原子配置,形成回退版本配置原子文件。
D.合并不涉及故障的配置文件原子和涉及故障的配置文件原子的回退版本形成修正后的配置文件版本,进行服务。
例如:
过往版本存在配置文件原子:
www.a.com A 1.1.1.1 2.2.2.2 3.3.3.3
新版本修改记录:
www.a.com对应配置文件原子的2.2.2.2替换成4.4.4.4
新版本存在配置文件原子:
www.a.com A 1.1.1.1 4.4.4.4 3.3.3.3
从新版本回溯成过往版本,可根据操作记录知晓需要将4.4.4.4替换成2.2.2.2,可以达到预设目标。
5)当故障相关的配置文件原子在故障时间点后,存在正常的操作,则进行配置文件自动修复。
A.获取故障时间点前配置文件,并提取故障相关的配置文件原子;
B.指定正常操作的配置文件版本;
C.根据提取的故障相关的故障时间点前的配置文件原子和对应正常操作版本的操作记录,生成出回退版本的配置文件原子。
下面结合附图,对本发明的实施例三进行说明。
1、向配置文件原子化模块获取的内容为“DNS配置文件非www.a.com的配置文件原子的最新数据”和“DNS配置文件中www.a.com的配置文件原子的20170612120000之前最后一个版本配置文件中的原子配置”;
2、接收配置文件原子中,标识配置文件原子是否完成的标识,如果完整则表示已经获取完全,若不完成,则给出缺失的原子内容;
如果完全,则在配置文件原子最后一行标识0:
例如:###1###
如果不完全,则在配置文件原子最后一行标识1,并给出缺失的原子配置信息。
例如:###1#www.a.com###
3、根据缺失原子内容信息和回退任务,生成恢复任务。
恢复任务格式:
c)配置文件修复模块,对无法直接获取的配置文件原子进行修复。
A.接收修复任务。
B.如果附加字段为NULL,则使用配置文件名称对应的时间最老的配置文件版本,并提取故障相关的原子配置;获取操作记录中对应的操作信息,回溯相应的回退配置文件原子;如果附加字段为版本号,则保留相应版本号的操作内容,进行回溯。(详见方法中具体操作)
C.将修复配置文件发送给配置文件原子化模板。
d)配置文件原子化模块接受修复配置文件,并存储所有版本的配置文件备份,并提供配置文件原子的查询功能。查询同时根据本地存储的配置文件备份和不同配置文件名称对应的配置文件原子列表,判定本地数据中,配置文件原子是否完全,并将判断结论添加到配置文件原子中。
e)配置文件生成模块使用配置文件原子合并生成回退配置文件,并下发。
下面结合附图,对本发明的实施例三进行说明。
本发明实施例提供了一种故障处理装置,其结构如图4所示,包括:
错误细化定位模块401,用于在发生业务故障时,定位当前配置文件中故障业务涉及的部分;
修正模块402,用于使用发生业务故障的时间点前的过往版本配置文件中相应的部分,替换所述当前配置文件中故障业务涉及的部分,生成修正后的配置文件。
优选的,该装置还包括:
文件粒度细化模块403,用于将配置文件按照一个或多个共同维度,拆分成多个配置文件原子,每个配置文件原子可以独立加载后提供服务,每个配置文件原子可被独立定位。
优选的,该装置还包括:
配置文件标准化模块404,用于按照标准格式生成配置文件,所述标准格式包含多个配置文件原子,各个配置文件原子均具有一个或多个共同维度,不同配置文件的所述共同维度的值不同。
优选的,所述错误细化定位模块401的结构如图5所示,包括:
故障范围分析单元501,用于在发生业务故障时,确定业务故障涉及的所述共同维度的取值范围;
故障部分定位单元502,用于定位所述共同维度的值落入所述取值范围的一个或多个配置文件原子。
优选的,所述修正模块402的结构如图6所示,包括:
时间点确定单元601,用于分别确定业务故障涉及的各个配置文件原子发生故障的时间点;
替换内容确定单元602,用于分别确定各个配置文件原子发生故障的时间点前的过往版本的配置文件中相应的部分;
修正文件生成单元603,用于分别使用各个配置文件原子发生故障的时间点前的过往版本的配置文件中的相应部分进行替换,生成修正后的配置文件。
优选的,所述替换内容确定单元602的结构如图7所示,包括:
备份提取子单元701,用于读取本地备份或其他实体上备份的所述过往版本的配置文件,提取所述过往版本的配置文件中与所述配置文件原子相应的部分;
记录回溯子单元702,用于获取生成时间距离所述发生故障的时间点最近的过往版本的配置文件的版本信息,查询配置文件变更记录表,确认所述过往版本的配置文件到目前的全部操作记录,根据所述操作记录,对所述配置文件原子逆向回退至与所述过往版本的配置文件一致。
本发明实施例提供的故障处理装置,可集成于专用的网络实体上,也可集成于配置平台、业务实体等已有实体之上。
本发明的实施例提供的故障处理装置,能够与本发明的实施例提供的故障处理方法相结合,在发生业务故障时,定位当前配置文件中故障业务涉及的部分,并使用发生业务故障的时间点前的过往版本配置文件中相应的部分,替换所述当前配置文件中故障业务涉及的部分,生成修正后的配置文件。相较于现有技术中的整个配置文件回退,本发明的实施例提供的技术方案只需要对故障涉及的配置文件中的部分内容进行回退处理,而不对故障未涉及的部分造成影响,在精确高效修复配置文件错误的同时,保证了其他业务依照最新的配置文件内容进行,保障了用户体验,解决了现有的配置文件异常处理方式处理效率低下、影响正常业务进行的问题。本发明的实施例提供的原子化配置文件的回退方式,将整个配置文件按照一个或多个维度分成N个配置文件原子,如果单个或多个配置文件原子发生配置错误,可以将错误的配置文件原子进行回退,其他正常配置文件原子保持不变,降低回退对正常服务的影响。此外,本发明的实施例还提供一种备份配置文件生成的方式,依据操作记录实现回退,规避无备份配置文件,无法进行回退的问题。本发明的实施例还提供一种根据回退配置文件内容和修改记录自动生成配置文件修复版本的方法,降低配置文件错误对服务的影响,提高300%配置文件修复的效率。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种故障处理方法,其特征在于,包括:
在发生业务故障时,定位当前配置文件中故障业务涉及的部分;
使用发生业务故障的时间点前的过往版本配置文件中相应的部分,替换所述当前配置文件中故障业务涉及的部分,生成修正后的配置文件。
2.根据权利要求1所述的故障处理方法,其特征在于,该方法还包括:
将配置文件按照一个或多个共同维度,拆分成多个配置文件原子,每个配置文件原子可以独立加载后提供服务,每个配置文件原子可被独立定位。
3.根据权利要求2所述的故障处理方法,其特征在于,该方法还包括:
按照标准格式生成配置文件,所述标准格式包含多个配置文件原子,各个配置文件原子均具有一个或多个共同维度,不同配置文件的所述共同维度的值不同。
4.根据权利要求2或3所述的故障处理方法,其特征在于,在发生业务故障时,定位当前配置文件中故障业务涉及的部分包括:
在发生业务故障时,确定业务故障涉及的所述共同维度的取值范围;
定位所述共同维度的值落入所述取值范围的一个或多个配置文件原子。
5.根据权利要求1所述的故障处理方法,其特征在于,使用发生故障的时间点前的过往版本配置文件中相应的部分,替换所述当前配置文件中发生错误的部分,生成修正后的配置文件的步骤包括:
分别确定业务故障涉及的各个配置文件原子发生故障的时间点;
分别确定各个配置文件原子发生故障的时间点前的过往版本的配置文件中相应的部分;
分别使用各个配置文件原子发生故障的时间点前的过往版本的配置文件中的相应部分进行替换,生成修正后的配置文件。
6.根据权利要求1所述的故障处理方法,其特征在于,在确定配置文件原子发生故障的时间点前的过往版本的配置文件中相应的部分时,通过以下方式中的任一完成:
方式一:读取本地备份或其他实体上备份的所述过往版本的配置文件,提取所述过往版本的配置文件中与所述配置文件原子相应的部分;
方式二:获取生成时间距离所述发生故障的时间点最近的过往版本的配置文件的版本信息,查询配置文件变更记录表,确认所述过往版本的配置文件到目前的全部操作记录,根据所述操作记录,对所述配置文件原子逆向回退至与所述过往版本的配置文件一致。
7.一种故障处理装置,其特征在于,包括:
错误细化定位模块,用于在发生业务故障时,定位当前配置文件中故障业务涉及的部分;
修正模块,用于使用发生业务故障的时间点前的过往版本配置文件中相应的部分,替换所述当前配置文件中故障业务涉及的部分,生成修正后的配置文件。
8.根据权利要求7所述的故障处理装置,其特征在于,该装置还包括:
文件粒度细化模块,用于将配置文件按照一个或多个共同维度,拆分成多个配置文件原子,每个配置文件原子可以独立加载后提供服务,每个配置文件原子可被独立定位。
9.根据权利要求8所述的故障处理装置,其特征在于,该装置还包括:
配置文件标准化模块,用于按照标准格式生成配置文件,所述标准格式包含多个配置文件原子,各个配置文件原子均具有一个或多个共同维度,不同配置文件的所述共同维度的值不同。
10.根据权利要求7-9任一所述的故障处理装置,其特征在于,所述错误细化定位模块包括:
故障范围分析单元,用于在发生业务故障时,确定业务故障涉及的所述共同维度的取值范围;
故障部分定位单元,用于定位所述共同维度的值落入所述取值范围的一个或多个配置文件原子。
11.根据权利要求7所述的故障处理装置,其特征在于,所述修正模块包括:
时间点确定单元,用于分别确定业务故障涉及的各个配置文件原子发生故障的时间点;
替换内容确定单元,用于分别确定各个配置文件原子发生故障的时间点前的过往版本的配置文件中相应的部分;
修正文件生成单元,用于分别使用各个配置文件原子发生故障的时间点前的过往版本的配置文件中的相应部分进行替换,生成修正后的配置文件。
12.根据权利要求11所述的故障处理方法,其特征在于,所述替换内容确定单元包括:
备份提取子单元,用于读取本地备份或其他实体上备份的所述过往版本的配置文件,提取所述过往版本的配置文件中与所述配置文件原子相应的部分;
记录回溯子单元,用于获取生成时间距离所述发生故障的时间点最近的过往版本的配置文件的版本信息,查询配置文件变更记录表,确认所述过往版本的配置文件到目前的全部操作记录,根据所述操作记录,对所述配置文件原子逆向回退至与所述过往版本的配置文件一致。
CN201710522844.6A 2017-06-30 2017-06-30 一种故障处理方法和装置 Active CN109218044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710522844.6A CN109218044B (zh) 2017-06-30 2017-06-30 一种故障处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710522844.6A CN109218044B (zh) 2017-06-30 2017-06-30 一种故障处理方法和装置

Publications (2)

Publication Number Publication Date
CN109218044A true CN109218044A (zh) 2019-01-15
CN109218044B CN109218044B (zh) 2021-07-13

Family

ID=64961049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710522844.6A Active CN109218044B (zh) 2017-06-30 2017-06-30 一种故障处理方法和装置

Country Status (1)

Country Link
CN (1) CN109218044B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933465A (zh) * 2019-03-12 2019-06-25 北京同城必应科技有限公司 异常处理方法、装置、服务器和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068158A (zh) * 2007-06-01 2007-11-07 华为技术有限公司 网络配置管理的方法和系统
CN101610449A (zh) * 2009-07-07 2009-12-23 中兴通讯股份有限公司 配置数据升级与回退的方法和系统
CN102541682A (zh) * 2010-12-31 2012-07-04 上海讯垒网络科技有限公司 嵌入式系统中程序异常快速自行恢复方法
CN103995721A (zh) * 2014-05-22 2014-08-20 广州金山网络科技有限公司 一种应用程序的升级方法、装置及系统
CN105487980A (zh) * 2015-12-04 2016-04-13 Tcl集团股份有限公司 修复应用程序运行异常的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068158A (zh) * 2007-06-01 2007-11-07 华为技术有限公司 网络配置管理的方法和系统
CN101610449A (zh) * 2009-07-07 2009-12-23 中兴通讯股份有限公司 配置数据升级与回退的方法和系统
CN102541682A (zh) * 2010-12-31 2012-07-04 上海讯垒网络科技有限公司 嵌入式系统中程序异常快速自行恢复方法
CN103995721A (zh) * 2014-05-22 2014-08-20 广州金山网络科技有限公司 一种应用程序的升级方法、装置及系统
CN105487980A (zh) * 2015-12-04 2016-04-13 Tcl集团股份有限公司 修复应用程序运行异常的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933465A (zh) * 2019-03-12 2019-06-25 北京同城必应科技有限公司 异常处理方法、装置、服务器和存储介质
CN109933465B (zh) * 2019-03-12 2021-12-10 北京同城必应科技有限公司 异常处理方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
CN109218044B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
US10592330B2 (en) Systems and methods for automatic replacement and repair of communications network devices
CN103699693B (zh) 一种基于元数据的数据质量管理方法及系统
US6845394B2 (en) Software delivery method with enhanced batch redistribution for use in a distributed computer network
CN102025778A (zh) 一种基于Shell的软件版本升级工作方法
US20030110248A1 (en) Automated service support of software distribution in a distributed computer network
CN102346709A (zh) 软件开发辅助方法及系统
CN102945195A (zh) 一种基于SQLite数据库的主备冗余复制方法
CN105117263B (zh) 一种unix环境软件系统升级方法
CN110515927B (zh) 数据处理方法及其系统、电子设备和介质
US7730029B2 (en) System and method of fault tolerant reconciliation for control card redundancy
CN109218044A (zh) 一种故障处理方法和装置
CN109921949A (zh) 一种灾备系统冗余机制的实现方法
CN108011783B (zh) 一种诊断服务器的备份方法和备份系统
CN107562435A (zh) 一种基于快照的批量升级方法和系统
CN110096226B (zh) 磁盘阵列部署方法和装置
CN102523620B (zh) 数据同步的方法、装置及系统
JP2009040199A (ja) 運行管理用フォルトトレラントシステム
CN110703985A (zh) 一种数据同步方法及带外管理设备
CN108933708B (zh) 一种分布式dns服务的多维度校验方法和系统
CN109522023A (zh) 适用轨道交通信号系统现场部署与回退的系统及方法
CN110928713B (zh) 一种数据库服务的故障修复方法、相关装置及存储介质
CN109428918B (zh) 域账号与域组之间映射关系的同步方法及装置
Zhu Reliability and availability analysis for large networking system
CN112000380A (zh) 一种网卡配置方法、系统、电子设备及存储介质
US20140032746A1 (en) Methods for managing network elements within a network environment and devices thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant