CN105119765A - 一种智能处理故障体系架构 - Google Patents

一种智能处理故障体系架构 Download PDF

Info

Publication number
CN105119765A
CN105119765A CN201510640484.0A CN201510640484A CN105119765A CN 105119765 A CN105119765 A CN 105119765A CN 201510640484 A CN201510640484 A CN 201510640484A CN 105119765 A CN105119765 A CN 105119765A
Authority
CN
China
Prior art keywords
fault
point
failure point
network
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510640484.0A
Other languages
English (en)
Other versions
CN105119765B (zh
Inventor
王恩东
胡雷钧
黄家明
林楷智
陈彦灵
吴安
石江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510640484.0A priority Critical patent/CN105119765B/zh
Publication of CN105119765A publication Critical patent/CN105119765A/zh
Application granted granted Critical
Publication of CN105119765B publication Critical patent/CN105119765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种智能处理故障体系架构,包括服务编排器、SDN控制器及故障修复模块,其中:SDN控制器,用于当检测到网络资源发生故障时,确定发生故障的网络资源为网络故障点,对网络故障点进行隔离;服务编排器,用于当检测到计算资源发生故障时,确定发生故障的计算资源为计算故障点,结合SDN控制器对计算故障点进行隔离;并用于当检测到存储资源发生故障时,确定发生故障的存储资源为存储故障点,结合SDN控制器对存储故障点进行隔离;故障修复模块,用于对网络故障点、计算故障点及存储故障点进行修复。由此,实现智能检测、隔离及修复发生故障的资源,无需人工介入,大大降低了人工成本,进一步降低了上述各项资源的维护成本。

Description

一种智能处理故障体系架构
技术领域
本发明涉及计算机云计算故障检测和处理技术领域,更具体地说,涉及一种智能处理故障体系架构。
背景技术
随着云计算的发展,对于计算资源、存储资源及网络资源的统一管理和编排变得越来越重要,而当资源发生故障时,对于故障资源的隔离及修复是对上述资源进行正常使用的基础。
现有技术中,当资源发生故障成为故障资源时,通常由工作人员对故障资源进行隔离以及后续的修复,可见,现有技术中对故障资源的隔离及修复均需要人工介入,人工成本较高,进一步导致上述资源的维护成本较高。
综上所述,现有技术中对于故障资源的处理中存在人工成本较高,进一步导致维护成本较高的问题。
发明内容
本发明的目的是提供一种智能处理故障体系架构,以解决现有技术中存在的人工成本较高,进一步导致维护成本较高的问题。
为了实现上述目的,本发明提供如下技术方案:
一种智能处理故障体系架构,包括服务编排器、SDN控制器及故障修复模块,其中:
所述SDN控制器,用于当检测到网络资源发生故障时,确定发生故障的网络资源为网络故障点,并对所述网络故障点进行隔离;
所述服务编排器,用于当检测到计算资源发生故障时,确定发生故障的计算资源为计算故障点,并结合所述SDN控制器对所述计算故障点进行隔离;以及用于当检测到存储资源发生故障时,确定发生故障的存储资源为存储故障点,并结合所述SDN控制器对所述存储故障点进行隔离;
所述故障修复模块,用于对所述网络故障点、所述计算故障点及所述存储故障点进行修复。
优选的,所述SDN控制器包括网络故障点隔离单元,所述网络故障点隔离单元用于动态配置虚拟网络及物理网络,所述虚拟网络及物理网络均不包括所述网络故障点。
优选的,所述服务编排器包括主计算故障点隔离单元及主存储故障点隔离单元,所述SDN控制器包括从计算故障点隔离单元及从存储故障点隔离单元,其中:
所述主计算故障点隔离单元,用于选取空闲的计算资源,并在所述从计算故障点隔离单元为所述空闲的计算资源动态配置虚拟网络及物理网络后,将所述计算故障点的业务转移至所述空闲的计算资源上;
所述主存储故障点隔离单元,用于选取空闲的存储资源,并在所述从存储故障点隔离单元为所述空闲的存储资源动态配置虚拟网络及物理网络后,将所述存储故障点的业务转移至所述空闲的存储资源上。
优选的,所述故障修复模块包括网络故障点修复单元,所述网络故障点修复单元用于将所述网络故障点、连接所述网络故障点及与该网络故障点对应的交换机之间的多级设备、与所述网络故障点对应的交换机依次进行重启,每次重启之前,判断待重启的设备的业务是否收到影响,如果是,则将待重启的设备的业务转移至其他设备上,再对所述待重启的设备进行重启;并且,每次重启之后,判断所述网络故障点的故障是否修复,如果是,则停止操作。
优选的,所述故障修复模块包括计算故障点修复单元,所述计算故障点修复单元用于将所述计算故障点重启,判断所述计算故障点是否修复,如果否,则再次将所述计算故障点重启,直至所述计算故障点的重启次数达到第一预设次数或者所述计算故障点修复为止;其中,所述第一预设次数的值大于或者等于1。
优选的,所述故障修复模块包括存储故障点修复单元,所述存储故障点修复单元用于将所述存储故障点进行格式化,判断所述存储故障点是否修复,如果否,则再次将所述存储故障点进行格式化,直至所述存储故障点的格式化次数达到第二预设次数或者所述存储故障点修复为止;其中,所述第二预设次数的值大于或者等于1。
优选的,所述格式化包括高级格式化及低级格式化。
优选的,还包括网络资源池、计算资源池及存储资源池,所述网络资源池用于存储修复的网络故障点,所述计算资源池用于存储修复的计算故障点,所述存储资源池用于存储修复的存储故障点。
优选的,所述服务编排器包括告警拦截单元,所述告警拦截单元用于拦截故障告警,并由所述故障告警中确定发生故障的资源。
优选的,还包括节能模块,所述节能模块用于将无法修复的资源设置成节能状态。
优选的,还包括记录模块,所述记录模块用于将无法修复的资源对应的标识进行记录,以在需要时根据记录的标识确定对应的无法修复的资源。
本发明提供的一种智能处理故障体系架构,包括服务编排器、SDN控制器及故障修复模块,其中:所述SDN控制器,用于当检测到网络资源发生故障时,确定发生故障的网络资源为网络故障点,并对所述网络故障点进行隔离;所述服务编排器,用于当检测到计算资源发生故障时,确定发生故障的计算资源为计算故障点,并结合所述SDN控制器对所述计算故障点进行隔离;以及用于当检测到存储资源发生故障时,确定发生故障的存储资源为存储故障点,并结合所述SDN控制器对所述存储故障点进行隔离;所述故障修复模块,用于对所述网络故障点、所述计算故障点及所述存储故障点进行修复。与现有技术相比,本发明提供的一种智能处理故障体系架构中,当网络资源发生故障时,由SDN控制器确定网络故障点并对网络故障点进行隔离;当计算资源或者存储资源发生故障时,由服务编排器确定计算故障点或者存储故障点,并结合SDN控制器对计算故障点或者存储故障点进行隔离;由故障修复模块对发生故障的资源进行修复。由此,实现智能检测、隔离及修复发生故障的资源,无需人工介入,大大降低了人工成本,进一步降低了对于上述各项资源的维护成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种智能处理故障体系架构的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种智能处理故障体系架构的结构示意图,可以包括服务编排器12、SDN控制器11及故障修复模块13,其中:
SDN控制器11,用于当检测到网络资源发生故障时,确定发生故障的网络资源为网络故障点,并对网络故障点进行隔离;
服务编排器12,用于当检测到计算资源发生故障时,确定发生故障的计算资源为计算故障点,并结合SDN控制器对计算故障点进行隔离;以及用于当检测到存储资源发生故障时,确定发生故障的存储资源为存储故障点,并结合SDN控制器对存储故障点进行隔离;
故障修复模块13,用于对网络故障点、计算故障点及存储故障点进行修复。
需要说明的是,对于网络故障点的检测及隔离需要利用SDN控制器基于SDN技术完成,其中,SDN(SoftwareDefinedNetwork,,软件定义网络)是一种新型网络创新架构,是网络虚拟化的一种实现方式,其核心技术,即SDN技术通过将网络设备控制面与数据面分离开来,从而控制权的管理无需依赖底层网络设备,屏蔽了来自底层网络设备的差异,而用户可以自定义任何希望实现的网络路由和传输规则策略,从而更加灵活和智能。SDN控制器即为与SDN技术相对应的控制器,通过SDN控制器能够使得用户根据需要通过编程等方式实现控制权的管理。因此,本发明中使用SDN控制器实现上述相关功能能够根据用户需要进行具体设定,灵活而智能。具体而言,用户可根据需要检测网络资源故障以及处理网络资源故障,也能根据需要对计算资源故障和存储资源故障进行相应处理,提高了用户体验。
另外,本发明提供的一种智能处理故障体系架构中,除了上述用于智能处理故障的SDN控制器、服务编排器及故障修复模块,基础的组件一般包括至少一个服务器及至少一个网络设备(如以太网交换机),其中,服务器一般会有不止一条链路上行到接入的网络设备;而接入到服务器的网络设备一般会有不止一条链路接入到其上联的网络设备,这些网络设备可以是盒式设备或机架式设备,如果是机架式设备,则会有多个业务板提供多个网络接口用于连接服务器或互联。
而发明实施例中的存储资源可以做为服务器的硬盘通过服务器的上行链路连接,也可以是独立的存储服务器,进而通过多条链路接入网络设备。
本发明实施例提供的一种智能处理故障体系架构中,当网络资源发生故障时,由SDN控制器确定网络故障点并对网络故障点进行隔离;当计算资源或者存储资源发生故障时,由服务编排器确定计算故障点或者存储故障点,并结合SDN控制器对计算故障点或者存储故障点进行隔离;由故障修复模块对发生故障的资源进行修复。由此,实现智能检测、隔离及修复发生故障的资源,无需人工介入,大大降低了人工成本,进一步降低了对于上述各项资源的维护成本。
并且,由于首先对故障资源进行隔离,进一步进行自动修复,因此,即使故障资源最终无法修复,也只会导致相应资源的减少,整个架构是一直可用的,并且在故障资源积攒过多时,可发出告警,以由工作人员统一时间进行干预(通常为对故障资源进行更换或者维修),这样在不影响架构可用性的基础上大大降低了维护成本。
而对于修复的故障资源,可将其放入对应的资源池,以在需要时对其重新使用,保证了各项资源的正常供应,具体来说,本发明实施例提供的一种智能处理故障体系架构,还可以包括网络资源池、计算资源池及存储资源池,网络资源池用于存储修复的网络故障点,计算资源池用于存储修复的计算故障点,存储资源池用于存储修复的存储故障点。由此,在对修复的故障资源进行存放的同时为其分类,以在需要使用某种资源时可直接由于该资源对应的资源池中调取资源,方便快捷。
另外,对于无法修复的故障资源,为了节省电能等,也为了避免无法修复的故障资源影响整个架构的运行,可以将其设置成节能状态,具体来说,本发明实施例提供的一种智能处理故障体系架构,还可以包括节能模块,节能模块用于将无法修复的资源设置成节能状态。同时,为了在人工统一时间对无法修复的资源进行干预时,能够快速准确的获知无法修复的资源,并且,在后期需要新的资源时可快速准确的获知哪些资源是无法修复的不可用的资源等,可以将无法修复的资源对应的标识进行记录,以通过记录的标识快速准确的确定无法修复的资源,具体来说,本发明实施例提供的一种智能处理故障体系架构,还可以包括记录模块,记录模块用于将无法修复的资源对应的标识进行记录,以在需要时根据记录的标识确定对应的无法修复的资源。由此,通过节能模块及记录模块,不仅能够节省能源,避免无法修复的故障资源影响整个架构的运行,还能够通过记录的与无法修复的故障资源对应的标识,直观判断出故障资源所在,以在后期需要新的资源时无需再判断无法修复的故障资源是否可用,也能够在人工统一时间干预时能够直观获知应被干预的资源,因此,提高了架构性能。
上述实施例提供的一种智能处理故障体系架构中,对于不同故障资源的隔离应采用不同的方式,即不同的故障资源应具有与该故障资源的特点对应的隔离方式,具体来说:
SDN控制器可以包括网络故障点隔离单元,网络故障点隔离单元用于动态配置虚拟网络及物理网络,虚拟网络及物理网络均不包括网络故障点。
即,在对网络故障点进行隔离时,需要SDN控制器中的网络故障点隔离单元绕开网络故障点动态配置物理网络和虚拟网络,以使得其他网络资源能够正常运行。其中,网络故障通常为网络不通,动态配置物理网络和虚拟网络实际为重新配置网络路径,以绕开网络故障点。如,原物理网络或者虚拟网络中有一条网络线路为:A-B-C,而B点发生故障,成为网络故障点,这样,上述网络线路则会在B点处断开,此时,绕开B点动态配置物理网络和虚拟网络,是为了使正常运行的A点和C点间仍能正常通信,此时,能够A点和C点间正常通信的线路有可能是:A-D-C,也可能是:A-E-F-C,当然也可以是其他能够实现A点和C点间进行通信的线路。总之,动态配置物理网络和虚拟网络是为了使其他网络资源能够正常运行。
服务编排器可以包括主计算故障点隔离单元及主存储故障点隔离单元,SDN控制器可以包括从计算故障点隔离单元及从存储故障点隔离单元,其中:
主计算故障点隔离单元,用于选取空闲的计算资源,并在从计算故障点隔离单元为空闲的计算资源动态配置虚拟网络及物理网络后,将计算故障点的业务转移至空闲的计算资源上;
主存储故障点隔离单元,用于选取空闲的存储资源,并在从存储故障点隔离单元为空闲的存储资源动态配置虚拟网络及物理网络后,将存储故障点的业务转移至空闲的存储资源上。
可见,在计算资源或者存储资源发生故障时,需要由服务编排器中的相关单元选取新的计算资源或者存储资源,而新的计算资源或者存储资源可以是空闲资源,即未进行任何业务的资源,也可以是网络中其他正常运行的资源,而如果是空闲资源,则需要由SDN控制器中的相关单元为空闲资源动态配置虚拟网络和物理网络,再将计算故障点或者存储故障点的业务转移至空闲资源上,以保证其在网络中的正常运行。而新的计算资源或者存储资源如果是网络中其他正常运行的资源,由于其已在网络中,因此,无需为其配置虚拟网络和物理网络,只需直接将计算故障点或者存储故障点的业务转移至其他正常运行的资源上即可。另外,可以是将计算故障点或者存储故障点的业务转移至一个新的资源上,也可以是按比例或者其他方案分配至多个新的资源上,具体均可根据实际需要进行确定,在此不再赘述。
其中,计算资源发生故障可以是CPU告警、内存告警或服务器其它告警(如温度过高告警)等,而存储资源发生故障为存储资源告警,无法正常完成存储及读写工作等,当存储资源为硬盘时,存储资源发生故障可以是硬盘告警。
另外,对于存储资源或者计算资源发生故障是由服务编排器确定的,具体来说,服务编排器可以包括告警拦截单元,告警拦截单元用于拦截故障告警,并由故障告警中确定发生故障的资源。告警拦截单元通过拦截故障告警,由故障告警中确定发生故障的资源,包括确定其是计算资源或者存储资源,以及发生故障的资源的位置等信息,最终确定计算故障点或者存储故障点。
根据不同资源的特点,对发生故障的资源进行隔离,能够有效的完成对于故障资源的隔离,避免故障资源对整个架构的正常运行造成影响,提高了整个架构的可靠性及安全性。
上述实施例提供的一种智能处理故障体系架构中,对于不同故障资源的修复应采用不同的方式,即不同的故障资源应具有与该故障资源的特点对应的修复方式,具体来说:
故障修复模块可以包括网络故障点修复单元,网络故障点修复单元用于将网络故障点、连接网络故障点及与该网络故障点对应的交换机之间的多级设备、与网络故障点对应的交换机依次进行重启,每次重启之前,判断待重启的设备的业务是否收到影响,如果是,则将待重启的设备的业务转移至其他设备上,再对待重启的设备进行重启;并且,每次重启之后,判断网络故障点的故障是否修复,如果是,则停止操作。
其中,将网络故障点、连接网络故障点及与该网络故障点对应的交换机之间的多级设备、与网络故障点对应的交换机依次进行重启是按照由局部至全局逐步重启的方法,例如,网络故障点为服务器网卡,则上述重启的设备顺序应依次为:服务器网卡、服务器、与服务器连接的交换机端口、交换机单板及交换机。
而每次重启之前,判断待重启的设备的业务是否收到影响,如果是,则将待重启的设备的业务转移至其他设备上,再对待重启的设备进行重启,如果否,则直接对待重启的设备进行重启,由此,能够避免对网络故障点的修复影响其他设备上业务的正常运行。其中,将待重启设备的业务转移至其他设备上,与上文中由SDN控制器绕开网络故障点动态配置物理网络及虚拟网络的实质是一样的,区别仅仅在于,此处为由SDN控制器绕开待重启的设备动态配置物理网络及虚拟网络。另外,每次重启之后,判断网络故障点的故障是否修复,如果是,则停止操作,即停止重启下一设备,如果否,则继续重启待重启的下一设备。
举例说明上述修复方式,如网络故障点为服务器网卡,则网络故障点修复单元完成的工作应为:重启服务器网卡,判断网络故障点是否修复,如果是,则停止操作,如果否,则将服务器网卡对应的服务器的业务转移至其他设备,重启服务器,判断网络故障点是否修复,如果是,则停止操作,如果否,则重启服务器对应的交换机端口,判断网络故障点是否修复,如果是,则停止操作,如果否,则将交换机单板的业务转移至其他设备,重启交换机单板,判断网络故障点是否修复,如果是,则停止操作,如果否,则将交换机的业务转移至其他设备,判断网络故障点是否修复,如果是,则停止操作,如果否,则证明该网络故障点无法修复。其中,将交换机单板及交换机的业务转移至其他设备实则迁走交换机单板及交换机的网络流量。
故障修复模块可以包括计算故障点修复单元,计算故障点修复单元用于将计算故障点重启,判断计算故障点是否修复,如果否,则再次将计算故障点重启,直至计算故障点的重启次数达到第一预设次数或者计算故障点修复为止;其中,第一预设次数的值大于或者等于1。
其中,对于计算故障点的修复再重启之前还可以将其休眠一段时间,即,每次重启前均将计算故障点先休眠一段时间再进行重启,而休眠的具体时间可根据实际需要进行确定。而在对计算故障点进行休眠之后,可以先判断计算故障点是否修复,可以是查看与计算故障点对应的故障告警是否消除,如果是,则停止操作,如果否,再将计算故障点重启,判断计算故障点是否修复,如果是,则停止操作,如果否,则将其进行休眠,再判断计算故障点是否修复。依次类推,直至计算故障点的重启次数达到第一预设次数或者计算故障点修复为止,其中,第一预设次数的值大于或者等于1,具体可以根据实际需要进行确定。
故障修复模块可以包括存储故障点修复单元,存储故障点修复单元用于将存储故障点进行格式化,判断存储故障点是否修复,如果否,则再次将存储故障点进行格式化,直至存储故障点的格式化次数达到第二预设次数或者存储故障点修复为止;其中,第二预设次数的值大于或者等于1。
其中,对于存储故障点的格式化可以包括高级格式化及低级格式化,其中,高级格式化又称逻辑格式化、普通格式化,它是指根据用户选定的文件系统,在磁盘的特定区域写入特定数据,以达到初始化磁盘或磁盘分区、清除原磁盘或磁盘分区中所有文件的一个操作。低级格式化是将空白的磁盘划分出柱面和磁道,再将磁道划分为若干个扇区,每个扇区又划分出标识部分ID、间隔区GAP和数据区DATA等。本发明中,高级格式化及低级格式化对应的磁盘即为存储资源。具体可以是:先对存储故障点进行高级格式化,判断存储故障点是否修复,如果是,则停止操作,如果否,则对存储故障点进行低级格式化,判断存储故障点是否修复,如果是,则停止操作,如果否,则对存储故障点继续进行低级格式化,直至存储故障点的格式化次数达到第二预设次数或者存储故障点修复为止。其中,第二预设次数的值大于或者等于1,其具体数据可根据实际需要进行确定,通常为1。而判断存储故障点是否修复,可以是通过向其写入数据和读取其中数据的操作来实现的,如果存储故障点能够正常读写数据,说明其已修复,否则,则未被修复。
根据不同资源的特点,对发生故障的资源进行修复,能够有效快速的完成对于故障资源的修复,同时,避免影响其他正常运行的资源,即在不影响其他正常运行的资源的同时尝试系统修复,完善了本发明实施例提供的一种智能处理故障体系架构的功能,大大降低了其维护成本。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种智能处理故障体系架构,其特征在于,包括服务编排器、SDN控制器及故障修复模块,其中:
所述SDN控制器,用于当检测到网络资源发生故障时,确定发生故障的网络资源为网络故障点,并对所述网络故障点进行隔离;
所述服务编排器,用于当检测到计算资源发生故障时,确定发生故障的计算资源为计算故障点,并结合所述SDN控制器对所述计算故障点进行隔离;以及用于当检测到存储资源发生故障时,确定发生故障的存储资源为存储故障点,并结合所述SDN控制器对所述存储故障点进行隔离;
所述故障修复模块,用于对所述网络故障点、所述计算故障点及所述存储故障点进行修复。
2.根据权利要求1所述的智能处理故障体系架构,其特征在于,所述SDN控制器包括网络故障点隔离单元,所述网络故障点隔离单元用于动态配置虚拟网络及物理网络,所述虚拟网络及物理网络均不包括所述网络故障点。
3.根据权利要求2所述的智能处理故障体系架构,其特征在于,所述服务编排器包括主计算故障点隔离单元及主存储故障点隔离单元,所述SDN控制器包括从计算故障点隔离单元及从存储故障点隔离单元,其中:
所述主计算故障点隔离单元,用于选取空闲的计算资源,并在所述从计算故障点隔离单元为所述空闲的计算资源动态配置虚拟网络及物理网络后,将所述计算故障点的业务转移至所述空闲的计算资源上;
所述主存储故障点隔离单元,用于选取空闲的存储资源,并在所述从存储故障点隔离单元为所述空闲的存储资源动态配置虚拟网络及物理网络后,将所述存储故障点的业务转移至所述空闲的存储资源上。
4.根据权利要求1所述的智能处理故障体系架构,其特征在于,所述故障修复模块包括网络故障点修复单元,所述网络故障点修复单元用于将所述网络故障点、连接所述网络故障点及与该网络故障点对应的交换机之间的多级设备、与所述网络故障点对应的交换机依次进行重启,每次重启之前,判断待重启的设备的业务是否收到影响,如果是,则将待重启的设备的业务转移至其他设备上,再对所述待重启的设备进行重启;并且,每次重启之后,判断所述网络故障点的故障是否修复,如果是,则停止操作。
5.根据权利要求4所述的智能处理故障体系架构,其特征在于,所述故障修复模块包括计算故障点修复单元,所述计算故障点修复单元用于将所述计算故障点重启,判断所述计算故障点是否修复,如果否,则再次将所述计算故障点重启,直至所述计算故障点的重启次数达到第一预设次数或者所述计算故障点修复为止;其中,所述第一预设次数的值大于或者等于1。
6.根据权利要求5所述的智能处理故障体系架构,其特征在于,所述故障修复模块包括存储故障点修复单元,所述存储故障点修复单元用于将所述存储故障点进行格式化,判断所述存储故障点是否修复,如果否,则再次将所述存储故障点进行格式化,直至所述存储故障点的格式化次数达到第二预设次数或者所述存储故障点修复为止;其中,所述第二预设次数的值大于或者等于1。
7.根据权利要求6所述的智能处理故障体系架构,其特征在于,所述格式化包括高级格式化及低级格式化。
8.根据权利要求1所述的智能处理故障体系架构,其特征在于,还包括网络资源池、计算资源池及存储资源池,所述网络资源池用于存储修复的网络故障点,所述计算资源池用于存储修复的计算故障点,所述存储资源池用于存储修复的存储故障点。
9.根据权利要求1所述的智能处理故障体系架构,其特征在于,所述服务编排器包括告警拦截单元,所述告警拦截单元用于拦截故障告警,并由所述故障告警中确定发生故障的资源。
10.根据权利要求1至9任一项所述的智能处理故障体系架构,其特征在于,还包括节能模块,所述节能模块用于将无法修复的资源设置成节能状态。
11.根据权利要求10所述的智能处理故障体系架构,其特征在于,还包括记录模块,所述记录模块用于将无法修复的资源对应的标识进行记录,以在需要时根据记录的标识确定对应的无法修复的资源。
CN201510640484.0A 2015-09-30 2015-09-30 一种智能处理故障体系架构 Active CN105119765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510640484.0A CN105119765B (zh) 2015-09-30 2015-09-30 一种智能处理故障体系架构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510640484.0A CN105119765B (zh) 2015-09-30 2015-09-30 一种智能处理故障体系架构

Publications (2)

Publication Number Publication Date
CN105119765A true CN105119765A (zh) 2015-12-02
CN105119765B CN105119765B (zh) 2018-06-29

Family

ID=54667663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510640484.0A Active CN105119765B (zh) 2015-09-30 2015-09-30 一种智能处理故障体系架构

Country Status (1)

Country Link
CN (1) CN105119765B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161109A (zh) * 2016-08-30 2016-11-23 西安诺瓦电子科技有限公司 网络异常自恢复方法
CN107291591A (zh) * 2017-06-14 2017-10-24 郑州云海信息技术有限公司 一种存储故障修复方法及装置
CN112187571A (zh) * 2020-09-16 2021-01-05 苏州浪潮智能科技有限公司 一种基于x86虚拟化环境下的虚拟网络故障检测方法及装置
CN115865644A (zh) * 2022-11-09 2023-03-28 浪潮通信信息系统有限公司 业务故障处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030191992A1 (en) * 2002-04-05 2003-10-09 International Business Machines Corporation Distributed fault detection for data storage networks
CN103095533A (zh) * 2013-02-22 2013-05-08 浪潮电子信息产业股份有限公司 一种云计算系统平台中的定时监控方法
CN103167004A (zh) * 2011-12-15 2013-06-19 中国移动通信集团上海有限公司 云平台主机系统故障修复方法及云平台前端控制服务器
CN103929333A (zh) * 2014-05-08 2014-07-16 陈桂芳 一种sdn控制器资源池的实现方法
CN103986625A (zh) * 2014-05-29 2014-08-13 中国科学院软件研究所 一种基于统计监测的云应用故障诊断系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030191992A1 (en) * 2002-04-05 2003-10-09 International Business Machines Corporation Distributed fault detection for data storage networks
CN103167004A (zh) * 2011-12-15 2013-06-19 中国移动通信集团上海有限公司 云平台主机系统故障修复方法及云平台前端控制服务器
CN103095533A (zh) * 2013-02-22 2013-05-08 浪潮电子信息产业股份有限公司 一种云计算系统平台中的定时监控方法
CN103929333A (zh) * 2014-05-08 2014-07-16 陈桂芳 一种sdn控制器资源池的实现方法
CN103986625A (zh) * 2014-05-29 2014-08-13 中国科学院软件研究所 一种基于统计监测的云应用故障诊断系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161109A (zh) * 2016-08-30 2016-11-23 西安诺瓦电子科技有限公司 网络异常自恢复方法
CN107291591A (zh) * 2017-06-14 2017-10-24 郑州云海信息技术有限公司 一种存储故障修复方法及装置
CN112187571A (zh) * 2020-09-16 2021-01-05 苏州浪潮智能科技有限公司 一种基于x86虚拟化环境下的虚拟网络故障检测方法及装置
CN112187571B (zh) * 2020-09-16 2022-12-20 苏州浪潮智能科技有限公司 一种基于x86虚拟化环境下的虚拟网络故障检测方法及装置
CN115865644A (zh) * 2022-11-09 2023-03-28 浪潮通信信息系统有限公司 业务故障处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN105119765B (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN103189847B (zh) 用于操作数据处理系统的方法和装置
CN100517246C (zh) 一种计算机远程控制方法及系统
CN106557145A (zh) 断电保护系统及其方法
CN103488498A (zh) 一种计算机启动方法及计算机
CN105119765A (zh) 一种智能处理故障体系架构
CN104170323A (zh) 基于网络功能虚拟化的故障处理方法及装置、系统
CN109358893A (zh) 一种fpga程序的在线升级方法、装置及系统
US8793514B2 (en) Server systems having segregated power circuits for high availability applications
US9208039B2 (en) System and method for detecting server removal from a cluster to enable fast failover of storage
US8732356B2 (en) Storage system, and access path state update method
CN105577447A (zh) 一种通信设备机电管理总线故障节点的定位及隔离方法
CN103559124A (zh) 故障快速检测方法及装置
CN105335256A (zh) 在整机柜服务器中切换备份磁盘的方法、装置和系统
CN110737924B (zh) 一种数据保护的方法和设备
CN108255576A (zh) 虚拟机热迁移异常处理方法、装置和存储介质
CN105573872B (zh) 数据存储系统的硬盘维护方法和装置
CN103577284B (zh) 非透明桥芯片的异常检测与恢复方法
CN105426268A (zh) 一种防止继电保护装置断电时文件系统损坏的方法
CN111988169B (zh) 一种云平台异常磁盘清理修复的方法、系统、设备及介质
CN100568204C (zh) 增加输入输出抽屉的可用性的系统和方法
CN116074180A (zh) 故障定位方法、故障修复方法、装置及存储介质
CN106708445A (zh) 链路选择方法及装置
CN104020963A (zh) 一种防止误判硬盘读写错误的方法和装置
CN106534262A (zh) 一种网络信息系统故障的切换方法
CN115454958B (zh) 基于人工智能的数据处理方法、装置、设备、系统及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant