网络存储设备的故障保护方法及装置
技术领域
本发明涉及网络存储技术,尤其指一种网络存储设备的故障保护方法及装置。
背景技术
随着信息技术的飞速发展,需要处理的数据量不断增加,造成对存储系统容量和性能的巨大需求。与传统的分散独立存储相比,网络存储可以提供共享的信息存取服务,并具有超大的容量及稳定的性能,因此成为存储系统的发展趋势。SAN(Storage Aera Network,存储区域网络)是一种通过网络方式连接存储设备和应用服务器的存储架构,而数据在有存取需求时可以通过SAN在服务器和网络存储设备之间进行高速传输。
图1为现有技术中SAN存储架构的应用示意图,包括应用服务器110、网络存储设备120及网络连接设备130。其中,网络存储设备120为SAN存储架构提供存储空间,使用磁盘阵列和RAID(Redundant Array of IndependentDisk,独立冗余磁盘阵列)策略为数据提供安全保护措施;应用服务器110通过网络连接设备130将数据集中存储到网络存储设备120中;而网络连接设备130则包括交换机和介质连接线等。在上述的存储架构中,网络存储设备故障将导致新数据无法继续存储,因此在SAN存储架构的应用中要求能够及时检测到设备故障,并尽快使用新的存储设备更换,重新完成存储资源和访问配置,以保证数据的正常存储。
为解决上述问题,现有技术中当管理员发现某网络存储设备故障后,通过存储设备提供的图形界面或命令行接口,在新存储设备上逐一创建存储资源和访问配置,并在应用服务器侧逐一更新相应的访问配置,恢复数据存储。上述方案的缺陷在于,故障发生后所有的存储资源和访问配置均需要人工完成,配置工作量较大,且较容易出现错误;另外,人工不能及时发现网络存储设备故障,并且配置将消耗大量时间导致故障恢复期较长,可能导致大量数据的丢失。
发明内容
本发明的目的是提供一种网络存储设备的故障保护方法及装置,以解决现有技术中由人工处理网络存储设备故障带来工作量大、错误率高、消耗时间长及数据容易丢失的问题。
为达到上述目的,本发明提出一种网络存储设备的故障保护方法,应用于存储区域网络SAN系统,在所述SAN系统添加设备管理装置,所述方法包括:
所述设备管理装置在网络存储设备上创建存储并记录资源及访问配置,建立应用服务器与所述网络存储设备的SAN连接;
所述设备管理装置检测所述网络存储设备是否发生故障,如果是则根据所述记录的存储资源及访问配置对所述发生故障的网络存储设备进行更换。
所述对发生故障的网络存储设备进行更换进一步包括:
所述设备管理装置通过查询获取所述发生故障的网络存储设备的存储资源及访问配置信息;
所述设备管理装置根据所述查询得到的信息在备用网络存储设备上创建对应的存储资源及访问配置,并更新记录;
建立所述应用服务器与所述备用网络存储设备的SAN连接。
所述在备用网络存储设备创建对应的存储资源及访问配置与所述建立应用服务器与备用网络存储设备的SAN连接之间还包括:
所述设备管理装置将所述访问配置发送至所述应用服务器。
所述设备管理装置创建并记录存储资源及访问配置之前还包括:
所述应用服务器向所述设备管理装置发送存储资源请求消息,所述存储资源请求消息中携带应用服务器的设备标识;
所述设备管理装置根据所述设备标识判断是否已经为所述应用服务器分配存储资源,如果是则将对应的访问配置发送至所述应用服务器;否则
进行所述在网络存储设备创建并记录存储资源及访问配置,然后将创建的访问配置发送至所述应用服务器。
所述建立应用服务器与网络存储设备或备用网络存储设备的SAN连接进一步包括:
所述应用服务器根据所述访问配置建立与所述网络存储设备的SAN连接,或根据所述更换网络存储设备后创建的访问配置建立与所述备用网络存储设备的SAN连接。
所述检测网络存储设备是否发生故障与所述对发生故障的网络存储设备进行更换之间还包括:
所述设备管理装置检测所述SAN系统中是否存在备用网络存储设备,如果没有则发出告警信息;否则进行所述对发生故障的网络存储设备的更换。
所述设备管理装置检测网络存储设备是否发生故障进一步包括:
所述设备管理装置使用所述记录的存储资源及访问信息,根据预设周期访问所述网络存储设备的存储资源;
判断所述访问存储资源是否失败,如果是则记录所述存储资源为故障状态;
判断所述网络存储设备的所有或超过预设比例的存储资源是否均为故障状态,如果是则确定所述网络存储设备发生故障。
所述设备管理装置检测网络存储设备是否发生故障进一步包括:
所述应用服务器检测所述网络存储设备的数据存取是否正常,如果否则向所述设备管理装置发送故障信息;
所述设备管理装置收到所述故障信息后,记录所述应用服务器对应的所述存储资源为故障状态;
判断所述网络存储设备的所有或超过预设比例的存储资源是否均为故障状态,如果是则确定所述网络存储设备发生故障。
所述设备管理装置检测网络存储设备是否发生故障进一步包括:
所述设备管理装置根据预设周期检测所述网络存储设备的网络连接是否正常;
如果连续超过预定次数检测到所述网络存储设备的网络连接不正常,则确定所述网络存储设备发生故障。
本发明还提出一种设备管理装置,应用于SAN系统,包括连接建立单元、故障检测单元及设备更换单元,
所述连接建立单元,用于在网络存储设备上创建并记录存储资源及访问配置,建立应用服务器与所述网络存储设备的SAN连接;
所述故障检测单元,检测所述网络存储设备是否发生故障;
所述设备更换单元,与所述故障检测单元连接,用于根据所述记录的存储资源及访问配置对发生故障的网络存储设备进行更换。
所述设备更换单元与所述连接建立单元连接,并进一步包括配置查询子单元及更换通知子单元,
所述配置查询子单元,通过查询所述连接建立单元获取发生故障的网络存储设备的存储资源及访问配置信息;
所述更换通知子单元,将所述配置查询子单元的查询结果发送至所述连接建立单元;
则所述连接建立单元,根据所述查询结果在备用网络存储设备创建对应的存储资源及访问配置并更新记录,建立应用服务器与所述备用网络存储设备的SAN连接。
所述连接建立单元进一步包括连接配置子单元、配置记录子单元及配置发送子单元,
所述连接配置子单元,用于在网络存储设备上创建存储资源及访问配置;
所述配置记录子单元,用于对所述连接配置子单元创建的存储资源及访问配置进行记录;
所述配置发送子单元,用于将所述访问配置发送至所述应用服务器,供所述应用服务器建立与所述网络存储设备或备用网络存储设备的SAN连接。
所述故障检测单元进一步包括设备检测子单元和/或服务器检测子单元和/或网络检测子单元,
所述设备检测子单元,与所述连接建立单元连接,用于根据预设的第一周期访问所述网络存储设备的存储资源,并在检测到所有或超过预设第一比例的存储资源访问失败时,确定所述网络存储设备发生故障;
所述服务器检测子单元,与所述应用服务器连接,在收到所述应用服务器访问存储资源失败的消息后,记录所述存储资源为故障状态,并在所有或超过预设第二比例的存储资源访问失败时,确定所述网络存储设备发生故障;
所述网络检测子单元,根据预设的第二周期检测所述网络存储设备的网络连接是否正常,并在连续超过预定次数检测到所述网络存储设备的网络连接不正常时,确定所述网络存储设备发生故障。
还包括备用设备检测单元,与所述故障检测单元及设备更换单元连接,
所述备用设备检测单元,在所述故障检测单元检测到所述网络存储设备发生故障时,检测所述SAN系统中是否存在备用网络存储设备,如果没有则发出告警信息,否则通知所述设备更换单元对发生故障的所述网络存储设备进行更换。
与现有技术相比,本发明网络存储设备的故障保护方法及装置,通过在SAN系统中添加设备管理装置及备用网络存储设备,可实现网络存储设备故障的及时发现及设备的自动更换,减少管理员的工作量,降低出错概率,并缩短故障恢复的耗时,减少故障期间数据的丢失,保证数据正常存取的及时恢复。
附图说明
图1为现有技术中SAN存储架构的应用示意图;
图2为本发明网络存储设备的故障保护方法实施例一流程图;
图3为本发明网络存储设备的故障保护方法实施例二流程图;
图4为本发明网络存储设备的故障保护装置实施例图。
具体实施方式
下面以具体实施例结合附图对本发明进一步加以阐述。
本发明公开一种网络存储设备的故障保护方法,其一实施例如图2所示,包括以下步骤:
S201、在SAN系统中添加设备管理装置及备用网络存储设备。
为避免现有技术中由人工处理网络存储设备故障的工作量大、错误率高、耗时长及数据容易丢失等问题,本发明网络存储设备的故障保护方法实施例一,在SAN系统中添加设备管理装置及备用网络存储设备,由设备管理装置对应用服务器至网络存储设备间的SAN连接进行维护,同时对网络存储设备的故障状态进行监视,以实现网络存储设备故障的自动处理。其中,上述的设备管理装置可以是单独的一台服务器,也可以由运行在原有SAN系统设备中的一个服务进程虚拟实现装置的功能。
S202、设备管理装置在网络存储设备上创建并记录存储资源及访问配置,建立应用服务器与网络存储设备的SAN连接。
在SAN系统中添加设备管理装置后,由其负责创建存储资源及访问配置,协助应用服务器建立到网络存储设备的数据存储通道SAN连接。同时设备管理装置还应对创建的存储资源及访问配置进行记录,以实现发生故障时网络存储设备的更换。
S203、设备管理装置对网络存储设备的状态进行周期性检测,判断是否发生故障,如果是则转步骤S204。
应用服务器与网络存储设备的数据存储通道建立后,设备管理装置需对网络存储设备的数据存储情况进行监视,以检测是否发生故障。可由几种方式实现:a、设备管理装置通过周期性地巡检大量分布在不同网络存储设备上的存储资源发现故障;b、设备管理装置通过监听应用服务器的存取告警消息发现故障;c、设备管理服务器通过周期性地检测网络存储设备的网络连接状况发现故障。上述三种方式的具体实现将在后续本发明实施例二中加以详述。
S204、设备管理装置根据记录的存储资源及访问配置进行备用网络存储设备的更换。
设备管理装置通过周期性地检测网络存储设备的状态,判断某个网络存储设备发生故障后,即自动进行设备更换。设备管理装置首先通过查询记录获取发生故障的网络存储设备的存储资源和访问配置情况,再进一步根据查询到的结果在备用网络存储设备上创建对应的存储资源和访问配置,并更新应用服务器侧的访问配置,实现在较短时间内恢复数据的正常存储。同时,设备管理装置对记录的存储资源及访问配置也进行更新。
图3为本发明网络存储设备的故障保护方法实施例二流程图,如图所示,本实施例包括以下步骤:
S301、应用服务器向设备管理装置发送存储资源请求消息。
应用服务器启动后,向设备管理装置发送一个存储资源请求消息,并在消息中携带应用服务器的设备标识,该设备标识可以是网口MAC(MediaAccess Control,介质访问控制)地址,也可以是其它的唯一标识。
S302、设备管理装置判断是否已为该应用服务器分配存储资源,如果是则直接转步骤S304;否则转步骤S303。
设备管理装置收到应用服务器发送的存储资源请求消息后,首先根据消息中携带的设备标识查询记录,判断是否已经为该应用服务器分配存储资源。
S303、设备管理装置在网络存储设备上创建并记录存储资源及访问配置。
由步骤S302所述,如果设备管理装置尚未为该应用服务器分配存储资源,则自动通过网络存储设备的消息接口或命令接口,在网络存储设备上动态创建存储资源及访问配置,并通过数据库或文件方式记录该些配置。
S304、设备管理装置将访问配置通过消息发送至应用服务器。
设备管理装置在网络存储设备上创建存储资源及访问配置后,还需将访问配置发送至应用服务器,以协助应用服务器建立到网络存储设备的数据存储通道。又由步骤S302所述,如果设备管理装置根据设备标识判断已经为应用服务器分配存储资源,则直接如本步骤所述将相应的访问配置消息发送至该应用服务器。
S305、应用服务器更新访问配置,建立与网络存储设备的连接。
应用服务器收到相应的访问配置消息后,更新本机的访问配置,并根据该访问配置进一步与设备管理装置分配的存储资源建立连接,之后即可以在应用服务器与网络存储设备间进行正常的数据存取操作。
S306、设备管理装置检测网络存储设备的状态,判断是否发生故障,如果是则转步骤S307。
由本发明实施例一所述,网络存储设备的故障检测可由多种方式实现,具体说明如下:
a、设备管理装置通过周期性地巡检大量分布在不同网络存储设备上的存储资源发现故障,
设备管理装置根据数据库或文件中记录的存储资源及访问信息,对大量分布在不同网络存储设备上的存储资源进行周期性(如每隔5分钟)检测;如果连续若干次(如3次)访问某存储资源失败,则记录该存储资源为故障状态;如果某网络存储设备的所有或超过一定比例的存储资源均被记录为故障状态,则确定该网络存储设备发生故障。
b、设备管理装置通过监听应用服务器的存取告警消息发现故障,
可在应用服务器侧实现一个简单的存储告警功能,当向网络存储设备的数据存取无法正常进行时即向设备管理装置发送告警信息;设备管理装置收到应用服务器的告警信息后,将该应用服务器对应的存储资源记录为故障状态;如果某网络存储设备所有或超过一定比例的存储资源均被记录为故障状态,则确定该网络存储设备发生故障。
c、设备管理装置通过周期性地检测网络存储设备的网络连接状况发现故障,
设备管理装置对网络存储设备的网络连接状况进行周期性检测,例如,可以周期性地ping网络存储设备,如果连续若干次发现网络连接不正常,则确定该网络存储设备发生故障。
S307、设备管理装置检查系统中是否存在备用网络存储设备,如果存在则转步骤S308,否则发出告警信息。
S308、设备管理装置查询记录获取发生故障的网络存储设备的存储资源及访问配置。
设备管理装置在检测到SAN系统中包括备用网络存储设备后,即对步骤S303中创建存储资源及访问配置的记录数据库或文件进行查询,获取故障网络存储设备的存储资源及访问配置。
S309、设备管理装置根据查询结果在备用网络存储设备上创建对应的存储资源及访问配置,并更新记录。
设备管理装置通过查询获得故障网络存储设备的存储资源及访问配置后,即可根据查询结果在备用网络存储设备上逐一创建对应的存储资源及访问配置,以实现网络存储设备的自动更换。同时,设备管理装置还需对数据库或文件中相应的存储资源及访问配置记录进行更新。
S310、设备管理装置将更换后的访问配置通过消息发送至应用服务器。
S311、应用服务器更新访问配置,建立与备用网络存储设备的连接。
步骤S310、S311与步骤S304、S305对应相同,应用服务器收到设备管理装置的访问配置消息后,更新本机的访问配置,并根据更新后的访问配置进一步与在备用网络存储设备上创建的存储资源建立连接,之后即可以进行正常的数据存取操作,由此即完成了网络存储设备发生故障后的设备更换。
由上述本发明网络存储设备的故障保护方法实施例可知,在故障网络存储设备的更换过程中,所有的存储资源和访问配置均由设备管理装置自动完成,显著减少管理员的配置工作量,降低出错概率,保证数据存储的及时恢复;与现有技术中的人工处理网络存储设备故障相比,由设备管理装置自动发现网络存储设备故障也更加及时,同时由于自动完成配置的速度较快,从而有效缩短了故障恢复的耗时,减少设备故障期间的数据丢失。
本发明还公开一种用于网络存储设备故障保护的设备管理装置,应用于SAN系统中,其一实施例如图4所示,包括连接建立单元410、故障检测单元420及设备更换单元430。其中,连接建立单元410用于在网络存储设备上创建并记录存储资源及访问配置,建立应用服务器与网络存储设备的SAN连接;故障检测单元420用于检测网络存储设备是否发生故障;而设备更换单元430,分别与连接建立单元410及故障检测单元420连接,并在故障检测单元420检测到网络存储设备发生故障时根据连接建立单元410记录的存储资源及访问配置对发生故障的网络存储设备进行更换。
其中,设备更换单元430进一步包括配置查询子单元431及更换通知子单元432。配置查询子单元431通过查询连接建立单元410获取发生故障的网络存储设备的存储资源及访问配置信息;更换通知子单元432则将配置查询子单元431的查询结果发送至连接建立单元410;连接建立单元410进一步根据查询结果在备用网络存储设备创建对应的存储资源及访问配置并更新记录,建立应用服务器与备用网络存储设备的SAN连接。
上述实施例中,连接建立单元410进一步包括连接配置子单元411、配置记录子单元412及配置发送子单元413。其中,连接配置子单元411,用于在网络存储设备上创建存储资源及访问配置;配置记录子单元412,用于对连接配置子单元411创建的存储资源及访问配置进行记录;而配置发送子单元413则用于将访问配置发送至应用服务器,以协助应用服务器建立与网络存储设备或备用网络存储设备的SAN连接。
另外,故障检测单元420则进一步包括设备检测子单元421、服务器检测子单元422及网络检测子单元423。设备检测子单元421,与连接建立单元410连接,用于根据预设的第一周期访问网络存储设备的存储资源,并在检测到所有或超过预设第一比例的存储资源访问失败时,确定网络存储设备发生故障。服务器检测子单元422,与应用服务器连接,其在收到应用服务器访问存储资源失败的消息后,记录该存储资源为故障状态,并在所有或超过预设第二比例的存储资源访问失败时,确定网络存储设备发生故障。网络检测子单元423则根据预设的第二周期检测网络存储设备的网络连接是否正常,并在连续超过预定次数检测到网络存储设备的网络连接不正常时,确定网络存储设备发生故障。由于上述设备检测子单元421、服务器检测子单元422及网络检测子单元423均能对网络存储设备的故障状况进行检测,因此具体应用中故障检测单元420可以仅包括其中的一个或多个,此处不加以赘述。
继续如图4所示,本实施例的设备管理装置还可以包括备用设备检测单元440,其与故障检测单元420及设备更换单元430连接,并在故障检测单元420检测到网络存储设备发生故障时,检查SAN系统中是否存在备用网络存储设备,如果没有则发出告警信息,否则通知设备更换单元430对发生故障的网络存储设备进行更换。
上述本发明设备管理装置的实施例,应用于SAN系统时,首先由连接建立单元410在网络存储设备上创建并记录存储资源及访问配置,同时将访问配置发送至应用服务器,以建立应用服务器至网络存储设备的数据存储通道;在数据存取过程中,由设备管理装置的故障检测单元420应用一种或多种故障检测技术对网络存储设备的故障状态进行检测,并在检测到网络存储设备发生故障时,由设备更换单元430通知连接建立单元410重新建立应用服务器至备用网络存储设备的SAN连接,从而完成网络存储设备的自动更换,以恢复数据的正常存取。通过设备管理装置在SAN系统中的应用,可实现网络存储设备故障的及时发现及设备的自动更换,减少管理员的工作量,降低出错概率,并缩短故障恢复的耗时,减少故障期间数据的丢失,保证数据正常存取的及时恢复。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。