CN108345510B - 一种自动巡检检测大规模离线归档系统可靠性的方法 - Google Patents
一种自动巡检检测大规模离线归档系统可靠性的方法 Download PDFInfo
- Publication number
- CN108345510B CN108345510B CN201810024643.8A CN201810024643A CN108345510B CN 108345510 B CN108345510 B CN 108345510B CN 201810024643 A CN201810024643 A CN 201810024643A CN 108345510 B CN108345510 B CN 108345510B
- Authority
- CN
- China
- Prior art keywords
- data
- server
- power
- energy consumption
- physical equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/008—Reliability or availability analysis
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
- Power Sources (AREA)
Abstract
本发明的一种自动巡检检测大规模离线归档系统可靠性的方法,包括能耗感知模块和检测模块,能耗感知模块维护能耗感知表,记录物理设备的上下电状态。物理设备通过网络将自己的上下电状态变更通知能耗感知模块,能耗感知模块将物理设备的上下电状态记录到能耗感知表中。能耗感知表中维护所有物理设备的当前上下电状态以及最后一次状态变更的时间,可对全局节电策略提供支持;检测模块维护扫描历史表,记录物理设备和数据的扫描历史,并在数据完整性、数据一致性、通路可用性三个方面对系统进行周期性检查。本发明方法简单有效,在自动周期性扫描系统硬件和数据的同时,尽可能减少了额外的设备上下电操作,并尽可能保持系统原有的能耗要求。
Description
技术领域
本发明属于计算机存储技术领域,涉及一种服务器集群和离线归档技术,具体涉及一种自动巡检检测大规模离线归档系统可靠性的方法,适用于大规模离线归档的场景。
背景技术
在互联网、物联网、云计算和大数据等快速发展的大环境下,企业每天会产生TB级甚至更大规模的需要归档的数据。由于在很多场景下需要对历史归档数据做在线或离线分析,传统的磁带归档方式无法满足性能的要求。因此,使用磁盘替换磁带成了一种更好的方案,为了尽可能减小大规模物理设备长期运行时导致的高功耗问题,目前业内已经提出了可控制设备上下电和控制磁盘是否工作的节电技术(如,MAID等)。控制设备上下电技术可通过硬件控制物理设备开机和关机,可实现远程控制和无人值守,方便对物理设备进行节电控制,但控制范围为单一物理节点,并不能进行整个集群的节电管理;MAID技术可控制磁盘的工作时间,使磁盘只有在需要的时候才上电工作,其他时间可处于断电状态,达到省电的目的,但此技术只能对磁盘进行控制,同样不能对整个集群进行节电控制。由于归档系统庞大,且数据需保持的时间久,如何在尽可能节能的前提下持续的保证物理设备和已归档数据的可靠性成为保证系统长期正常运转所必须要考虑的问题。为解决这一问题,我们提出了一种自动巡检的方法来周期性检查硬件设备和归档数据,从而及早发现设备和数据异常,提醒修复系统。对于归档系统,需确保系统整体可以长期正常运转和保证长期归档的数据的可靠性。而对于大规模离线归档系统,节能成为了一个构建系统时必须要考虑的问题。特别对于主要由磁盘介质组成的大规模离线归档系统,一般需要结合服务器、网络设备和磁盘等的上下电控制技术来达到整体的节能减耗要求。方法与传统的节电技术结合,维护了全局上下电信息,并尽可能减少额外的设备上下电操作,有效保证了系统原有的节电特性。
发明内容
本发明要解决的技术问题是:如何在尽可能保证系统节能减耗的前提下检测系统是否长期正常运转和检测数据的可靠性。
为解决上述技术问题,本发明提供了一种自动巡检检测大规模离线归档系统可靠性的方法,采用自动巡检的方式来周期性扫描系统硬件设备和归档数据,并尽可能减少额外的设备上下电操作,以尽可能保持系统原有的能耗要求。
本发明提供的一种自动巡检检测大规模离线归档系统可靠性的方法,其特征在于,在大型离线归档系统之上添加了能耗感知模块和检测模块;所述能耗感知模块维护能耗感知表,记录物理设备的上下电状态,为整个集群的上下电调度提供依据;所述检测模块维护扫描历史表,记录物理设备和数据的扫描历史,为制定扫描计划提供支持,并在数据完整性、数据一致性以及通路可用性三个方面对系统进行周期性检查。
具体的,所述能耗感知模块记录物理设备的上下电状态并将相关信息记录在能耗感知表中;物理设备通过网络将自己的上下电状态变更通知能耗感知模块,能耗感知模块将物理设备的上下电状态记录到能耗感知表中;能耗感知表中维护所有物理设备的当前上下电状态以及最后一次状态变更的时间,对全局节电策略提供支持。
具体的,所述检测模块周期性检测物理设备,并检查通路可用性、数据完整性和一致性;检测模块通过心跳周期性扫描集群环境中的所有物理设备,包括交换机、元数据服务器和数据服务器;验证通路是否可用,并对于处于工作状态的数据服务器进行数据完整性和一致性检查,将检查的结果记录在扫描历史表中。
具体的,所述数据完整性检查指的是检查元数据服务器中记录的数据是否依然保存在数据服务器中;所述数据一致性检查指的是检查元数据服务器中记录的数据是否损坏或被篡改;所述通路可用性检查指的是周期性扫描网络和硬件,检测交换设备、存储设备等物理设备是否可连通。
具体的,所述能耗感知表中包含物理设备编号、设备类型、上下电状态、最近状态切换时间信息。
具体的,所述扫描历史表中包含物理设备编号、设备类型、是否连通、最近扫描时间、数据正确性、正确性详情、数据一致性、一致性详情信息。
具体的,所述检测物理设备的过程步骤如下:
步骤一、预设物理设备的检测周期Tdetect,检测对象包括服务器、交换机和网络;
步骤二、为每台服务器安装扫描终端软件并随服务器一起启动;
步骤三、根据扫描历史表向当前处于工作状态的服务器发送心跳探测,探测信号中携带路由信息;
步骤四、根据返回信号判断服务器是否可用,以及网络设备的连通性;
步骤五、对于长期处于非工作状态的服务器,若超过了预设的最长未检测时间Tmax,则检测模块将其启动,检测服务器是否可以正常提供服务。
具体的,检测模块根据检测周期Tdetect检查数据服务器中的归档数据的完整性和一致性;检查方式为优先扫描处于工作状态的数据服务器;如果某数据服务器超过最长未检测时间Tmax没有处于工作状态,则启动该服务器进行数据扫描。
具体的,完整性检查过程步骤如下:
步骤一、检测模块确定需要扫描数据的服务器;
步骤二、查询对应的元数据服务器;
步骤三、确定数据服务器上存放了哪些数据,与元数据服务器的扫描结果做对比;
步骤四、若元数据服务器中记录的数据在数据服务器中都能找到,则认为数据是完整的。
具体的,一致性检查过程步骤如下:
步骤一、检测模块确定需要扫描数据的服务器;
步骤二、查询对应的元数据服务器;
步骤三、查询元数据服务器,将元数据服务器中记录的数据的长度与数据服务器中数据的长度进行对比;
步骤四、若长度一致,则认为数据是一致的。
本发明的优点与积极效果在于:
(1)可实时维护集群中所有物理设备的上下电状态信息,为整个集群的上下电优化控制提供依据。
(2)对数据服务器中数据的完整性和一致性进行周期性检查,及时发现集群中不完整或者不一致的数据。
(3)周期性检查交换机、服务器等硬件的可用性和网络的连通性,及早发现物理设备的问题。
附图说明
图1是本发明系统结构图;
图2是能耗感知表;
图3是物理设备检测图;
图4是扫描历史表。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明提供了一种自动巡检检测大规模离线归档系统可靠性的方法,用于解决在尽可能保证系统节能减耗的前提下检测系统长期正常运转和检测数据可靠性的问题。本发明所采用的技术主要是:在大型离线归档系统之上添加能耗感知模块和检测模块。能耗感知模块维护能耗感知表,记录物理设备的上下电状态(物理设备可以是服务器,也可以是磁盘等存储设备),为整个集群的上下电调度提供依据,可更好的支持整个集群的节电控制;检测模块维护扫描历史表,记录物理设备和数据的扫描历史,为制定扫描计划提供支持,并在数据完整性、数据一致性以及通路可用性等三个方面对系统进行周期性检查。
能耗感知模块记录物理设备的上下电状态并将相关信息记录在能耗感知表中。物理设备通过网络将自己的上下电状态变更通知能耗感知模块,能耗感知模块将物理设备的上下电状态记录到能耗感知表中。能耗感知表中维护所有物理设备的当前上下电状态以及最后一次状态变更的时间等,可对全局节电策略提供支持。
如图1所示,为本发明的系统结构图,系统在大型离线归档系统之上添加了能耗感知模块和检测模块。能耗感知模块主要维护能耗感知表,记录物理设备的上下电情况。假设数据服务器1当前被设置为工作状态,其余数据服务器设置为非工作状态。能耗感知模块记录下当前服务器状态变更以后通知检测模块集群物理设备的能耗状态有变化。检测模块根据预设的检测周期Tdetect确定是否启动物理设备上的数据检查。如果需要启动,则对数据服务器1中保存的数据进行扫描。同时将扫描历史记录到扫描历史表。扫描历史表中会记录每次扫描的物理设备编号、扫描时间以及状态等。如果检查发现数据正确性或一致性有问题,则将详情信息记录在扫描历史表中,便于后续对整个集群中的数据状态进行跟踪。
集群中可能会有数据服务器长时间处于非工作状态,能耗感知模块对设备的最长未检测时间有一个限制Tmax(Tmax可配置),如果数据服务器的未检测周期超过Tmax,则将数据服务器上电,将其转换为工作状态,并对其上的数据进行扫描,扫描完成后将其下电。
如图2所示,为本发明的能耗感知表,用于记录物理设备的上下电状态,表中主要包含物理设备编号、设备类型、上下电状态、最近状态切换时间等信息。
物理设备编号:集群环境中所有物理硬件设备的全局编号,用于识别物理设备,取值为字符串。
设备类型:物理设备的分类,包括计算服务器、元数据服务器、数据服务器、交换机等,取值为字符串。
上下电状态:用于描述物理设备处于工作状态还是断电状态,on表示工作状态,off表示断电状态,取值为on或者off,类型为字符串。
最近状态切换时间:描述最近一次上下电状态变动的时间,例如设备0当前状态为on,被设置为on的时间为2016/12/11 12:22:32,取值为字符串。
如图3所示,为本发明的物理设备检测图,包括如下步骤:
步骤一、预设物理设备的检测周期Tdetect,检测对象主要包括服务器、交换机和网络等;
步骤二、为每台服务器安装扫描终端软件并随服务器一起启动;
步骤三、根据扫描历史表向当前处于工作状态的服务器发送心跳探测,探测信号中携带路由信息;
步骤四、根据返回信号判断服务器是否可用,以及网络设备的连通性;
步骤五、对于长期处于非工作状态的服务器,若超过了预设的最长未检测时间Tmax,则检测模块将其启动,检测服务器是否可以正常提供服务。
如图4所示,为本发明的扫描历史表,用于记录物理设备和数据的扫描历史,表中主要包含物理设备编号、设备类型、是否连通、最近扫描时间、数据正确性、正确性详情、数据一致性、一致性详情等信息。
物理设备编号:集群环境中所有物理硬件设备的全局编号,用于识别物理设备,取值为整数。
设备类型:物理设备的分类,包括计算服务器、元数据服务器、数据服务器、交换机等,取值为字符串。
是否连通:表示物理设备当前是否可以从网络正常访问,Y表示可以,N表示不可以,类型为字符串。
最近扫描时间:表示物理设备最近一次被扫描的时间,类型为字符串。
数据正确性:表示存储设备中存储的数据是否正确,Y表示正确,N表示不正确,非数据服务器为空,类型为字符串。
正确性详情:对于数据正确的数据服务器,描述扫描过的数据并进行备注;对于数据不正确的数据服务器,描述不正确的数据信息并给出备注。类型为字符串。
数据一致性:表示存储设备中存储的数据是否一致,Y表示一致,N表示不一致,非数据服务器为空,类型为字符串。
一致性详情:描述哪些数据处于一致性状态,哪些数据处于不一致状态,非数据服务器为空,类型为字符串。
Claims (7)
1.一种自动巡检检测大规模离线归档系统可靠性的方法,其特征在于,在大型离线归档系统之上添加了能耗感知模块和检测模块;所述能耗感知模块维护能耗感知表,记录物理设备的上下电状态,为整个集群的上下电调度提供依据;所述检测模块维护扫描历史表,记录物理设备和数据的扫描历史,为制定扫描计划提供支持,并在数据完整性、数据一致性以及通路可用性三个方面对系统进行周期性检查;
所述能耗感知模块记录物理设备的上下电状态并将相关信息记录在能耗感知表中;物理设备通过网络将自己的上下电状态变更通知能耗感知模块,能耗感知模块将物理设备的上下电状态记录到能耗感知表中;能耗感知表中维护所有物理设备的当前上下电状态以及最后一次状态变更的时间,对全局节电策略提供支持;
所述检测模块周期性检测物理设备,并检查通路可用性、数据完整性和一致性;检测模块通过心跳周期性扫描集群环境中的所有物理设备,包括交换机、元数据服务器和数据服务器;验证通路是否可用,并对于处于工作状态的数据服务器进行数据完整性和一致性检查,将检查的结果记录在扫描历史表中;
所述检测物理设备的过程步骤如下:
步骤一、预设物理设备的检测周期Tdetect,检测对象包括服务器、交换机和网络;
步骤二、为每台服务器安装扫描终端软件并随服务器一起启动;
步骤三、根据扫描历史表向当前处于工作状态的服务器发送心跳探测,探测信号中携带路由信息;
步骤四、根据返回信号判断服务器是否可用,以及网络设备的连通性;
步骤五、对于长期处于非工作状态的服务器,若超过了预设的最长未检测时间Tmax,则检测模块将其启动,检测服务器是否可以正常提供服务。
2.如权利要求1所述的一种自动巡检检测大规模离线归档系统可靠性的方法,其特征在于:所述数据完整性检查指的是检查元数据服务器中记录的数据是否依然保存在数据服务器中;所述数据一致性检查指的是检查元数据服务器中记录的数据是否损坏或被篡改;所述通路可用性检查指的是周期性扫描网络和硬件,检测交换设备、存储设备等物理设备是否可连通。
3.如权利要求1所述的一种自动巡检检测大规模离线归档系统可靠性的方法,其特征在于:所述能耗感知表中包含物理设备编号、设备类型、上下电状态、最近状态切换时间信息。
4.如权利要求2所述的一种自动巡检检测大规模离线归档系统可靠性的方法,其特征在于:所述扫描历史表中包含物理设备编号、设备类型、是否连通、最近扫描时间、数据正确性、正确性详情、数据一致性、一致性详情信息。
5.根据权利要求2所述的一种自动巡检检测大规模离线归档系统可靠性的方法,其特征在于,检测模块根据检测周期Tdetect检查数据服务器中的归档数据的完整性和一致性;检查方式为优先扫描处于工作状态的数据服务器,如果某数据服务器超过最长未检测时间Tmax没有处于工作状态,则启动该服务器进行数据扫描。
6.根据权利要求5所述的一种自动巡检检测大规模离线归档系统可靠性的方法,其特征在于,完整性检查过程步骤如下:
步骤一、检测模块确定需要扫描数据的服务器;
步骤二、查询对应的元数据服务器;
步骤三、确定数据服务器上存放了哪些数据,与元数据服务器的扫描结果做对比;
步骤四、若元数据服务器中记录的数据在数据服务器中都能找到,则认为数据是完整的。
7.根据权利要求6所述的一种自动巡检检测大规模离线归档系统可靠性的方法,其特征在于,一致性检查过程步骤如下:
步骤一、检测模块确定需要扫描数据的服务器;
步骤二、查询对应的元数据服务器;
步骤三、查询元数据服务器,将元数据服务器中记录的数据的长度与数据服务器中数据的长度进行对比;
步骤四、若长度一致,则认为数据是一致的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810024643.8A CN108345510B (zh) | 2018-01-11 | 2018-01-11 | 一种自动巡检检测大规模离线归档系统可靠性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810024643.8A CN108345510B (zh) | 2018-01-11 | 2018-01-11 | 一种自动巡检检测大规模离线归档系统可靠性的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108345510A CN108345510A (zh) | 2018-07-31 |
CN108345510B true CN108345510B (zh) | 2022-02-08 |
Family
ID=62960430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810024643.8A Active CN108345510B (zh) | 2018-01-11 | 2018-01-11 | 一种自动巡检检测大规模离线归档系统可靠性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108345510B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994100B (zh) * | 2023-03-22 | 2023-07-04 | 深圳市明源云科技有限公司 | 系统活跃度检测方法、装置、电子设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936818A (zh) * | 2005-09-22 | 2007-03-28 | 株式会社日立制作所 | 存储控制装置、数据管理系统及数据管理方法 |
EP1860556A2 (en) * | 2006-02-10 | 2007-11-28 | Hitachi, Ltd. | Storage system and control method thereof |
CN101162422A (zh) * | 2006-10-11 | 2008-04-16 | 株式会社日立制作所 | 存储装置及其控制方法 |
CN101192095A (zh) * | 2006-11-28 | 2008-06-04 | 株式会社日立制作所 | 具备节电功能和诊断功能双方的存储器系统 |
CN103336574A (zh) * | 2013-07-23 | 2013-10-02 | 北京百度网讯科技有限公司 | 数据中心节能控制方法与装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5011028B2 (ja) * | 2007-08-23 | 2012-08-29 | 株式会社日立製作所 | ストレージシステム、管理装置、スケジューリング方法、プログラム、記録媒体 |
CN101216797B (zh) * | 2008-01-11 | 2011-09-07 | 中国移动通信集团四川有限公司 | 大型数据中心it系统基础软硬件平台的深度巡检系统和方法 |
CN101901275A (zh) * | 2010-08-23 | 2010-12-01 | 华中科技大学 | 一种分布式存储系统及其方法 |
US8886781B2 (en) * | 2011-12-13 | 2014-11-11 | Microsoft Corporation | Load balancing in cluster storage systems |
CN103069380B (zh) * | 2012-04-27 | 2014-11-05 | 华为技术有限公司 | 存储控制设备、数据归档存储系统和数据存取方法 |
CN103916479B (zh) * | 2014-04-15 | 2017-05-03 | 大连理工大学 | 一种基于工作组文件的云同步局域网加速系统 |
CN105302661A (zh) * | 2014-06-04 | 2016-02-03 | 北京云端时代科技有限公司 | 一种实现虚拟化管理平台高可用的系统和方法 |
CN104461865A (zh) * | 2014-11-04 | 2015-03-25 | 哈尔滨工业大学 | 云环境下分布式文件系统可靠性测试套件 |
CN104965674B (zh) * | 2015-06-08 | 2018-01-19 | 暨南大学 | 一种基于块关联的低能耗磁盘调度方法及系统 |
-
2018
- 2018-01-11 CN CN201810024643.8A patent/CN108345510B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1936818A (zh) * | 2005-09-22 | 2007-03-28 | 株式会社日立制作所 | 存储控制装置、数据管理系统及数据管理方法 |
EP1860556A2 (en) * | 2006-02-10 | 2007-11-28 | Hitachi, Ltd. | Storage system and control method thereof |
CN101162422A (zh) * | 2006-10-11 | 2008-04-16 | 株式会社日立制作所 | 存储装置及其控制方法 |
CN101192095A (zh) * | 2006-11-28 | 2008-06-04 | 株式会社日立制作所 | 具备节电功能和诊断功能双方的存储器系统 |
CN103336574A (zh) * | 2013-07-23 | 2013-10-02 | 北京百度网讯科技有限公司 | 数据中心节能控制方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108345510A (zh) | 2018-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7558988B2 (en) | Storage system and control method thereof | |
CN101093462B (zh) | 数据库应用集群压力测试自动化方法 | |
CN100504795C (zh) | 一种计算机raid阵列预警系统及方法 | |
CN100395717C (zh) | 硬盘装置损坏监测方法及系统 | |
US9766965B2 (en) | System and method for monitoring and detecting faulty storage devices | |
CN112286709A (zh) | 一种服务器硬件故障的诊断方法、诊断装置及诊断设备 | |
CN111104275A (zh) | 一种闪断ssd硬盘电源的自动化测试方法及装置 | |
CN103207820A (zh) | 基于raid卡日志的硬盘的故障定位方法及装置 | |
CN111400121A (zh) | 一种服务器硬盘slot定位与维护方法 | |
CN110716875A (zh) | 一种国产办公环境下基于反馈机制的并发测试方法 | |
CN110515757B (zh) | 分布式存储系统的信息处理方法、装置、服务器、介质 | |
CN108345510B (zh) | 一种自动巡检检测大规模离线归档系统可靠性的方法 | |
CN111414289A (zh) | 一种基于迁移学习的磁盘故障预测方法及装置 | |
CN1291322C (zh) | 一种故障录波数据双通道同步记录和存储的方法及其装置 | |
CN116913350B (zh) | 一种基于固态硬盘现代待机的测试方法及测试平台 | |
CN100576182C (zh) | 计算机文件的实时监控系统和方法 | |
CN107436826B (zh) | 一种冷数据处理方法及终端 | |
CN113742166B (zh) | 一种服务器系统器件日志记录方法、装置及系统 | |
CN111857319A (zh) | 一种服务器功耗智能优化方法与系统 | |
CN114281659B (zh) | 一种基于固件版本复现服务器bug的方法及系统 | |
CN116582422A (zh) | 一种网卡异常处理方法、网卡异常处理系统及相关装置 | |
CN114741242A (zh) | 磁盘检测方法以及装置 | |
CN113961508A (zh) | 一种云公共服务平台系统 | |
CN116364980A (zh) | 燃料电池系统的故障诊断方法、装置、设备及介质 | |
CN117349137A (zh) | 分布式系统的自动化测试方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |