CN103970897A - 应急性爆发数据可靠备份及实时分析方法及系统 - Google Patents

应急性爆发数据可靠备份及实时分析方法及系统 Download PDF

Info

Publication number
CN103970897A
CN103970897A CN201410227594.XA CN201410227594A CN103970897A CN 103970897 A CN103970897 A CN 103970897A CN 201410227594 A CN201410227594 A CN 201410227594A CN 103970897 A CN103970897 A CN 103970897A
Authority
CN
China
Prior art keywords
backup
data
directory
server
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410227594.XA
Other languages
English (en)
Other versions
CN103970897B (zh
Inventor
张可
柴毅
熊英志
周国庆
吴逊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201410227594.XA priority Critical patent/CN103970897B/zh
Publication of CN103970897A publication Critical patent/CN103970897A/zh
Application granted granted Critical
Publication of CN103970897B publication Critical patent/CN103970897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/1827Management specifically adapted to NAS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种应急性爆发数据可靠备份及实时分析方法,首先建立应用和备份服务器并实时检测是否有备份数据,如果有,则向备份服务器发送备份控制命令;然后建立临时目录并存储备份数据并进行数据聚类处理,通过缓冲区管理将数据分别转移到备份目录和备份索引中;最后将备份目录上的数据备份到存储设备中,并移除备份目录上的数据。本发明将数据聚类技术与数据备份技术相结合,将爆发的大量数据进行聚类,均衡分布到各数据库中进行备份,实现对应急性爆发数据有效和可靠的备份,提高了数据备份的速度,减少了用户的等待时间,提高系统的运行效率。这样每个存储设备的数据量相对较小。此方法容易实现、能提高数据备份速度、对数据进行分类、节约系统资源并实现可靠备份。

Description

应急性爆发数据可靠备份及实时分析方法及系统
技术领域
本发明涉及一种计算机信息数据存储,特别涉及一种应急性爆发数据可靠备份及实时分析安全系统构架方法及系统。
背景技术
现有的数据备份系统结构主要有Host-Base、Lan-Base和基于SAN(StorageAreaNetwork,存储区域网络,)架构的LAN-Free和Server-Free备份。Host-Base备份是传统数据备份结构,这种结构中磁带读写设备直接连接于需要备份的服务器上,为该服务器数据备份,但这种备份不适合于多个服务器需要数据备份,也不利于备份系统的共享。LAN-Base备份以局域网络为基础,局域网中一台服务器为备份服务器,由这个备份服务器负责整个系统的备份,多个需要备份数据的应用服务器通过局域网将数据传到磁带库中实现备份。当备份数据量大或备份频率高时,局域网的性能下降快,不适合重载荷的网络应用环境。LAN-Free备份中数据无需通过局域网而直接进行备份,用户只需将磁带机或磁带库等备份设备连接到SAN中,各服务器就可把需要备份的数据直接发送到共享的备份设备上,不必再经过局域网链路。LAN-Free便于数据备份的统一管理、备份速度快、网络传输压力小,但起实现较为复杂,且成本较高。Server-Free备份在SAN的交换层实现数据的传输工作,这样备份数据不经过网络,也不经过应用服务器总线,保证了网络与应用服务器的高效运行。但目前Server-Free备份技术还不够成熟,兼容设备不多。随着技术的发展,越来越多的数据呈爆发式增长,而对于这种高速、海量的数据若要要求存储,上述现有的数据备份结构、不能很好的解决这一问题,且不具有对数据进行分析的能力,这不利于备份后数据后续的使用。
因此需要一种应急性爆发数据可靠备份及实时分析安全系统构架方法及系统。
发明内容
有鉴于此,本发明所要解决的技术问题是提供一种应急性爆发数据可靠备份及实时分析安全系统构架方法及系统,该方法将聚类技术用于数据备份中,将爆发的大量数据进行聚类,使得同一类的数据相似度高,将各类数据均衡分布到各数据库中进行备份,这样每个存储设备的数据量相对较小。此方法容易实现、能提高数据备份速度和节约系统资源。
本发明的目的之一是提出一种应急性爆发数据可靠备份及实时分析安全系统构架方法;本发明的目的之二是提出一种应急性爆发数据可靠备份及实时分析安全系统构架系统。
本发明的目的之一是通过以下技术方案来实现的:
本发明提供的一种应急性爆发数据可靠备份及实时分析安全系统构架方法,包括以下步骤:
S1:建立应用服务器和备份服务器;
S2:检测应用服务器中是否有备份数据,如果无,则继续检测;
S3:如果有,则向备份服务器发送备份控制命令;
S4:控制备份服务器接收备份控制命令并建立临时目录;
S5:应用服务器将需要的备份数据发送到备份服务器的临时目录;
S6:将备份数据进行数据聚类处理获得聚类数据;
S7:在临时目录下建立对应的聚类子目录;
S8:将聚类数据分别按类加载到对应的聚类子目录中并建立临时索引;
S9:在备份服务器中建立备份目录和备份索引;
S10:通过缓冲区管理将临时目录和临时索引中的数据分别转移到备份目录和备份索引中;
S11:识别与备份服务器连接的存储设备;
S12:将备份目录上的数据按类转移到不同的存储设备中;
S13:移除备份目录上的数据。
进一步,所述步骤S5中应用服务器将备份数据通过SAN传输发送到备份服务器的临时目录中。
进一步,所述步骤S6中的数据聚类包括以下步骤:
S61:获取备份数据;
S62:随机设置N个聚类原型;
S63:根据距离相异度最小原则,计算备份数据和聚类原型之间的距离值;
S64:将备份数据划入距离值最小的第i个聚类原型中;
S65:重新选择聚类原型;
S66:对新的聚类原型再次执行步骤S63和步骤S64;
S67:判断此次聚类划分是否与之前一次相同,如果是,则聚类结束;
S68:如果否,则返回步骤S66直至所有的备份数据聚类完毕。
本发明的目的之二是通过以下技术方案来实现的:
本发明提供的一种应急性爆发数据可靠备份及实时分析安全系统构架系统,包括服务器单元、备份数据检测判断单元、临时目录建立单元、数据聚类处理单元、聚类子目录建立单元、索引建立单元、存储设备单元、数据转移单元、移除单元;
所述服务器单元,用于建立应用服务器和备份服务器;
所述备份数据检测判断单元,用于检测应用服务器中是否有备份数据,如果无,则继续检测;如果有,则向备份服务器发送备份控制命令;
所述临时目录建立单元,用于控制备份服务器接收备份控制命令并建立临时目录;用服务器将需要的备份数据发送到备份服务器的临时目录;
所述数据聚类处理单元,用于将备份数据进行数据聚类处理获得聚类数据;
所述聚类子目录建立单元,用于在临时目录下建立对应的聚类子目录;
所述索引建立单元,用于将聚类数据分别按类加载到对应的聚类子目录中并建立临时索引;在备份服务器中建立备份目录和备份索引;通过缓冲区管理将临时目录和临时索引中的数据分别转移到备份目录和备份索引中;
所述存储设备单元,用于识别与备份服务器连接的存储设备;
所述数据转移单元,用于将备份目录上的数据转移到存储设备中;
所述移除单元,用于移除备份目录上的数据。
进一步,所述应用服务器将备份数据通过SAN传输发送到备份服务器的临时目录中。
进一步,所述数据聚类处理单元中的数据聚类包括以下步骤:
S61:获取备份数据;
S62:随机设置N个聚类原型;
S63:根据距离相异度最小原则,计算备份数据和聚类原型之间的距离值;
S64:将备份数据划入距离值最小的第i个聚类原型中;
S65:重新选择聚类原型;
S66:对新的聚类原型再次执行步骤S63和步骤S64,;
S67:判断此次聚类划分是否与之前一次相同,如果是,则聚类结束;
S68:如果否,则返回步骤S66直至所有的备份数据聚类完毕。
本发明的有益效果在于:本发明将数据聚类技术与数据备份技术相结合,将爆发的大量数据进行聚类,将聚类的数据均衡分布到各数据库中进行备份,实现对应急性爆发数据有效和可靠的备份,提高了数据备份的速度,减少了用户的等待时间,从而提高系统的运行效率。这样每个存储设备的数据量相对较小。此方法容易实现、能提高数据备份速度、节约系统资源并实现可靠备份。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明实施例提供的应急性爆发数据备份体系结构;
图2为本发明实施例提供的应急性爆发数据备份流程;
图3为本发明实施例提供的数据聚类流程。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
图1为本发明实施例提供的应急性爆发数据备份体系结构;图2为本发明实施例提供的应急性爆发数据备份流程;图3为本发明实施例提供的数据聚类流程,如图所示:本发明提供的一种应急性爆发数据可靠备份及实时分析安全系统构架方法,包括以下步骤:
S1:建立应用服务器和备份服务器,及与LAN、SAN和存储设备建立连接;及与局域网、存储区域网络和存储设备建立连接;
S2:检测应用服务器中是否有备份数据,如果无,则继续检测;
S3:如果有,则向备份服务器发送备份控制命令;
S4:控制备份服务器接收备份控制命令并建立临时目录;
S5:应用服务器将需要的备份数据发送到备份服务器的临时目录;
S6:将备份数据进行数据聚类处理获得聚类数据;本实施例所述的聚类处理实质为数据的类群区分过程。
S7:在临时目录下建立对应的聚类子目录;
S8:将聚类数据分别按类加载到对应的聚类子目录中并建立临时索引;
S9:在备份服务器中建立备份目录和备份索引;
S10:通过缓冲区管理将临时目录和临时索引中的数据分别转移到备份目录和备份索引中;
S11:识别与备份服务器连接的存储设备;
S12:将备份目录上的数据按类转移到不同的存储设备中;
S13:移除备份目录上的数据。
所述步骤S5中应用服务器将备份数据通过SAN传输发送到备份服务器的临时目录中。
所述步骤S6中的数据聚类包括以下步骤:
S61:获取备份数据;
S62:随机设置N个聚类原型;
S63:根据距离相异度最小原则,计算备份数据和聚类原型之间的距离值;
S64:将备份数据划入距离值最小的第i个聚类原型中;
S65:重新选择聚类原型;
S66:对新的聚类原型再次执行步骤S63和步骤S64,;
S67:判断此次聚类划分是否与之前一次相同,如果是,则聚类结束;
S68:如果否,则返回步骤S66直至所有的备份数据聚类完毕。
本实施例还提供了一种应急性爆发数据可靠备份及实时分析安全系统构架系统,包括服务器单元、备份数据检测判断单元、临时目录建立单元、数据聚类处理单元、聚类子目录建立单元、索引建立单元、存储设备单元、数据转移单元、移除单元;
所述服务器单元,用于建立应用服务器和备份服务器;
所述备份数据检测判断单元,用于检测应用服务器中是否有备份数据,如果无,则继续检测;如果有,则向备份服务器发送备份控制命令;
所述临时目录建立单元,用于控制备份服务器接收备份控制命令并建立临时目录;用服务器将需要的备份数据发送到备份服务器的临时目录;
所述数据聚类处理单元,用于将备份数据进行数据聚类处理获得聚类数据;
所述聚类子目录建立单元,用于在临时目录下建立对应的聚类子目录;
所述索引建立单元,用于将聚类数据分别按类加载到对应的聚类子目录中并建立临时索引;在备份服务器中建立备份目录和备份索引;通过缓冲区管理将临时目录和临时索引中的数据分别转移到备份目录和备份索引中;
所述存储设备单元,用于识别与备份服务器连接的存储设备;
所述数据转移单元,用于将备份目录上的数据转移到存储设备中;
所述移除单元,用于移除备份目录上的数据。
所述应用服务器将备份数据通过SAN传输发送到备份服务器的临时目录中。
所述数据聚类处理单元中的数据聚类包括以下步骤:
S61:获取备份数据;
S62:随机设置N个聚类原型;
S63:根据距离相异度最小原则,计算备份数据和聚类原型之间的距离值;
S64:将备份数据划入距离值最小的第i个聚类原型中;
S65:重新选择聚类原型;
S66:对新的聚类原型再次执行步骤S63和步骤S64,;
S67:判断此次聚类划分是否与之前一次相同,如果是,则聚类结束;
S68:如果否,则返回步骤S66直至所有的备份数据聚类完毕。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims (6)

1.应急性爆发数据可靠备份及实时分析方法,其特征在于:包括以下步骤:
S1:建立应用服务器和备份服务器;
S2:检测应用服务器中是否有备份数据,如果无,则继续检测;
S3:如果有,则向备份服务器发送备份控制命令;
S4:控制备份服务器接收备份控制命令并建立临时目录;
S5:应用服务器将需要的备份数据发送到备份服务器的临时目录;
S6:将备份数据进行数据聚类处理获得聚类数据;
S7:在临时目录下建立对应的聚类子目录;
S8:将聚类数据分别按类加载到对应的聚类子目录中并建立临时索引;
S9:在备份服务器中建立备份目录和备份索引;
S10:通过缓冲区管理将临时目录和临时索引中的数据分别转移到备份目录和备份索引中;
S11:识别与备份服务器连接的存储设备;
S12:将备份目录上的数据按类转移到不同的存储设备中;
S13:移除备份目录上的数据。
2.根据权利要求1所述的应急性爆发数据可靠备份及实时分析方法,其特征在于:所述步骤S5中应用服务器将备份数据通过存储区域网络传输发送到备份服务器的临时目录中。
3.根据权利要求1所述的应急性爆发数据可靠备份及实时分析方法,其特征在于:所述步骤S6中的数据聚类包括以下步骤:
S61:获取备份数据;
S62:随机设置N个聚类原型;
S63:根据距离相异度最小原则,计算备份数据和聚类原型之间的距离值;
S64:将备份数据划入距离值最小的第i个聚类原型中;
S65:重新选择聚类原型;
S66:对新的聚类原型再次执行步骤S63和步骤S64,;
S67:判断此次聚类划分是否与之前一次相同,如果是,则聚类结束;
S68:如果否,则返回步骤S66直至所有的备份数据聚类完毕。
4.应急性爆发数据可靠备份及实时分析系统,其特征在于:包括服务器单元、备份数据检测判断单元、临时目录建立单元、数据聚类处理单元、聚类子目录建立单元、索引建立单元、存储设备单元、数据转移单元和移除单元;
所述服务器单元,用于建立应用服务器和备份服务器;
所述备份数据检测判断单元,用于检测应用服务器中是否有备份数据,如果无,则继续检测;如果有,则向备份服务器发送备份控制命令;
所述临时目录建立单元,用于控制备份服务器接收备份控制命令并建立临时目录;用服务器将需要的备份数据发送到备份服务器的临时目录;
所述数据聚类处理单元,用于将备份数据进行数据聚类处理获得聚类数据;
所述聚类子目录建立单元,用于在临时目录下建立对应的聚类子目录;
所述索引建立单元,用于将聚类数据分别按类加载到对应的聚类子目录中并建立临时索引;在备份服务器中建立备份目录和备份索引;通过缓冲区管理将临时目录和临时索引中的数据分别转移到备份目录和备份索引中;
所述存储设备单元,用于识别与备份服务器连接的存储设备;
所述数据转移单元,用于将备份目录上的数据转移到存储设备中;
所述移除单元,用于移除备份目录上的数据。
5.根据权利要求4所述的应急性爆发数据可靠备份及实时分析系统,其特征在于:所述应用服务器将备份数据通过存储区域网络传输发送到备份服务器的临时目录中。
6.根据权利要求4所述的应急性爆发数据可靠备份及实时分析系统,其特征在于:所述数据聚类处理单元中的数据聚类包括以下步骤:
S61:获取备份数据;
S62:随机设置N个聚类原型;
S63:根据距离相异度最小原则,计算备份数据和聚类原型之间的距离值;
S64:将备份数据划入距离值最小的第i个聚类原型中;
S65:重新选择聚类原型;
S66:对新的聚类原型再次执行步骤S63和步骤S64,;
S67:判断此次聚类划分是否与之前一次相同,如果是,则聚类结束;
S68:如果否,则返回步骤S66直至所有的备份数据聚类完毕。
CN201410227594.XA 2014-05-27 2014-05-27 应急性爆发数据可靠备份及实时分析方法及系统 Active CN103970897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410227594.XA CN103970897B (zh) 2014-05-27 2014-05-27 应急性爆发数据可靠备份及实时分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410227594.XA CN103970897B (zh) 2014-05-27 2014-05-27 应急性爆发数据可靠备份及实时分析方法及系统

Publications (2)

Publication Number Publication Date
CN103970897A true CN103970897A (zh) 2014-08-06
CN103970897B CN103970897B (zh) 2017-12-26

Family

ID=51240395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410227594.XA Active CN103970897B (zh) 2014-05-27 2014-05-27 应急性爆发数据可靠备份及实时分析方法及系统

Country Status (1)

Country Link
CN (1) CN103970897B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040103374A1 (en) * 2002-11-20 2004-05-27 Nec Corporation Function extension type browser, browser component, program and recording medium
CN101604269A (zh) * 2009-07-22 2009-12-16 中国科学院计算技术研究所 一种备份数据的管理系统和方法
CN101902498A (zh) * 2010-07-02 2010-12-01 广州鼎甲计算机科技有限公司 一种基于网络技术的存储云备份方法
CN102414673A (zh) * 2009-04-24 2012-04-11 微软公司 智能的备份数据分层
CN103220167A (zh) * 2013-03-25 2013-07-24 中标软件有限公司 一种分布式监控系统及其数据存储方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040103374A1 (en) * 2002-11-20 2004-05-27 Nec Corporation Function extension type browser, browser component, program and recording medium
CN102414673A (zh) * 2009-04-24 2012-04-11 微软公司 智能的备份数据分层
CN101604269A (zh) * 2009-07-22 2009-12-16 中国科学院计算技术研究所 一种备份数据的管理系统和方法
CN101902498A (zh) * 2010-07-02 2010-12-01 广州鼎甲计算机科技有限公司 一种基于网络技术的存储云备份方法
CN103220167A (zh) * 2013-03-25 2013-07-24 中标软件有限公司 一种分布式监控系统及其数据存储方法

Also Published As

Publication number Publication date
CN103970897B (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
US10394611B2 (en) Scaling computing clusters in a distributed computing system
JP5562444B2 (ja) クラスタシステムにおいてクラスタ非対応アプリケーションをフェールオーバーするためのシステムおよび方法
US9075856B2 (en) Systems and methods for distributing replication tasks within computing clusters
JP5701320B2 (ja) 複製ターゲットがシンプロビジョニングストレージシステム上の未使用記憶空間を再利用できるようにするためのシステムおよび方法
CN108023967B (zh) 一种数据平衡方法、装置及分布式存储系统中的管理设备
US8984325B2 (en) Systems and methods for disaster recovery of multi-tier applications
US9292371B1 (en) Systems and methods for preventing failures of nodes in clusters
US9626120B1 (en) Systems and methods for dynamically adjusting batch request sizes
US9391865B1 (en) Systems and methods for facilitating fault-tolerant backup jobs
CN106407463A (zh) 一种基于Hadoop的图像处理方法及系统
US10380074B1 (en) Systems and methods for efficient backup deduplication
CN104283959A (zh) 一种适用于云平台的基于性能分级的存储机制
US8595192B1 (en) Systems and methods for providing high availability to instance-bound databases
CN103310460A (zh) 图像特征提取的方法及系统
EP3398084A1 (en) Systems and methods for efficiently classifying data objects
CN104035837A (zh) 一种在线备份同/异构UNIX/Linux主机的方法
CN111813332A (zh) 一种高性能、高扩展和高安全的智能分布式存储系统
US9124534B1 (en) Systems and methods for managing sub-clusters within dependent clustered computing systems subsequent to partition events
CN110674080A (zh) 一种基于NiFi的大数据量非结构文件采集方法及系统
CN103970897A (zh) 应急性爆发数据可靠备份及实时分析方法及系统
US9436697B1 (en) Techniques for managing deduplication of data
CN109788077A (zh) 一种支持集群的云备份系统及其方法
US10372607B2 (en) Systems and methods for improving the efficiency of point-in-time representations of databases
US8954780B1 (en) Systems and methods for transferring input/output operations within computer clusters
US10049115B1 (en) Systems and methods for performing incremental database backups

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant