CN107239369A - 一种数据库归档备份系统和方法 - Google Patents

一种数据库归档备份系统和方法 Download PDF

Info

Publication number
CN107239369A
CN107239369A CN201710256921.8A CN201710256921A CN107239369A CN 107239369 A CN107239369 A CN 107239369A CN 201710256921 A CN201710256921 A CN 201710256921A CN 107239369 A CN107239369 A CN 107239369A
Authority
CN
China
Prior art keywords
data
filing
database
backup
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710256921.8A
Other languages
English (en)
Inventor
赵世辉
邓波
张东凯
王成名
邓杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN201710256921.8A priority Critical patent/CN107239369A/zh
Publication of CN107239369A publication Critical patent/CN107239369A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据库归档备份系统,所述系统包括:数据库系统,用于提供用户访问任务,完成归档数据的访问,以及将监控的运行数据作为特征数据保存;磁带库系统,用于按照数据风险级别对所述数据库访问的数据进行分类转存;调度控制系统,用于分析所述特征数据,生成归档和备份任务,并根据系统运行状态调度控制所述数据库系统和所述磁带库系统之间的任务处理。通过以特征数据驱动的数据仓库存储及备份恢复,对数据管理具有更好的扩展性和复用性。

Description

一种数据库归档备份系统和方法
技术领域
本发明涉及数据处理领域,更为具体而言,涉及一种数据库归档备份系统和方法。
背景技术
随着数据管理的不断发展,目前成熟的HSM(分层存储管理)技术主要针对文件级进行操作,通过分析文件的访问频度及重要程度,形成归档、备份等分级保存策。基本原理是按照文件的访问时间等信息判断此文件是否活跃,结合文件的重要程度完成从高速存储到低速存储直至磁带的流转。但对于数据库而言,其信息存储方式不同于普通文件,无法从操作系统级获取访问信息,所以目前数据库特别是存储大数据量的数据仓库无成熟产品及方案可以自动的、准确的进行信息的梯度保存和信息生命周期管理。目前数据仓库的存储策略基本依赖人工方式判断信息的重要程度,通过分类整理后以数据库备份格式存在下级存储,需要时再进行恢复。此技术与HSM有较大差别,数据库的存储归档策略是基于数据信息级制定,而HSM则是基于文件级制定。但现有数据库存储归档策略中存在以下问题:企业级数据(仓)库数据量庞大,关系复杂,目前的归档及备份恢复技术通常只为应对灾难性恢复,无法满足快速历史数据检索及分析。未分级存储的数据备份开销较大,其过程严重影响数据仓库系统日常运行。由于数据中存在大量的不活跃信息,备份时浪费了大量的空间和时间。同时在日常运行中,这些不活跃信息与活跃信息混和在一起(如存放在一张数据表中),访问时会浪费大量处理资源。
目前数据仓库的归档策略主要依赖人工识别,无法针对数据变更及时进行调整,此外受人为因素影响,难免出现错误。
发明内容
鉴于现有技术的上述缺陷,本发明实施方式提供了一种数据库归档备份系统和方法,能够有效解决当前无法针对数据变更及时进行调整,受人为因素影响和易出错的问题。
具体地,本发明实施方式提供了一种数据库归档备份系统,其包括:
数据库系统,用于提供用户访问任务,完成归档数据的访问,以及将监控的运行数据作为特征数据保存;
磁带库系统,用于按照数据风险级别对所述数据库访问的数据进行分类转存;
调度控制系统,用于分析所述特征数据,生成归档和备份任务,并根据系统运行状态调度控制所述数据库系统和所述磁带库系统之间的任务处理。
相应地,本发明实施方式还提供了一种数据库归档备份方法,所述方法包括:
数据库系统提供用户访问任务,完成归档数据的访问,以及将监控的运行数据作为特征数据保存;
磁带库系统按照数据风险级别对所述数据库访问的数据进行分类转存;
调度控制系统分析所述特征数据,生成归档和备份任务,并根据系统运行状态调度控制所述数据库系统和所述磁带库系统之间的任务处理
通过采用本发明实施方式,能够有效解决数据仓库中数据的使用和存储效率,从而达到降低数据仓库整体数据拥有成本的效果。
附图说明
图1是根据本发明实施方式的一种数据库归档备份系统的结构架构图;
图2是根据本发明另一种实施方式的数据库归档备份系统的架构图;
图3是根据本发明又一种实施方式的数据库归档备份系统的架构图;
图4是根据本发明再一种实施方式的数据库归档备份系统的架构图;
图5是根据本发明实施方式的一种数据库归档备份方法的流程示意图;
图6是图5所示流程中步骤S1的具体流程示意图;
图7是图5所示流程中步骤S2的具体流程示意图。
具体实施方式
为了便于理解本发明技术方案的各个方面、特征以及优点,下面结合附图对本发明进行具体描述。应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。
首先对根据本发明可能涉及到的名称或术语进行解释。
信息生命周期:信息从生成到删除的整个过程,主要包括信息生成、访问、归档、备份、删除。
归档信息识别:根据信息访问频度及保存代价等因素确定可归档的信息及归档策略。
梯度信息保存:根据信息内容的不同实现分级存储,使存储、备份及恢复代价最小。
LAN-Based备份结构:以网络为基础的,配置备份服务器,由它负责整个系统的备份操作。磁带库连接在备份服务器上,在数据备份时备份对象把数据通过网络传输到磁带库中实现备份的。此结构的优点是节省投资、磁带库共享、集中备份管理,缺点是对网络传输压力大。
Host-Based备份结构:主机与磁带库直连,由主机承担整个系统的备份操作。优点是数据传输速度快,备份管理简单,缺点是不利于备份系统的共享,不适合于大型企业的数据备份要求。
实施例1:
图1是根据本发明实施方式的一种数据库归档备份系统的结构架构图。参照图1,所述系统包括:
数据库系统100,用于提供用户访问任务,完成归档数据的访问,以及将监控的运行数据作为特征数据保存;
磁带库系统200,用于按照数据风险级别对所述数据库访问的数据进行分类转存;
调度控制系统300,用于分析所述特征数据,生成归档和备份任务,并根据系统运行状态调度控制所述数据库系统和所述磁带库系统之间的任务处理。
在本实施方式中,通过以特征数据驱动的数据仓库存储及备份恢复,对数据管理具有更好的扩展性和复用性。
实施例2:
图2是根据本发明另一种实施方式的数据库归档备份系统的架构图;在本发明的另一种实施方式中,所述系统除了上述处理方式外,其中,所述数据库系统包括:
运行库,用于提供用户访问任务;
归档库,用于配合所述运行库完成归档数据的访问;
特征数据库,用于将监控的运行数据作为特征数据保存。
在该实施例中,主要采用分级存储的方式:根据数据的重要性、访问频次等指标采取不同的存储方式,分别存储在不同性能的存储系统上。这样一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。在分级数据存储结构中,磁带等成本较低的存储资源用来存放访问频率较低的信息,而磁盘阵列等成本高、速度快的系统,用来存储经常访问的重要信息。数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。
实施例3:
参考图2,在本发明的另一种实施方式中,所述系统除了上述处理方式外,其中,所述磁带库系统200包括:
归档带组,用于存储恢复短周期内数据代价最小的数据;
历史数据带组,用于对所述归档带组的数据进行整理、合并和转存;
灾备带组,用于按照预定义的保存策略存储重要的数据。
实施例4:
图3是根据本发明又一种实施方式的数据库归档备份系统的架构图;参照图3,在本发明的另一种实施方式中,所述系统除了上述处理方式外,其中,所述系统还包括:
备份交换机,用于将所述数据库系统中的数据库服务器与所述磁带库系统的备份服务器相连,采用LAN-BASE技术实现数据备份和传输。
在该实施例中,由于企业级数据仓库数据量庞大,数据库服务器采用多台对应多处理(SMP)系统组成大规模并行处理(MPP)系统,这样无论从处理能力还是扩展性上,都可以很好的满足数据仓库发展要求。每台SMP带有单独存储,此外为保证系统的高可用性,每台SMP还与部分其它SMP管理的存储相连,当一台系统出现故障时,可以由其它系统接管上面运行的任务。备份方式采用LAN-BASE技术实现高效备份,系统中使用备份交换机,将数据库服务器与备份服务器相连,每个备份服务器与磁带库中的几个带机相连,在进行备份任务时,由交换机和备份服务器承担备份过程中的传输和计算任务,减少数据库服务器的压力,使备份过程对日常处理不产生较大影响,实现短时间内完成备份或恢复任务。在整个数据传输过程中,由于数据量巨大,传输过程采用光纤通道(FC)和万兆以太网(ETH)。备份过程中备份服务器软件控制数据从数据库服务器通过交换机写入磁带库,数据库服务器在传输中承担访问接口的作用,备份软件连接此接口获取数据库中的信息,大部分数据处理转移到备份服务器,极大的减少对数据库服务器的影响,从而保证了数据库日常处理访问的效率。在调度控制方面,由于仅为控制数据流,所以系统间通过局域网(LAN)互联。调度服务器获取数据库服务中的保存的特征数据信息,形成调度任务,控制数据库服务器、备份服务器的操作。
实施例5:
图4是根据本发明再一种实施方式的数据库归档备份系统的架构图;参照图4,在本发明的另一种实施方式中,所述系统除了上述处理方式外,所述系统还包括:采用多台所述数据库服务器对应多台所述备份服务器的大规模并行处理系统。
本发明中数据库软硬件采用成熟的产品Teradata,多台服务器通过专用网络互联,形成MPP系统。数据库软件在此平台上运行,数据采用散列函数(HASH)分布方式存储在每台服务器附带的存储,操作上每台服务器只负责所管理的部分数据,数据库内部数据归档通过标准结构化查询语言(SQL)即可高效完成。数据操作记录经过加工形成归档及备份特征数据,此外,定期汇总系统提供的数据访问及数据版本变更记录也通过的特征数据统计保存和管理。以上数据操作使用嵌入SQL语句及数据库接口的程序实现。
系统中的备份服务器根据带宽要求配置2-4个LTO磁带机,实现了并行备份。通过交换机,所有数据库数据可共享被备份服务器获取,并根据需要随时可以进行扩充。备份控制软件使用NetBackup实现,通过数据库插件与数据库连接,利用其对带机进行分组和对备份任务优先级的控制功能,保证了大数据量的并行备份及重要任务的实时运行。
调度系统使用普通服务器,ETL(数据的抽取、转换、加载)工具采用Perl语言代码,调度工具使用BMC Control-M,ETL用于完成特征数据的分析并形成归档及备份任务,任务采用Perl语言调用Teradata数据库和NetBackup接口实现。调度工具则根据特征数据及整体调度情况为以上任务配置运行触发条件,通过每台系统上的调度代理服务触发各类ETL任务运行。此两种工具提供了良好的扩展,可以适应各种复杂的任务。
以上为本申请提供的一种数据库归档备份系统的各种实施方式的说明,下面对本申请提供的一种数据库归档备份方法的实施方式进行说明。
图5是根据本发明实施方式的一种数据库归档备份方法的流程示意图。参照图5,所述方法包括:
步骤S1,数据库系统提供用户访问任务,完成归档数据的访问,以及将监控的运行数据作为特征数据保存;
步骤S2,磁带库系统按照数据风险级别对所述数据库访问的数据进行分类转存;
步骤S3,调度控制系统分析所述特征数据,生成归档和备份任务,并根据系统运行状态调度控制所述数据库系统和所述磁带库系统之间的任务处理。
图6是图5所示流程中步骤S1的具体流程示意图;参照图6,在本发明的另一实施方式中,所述方法了上述处理方式外,其中,所述步骤S1包括:
步骤S11,所述数据库系统中的运行库提供用户访问任务;
步骤S12,所述数据库系统中的归档库配合所述运行库完成归档数据的访问;
步骤S13,所述数据库系统中的特征数据库将监控的运行数据作为特征数据保存。
图7是图5所示流程中步骤S2的具体流程示意图;参照图7,在本发明的又一实施方式中,所述方法除了上述处理方式外,其中,所述步骤S2包括:
步骤S21,所述磁带库系统中的归档带组存储恢复短周期内数据代价最小的数据;
步骤S22,所述磁带库系统中的历史数据带组对所述归档带组的数据进行整理、合并和转存;
步骤S23,所述磁带库系统中的灾备带组按照预定义的保存策略存储重要的数据。
在本发明的再一实施方式中,所述方法除了上述处理方式外,其中,所述方法还包括:
通过备份交换机将所述数据库系统中的数据库服务器与所述磁带库系统的备份服务器相连,采用LAN-BASE技术实现数据备份和传输。
在本发明的另一种实施方式中,所述方法还包括:
采用多台所述数据库服务器对应多台所述备份服务器的大规模并行处理系统。
需要说明的是,上述数据库归档备份方法的各个实施方式与所述一种数据库归档备份系统的对应技术内容完全一致,为了避免重复,在此不再冗述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机系统(可以是个人计算机,服务器,或者网络系统等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本领域技术人员应当理解,以上所公开的仅为本发明的实施方式而已,当然不能以此来限定本发明之权利范围,依本发明实施方式所作的等同变化,仍属本发明权利要求所涵盖的范围。

Claims (10)

1.一种数据库归档备份系统,其特征在于,所述系统包括:
数据库系统,用于提供用户访问任务,完成归档数据的访问,以及将监控的运行数据作为特征数据保存;
磁带库系统,用于按照数据风险级别对所述数据库访问的数据进行分类转存;
调度控制系统,用于分析所述特征数据,生成归档和备份任务,并根据系统运行状态调度控制所述数据库系统和所述磁带库系统之间的任务处理。
2.如权利要求1所述的系统,其特征在于,所述数据库系统包括:
运行库,用于提供用户访问任务;
归档库,用于配合所述运行库完成归档数据的访问;
特征数据库,用于将监控的运行数据作为特征数据保存。
3.如权利要求1所述的系统,其特征在于,所述磁带库系统包括:
归档带组,用于存储恢复短周期内数据代价最小的数据;
历史数据带组,用于对所述归档带组的数据进行整理、合并和转存;
灾备带组,用于按照预定义的保存策略存储重要的数据。
4.如权利要求1所述的系统,其特征在于,所述系统还包括:
备份交换机,用于将所述数据库系统中的数据库服务器与所述磁带库系统的备份服务器相连,采用LAN-BASE技术实现数据备份和传输。
5.如权利要求4的所述的系统,其特征在于,所述系统还包括:
采用多台所述数据库服务器对应多台所述备份服务器的大规模并行处理系统。
6.一种数据库归档备份方法,其特征在于,所述方法包括:
数据库系统提供用户访问任务,完成归档数据的访问,以及将监控的运行数据作为特征数据保存;
磁带库系统按照数据风险级别对所述数据库访问的数据进行分类转存;
调度控制系统分析所述特征数据,生成归档和备份任务,并根据系统运行状态调度控制所述数据库系统和所述磁带库系统之间的任务处理。
7.如权利要求1所述的方法,其特征在于,所述数据库系统提供用户访问任务,完成归档数据的访问,以及将监控的运行数据作为特征数据保存包括:
所述数据库系统中的运行库提供用户访问任务;
所述数据库系统中的归档库配合所述运行库完成归档数据的访问;
所述数据库系统中的特征数据库将监控的运行数据作为特征数据保存。
8.如权利要求1所述的方法,其特征在于,所述磁带库系统按照数据风险级别对所述数据库访问的数据进行分类转存包括:
所述磁带库系统中的归档带组存储恢复短周期内数据代价最小的数据;
所述磁带库系统中的历史数据带组对所述归档带组的数据进行整理、合并和转存;
所述磁带库系统中的灾备带组按照预定义的保存策略存储重要的数据。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
通过备份交换机将所述数据库系统中的数据库服务器与所述磁带库系统的备份服务器相连,采用LAN-BASE技术实现数据备份和传输。
10.如权利要求9的所述的方法,其特征在于,所述方法还包括:
采用多台所述数据库服务器对应多台所述备份服务器的大规模并行处理系统。
CN201710256921.8A 2017-04-19 2017-04-19 一种数据库归档备份系统和方法 Withdrawn CN107239369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710256921.8A CN107239369A (zh) 2017-04-19 2017-04-19 一种数据库归档备份系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710256921.8A CN107239369A (zh) 2017-04-19 2017-04-19 一种数据库归档备份系统和方法

Publications (1)

Publication Number Publication Date
CN107239369A true CN107239369A (zh) 2017-10-10

Family

ID=59983734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710256921.8A Withdrawn CN107239369A (zh) 2017-04-19 2017-04-19 一种数据库归档备份系统和方法

Country Status (1)

Country Link
CN (1) CN107239369A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569232A (zh) * 2019-09-11 2019-12-13 宝付网络科技(上海)有限公司 一种数据库历史数据自动归档系统
CN111143280A (zh) * 2019-12-31 2020-05-12 广州广电运通信息科技有限公司 一种数据调度方法、系统、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446966A (zh) * 2008-12-31 2009-06-03 中国建设银行股份有限公司 数据存储方法及系统
CN103064768A (zh) * 2013-01-25 2013-04-24 北京捷成世纪科技股份有限公司 一种基于磁带的数据归档备份方法和系统
CN102541694B (zh) * 2012-01-18 2015-05-13 浪潮(北京)电子信息产业有限公司 一种数据库备份的方法及装置
CN105677685A (zh) * 2014-11-21 2016-06-15 中芯国际集成电路制造(天津)有限公司 数据库系统及于数据库系统中存储和查询数据的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446966A (zh) * 2008-12-31 2009-06-03 中国建设银行股份有限公司 数据存储方法及系统
CN102541694B (zh) * 2012-01-18 2015-05-13 浪潮(北京)电子信息产业有限公司 一种数据库备份的方法及装置
CN103064768A (zh) * 2013-01-25 2013-04-24 北京捷成世纪科技股份有限公司 一种基于磁带的数据归档备份方法和系统
CN105677685A (zh) * 2014-11-21 2016-06-15 中芯国际集成电路制造(天津)有限公司 数据库系统及于数据库系统中存储和查询数据的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569232A (zh) * 2019-09-11 2019-12-13 宝付网络科技(上海)有限公司 一种数据库历史数据自动归档系统
CN111143280A (zh) * 2019-12-31 2020-05-12 广州广电运通信息科技有限公司 一种数据调度方法、系统、装置及存储介质
CN111143280B (zh) * 2019-12-31 2023-10-10 广州广电运通信息科技有限公司 一种数据调度方法、系统、装置及存储介质

Similar Documents

Publication Publication Date Title
KR101956236B1 (ko) 데이터베이스 관리 시스템에서의 데이터 복제 기법
US9665634B2 (en) Advanced database systems and methods for use in a multi-tenant system
US10956276B2 (en) System state recovery in a distributed, cloud-based storage system
US11176128B2 (en) Multiple access path selection by machine learning
US20100115100A1 (en) Federated configuration data management
CN108694195B (zh) 一种分布式数据仓库的管理方法及系统
US20110179058A1 (en) Enabling workflow awareness within a business process management (bpm) system
CN101446966A (zh) 数据存储方法及系统
CN109783512A (zh) 数据处理方法、装置、计算机设备及存储介质
CN104391989A (zh) 一种分布式etl一体机系统
CN102833281B (zh) 一种分布式自增计数的实现方法、装置及系统
CN109086410A (zh) 流式海量数据的处理方法及系统
CN105989163A (zh) 数据实时处理方法及系统
US20110196856A1 (en) Processing a data stream
Cheng et al. Efficient event correlation over distributed systems
CA2799877C (en) Data archiving and de-archiving in a business environment
CN102779138A (zh) 实时数据的硬盘存取方法
CN107239369A (zh) 一种数据库归档备份系统和方法
WO2015139565A1 (en) Heterogeneous logging system management configuration
CN106874343A (zh) 一种时序数据库的数据删除方法及系统
US20180225325A1 (en) Application resiliency management using a database driver
Sansottera et al. Consolidation of multi-tier workloads with performance and reliability constraints
Tseng et al. A successful application of big data storage techniques implemented to criminal investigation for telecom
CN107622123B (zh) 一种面向asm文件系统的文件解析方法
CN109788077A (zh) 一种支持集群的云备份系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20171010