CN104102737A

CN104102737A - 一种历史数据存储方法和系统

Info

Publication number: CN104102737A
Application number: CN201410363419.3A
Authority: CN
Inventors: 杨亮; 王晶
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2014-07-28
Filing date: 2014-07-28
Publication date: 2014-10-15
Anticipated expiration: 2034-07-28
Also published as: CN104102737B

Abstract

本发明公开一种历史数据存储方法和系统，所述方法针对历史数据中存在价值较低的数据这一现象，预先制定了筛选策略，以过滤价值较低的数据；并将结构化数据转化为非结构化的文本数据，同时为避免对部分表内的数据在每个抽取周期重复抽取，造成存储浪费，制定了数据抽取策略及相应的两种抽取方式：增量和全量抽取，例如明细类表数据量大、增量大且有时间字段，可采用增量方式进行数据抽取，只保存增量数据，而其他表则采用全量方式，最终得到文本格式的抽取数据，并将其保存至存储设备。可见，本发明通过数据筛选过滤了价值较低的数据，同时只保存增量数据，并将结构化数据转化为非结构化的文本数据，大大减少了需保存的数据量，降低了存储成本。

Description

一种历史数据存储方法和系统

技术领域

本发明属于数据存储、管理技术领域，尤其涉及一种历史数据存储方法和系统。

背景技术

随着信息技术应用的不断发展，大型企业尤其是金融行业的信息系统产生的历史数据越来越庞大，而且历史数据的增长量也越来越快。

大型企业尤其是金融行业的历史数据包含较多的重要信息、敏感信息，例如银行系统的客户数据等，基于企业自身业务需求或监管需求，不能轻易删除历史数据，因此，需对信息系统所产生的历史数据进行存储。传统一般采用结构化存储方式，每个存储周期将结构化历史数据全量备份保存于专门搭建的数据库、数据表中，或保存在增设的磁带库中。然而，随着大数据时代的到来，存储于数据库中的结构化历史数据量将飞速增长，从而导致数据库和磁带库消耗的存储资源将越来越大、存储成本将越来越高。

因此，提供一种能够减小存储资源消耗、降低存储成本的历史数据存储方法成为该领域亟需解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种历史数据存储方法和系统，以解决当前数据存储方式存在的存储资源消耗较大、存储成本较高的问题。

为此，本发明公开如下技术方案：

一种历史数据存储方法，包括：

依据预先制定的筛选策略对信息系统产生的结构化历史数据进行筛选，得到待归档的结构化历史数据，所述待归档的结构化历史数据包括至少一种类型的数据表；

依据预先设定的数据抽取策略获取所述待归档的结构化历史数据中每种类型数据表所属的数据抽取方式，其中，所述数据抽取方式包括增量抽取方式和全量抽取方式；

若相应类型数据表的抽取方式为增量抽取方式，则对所述类型数据表中的数据进行增量抽取，得到文本文件格式的增量数据；

若相应类型数据表的抽取方式为全量抽取方式，则对所述类型数据表中的数据进行全量抽取，得到文本文件格式的全量数据；

将所述文本文件格式的增量数据以及全量数据保存至存储设备。

上述方法，优选的，所述数据表的类型包括明细类、主档类和静态类。

上述方法，优选的，所述存储设备为磁盘存储设备。

上述方法，优选的，还包括：

分别为所述增量数据所在的文本文件以及所述全量数据所在文本文件配置元数据，所述元数据记录所述文本文件的属性信息。

上述方法，优选的，还包括：

对保存后的所述文本文件格式的数据进行归档管理，所述归档管理包括文件归档、权限管理、文件检索、文件下载、任务监控和元数据管理。

上述方法，优选的，还包括：

通过对保存后的所述文本文件格式的数据进行查询管理，实现对保存数据的再利用。

一种历史数据存储系统，包括筛选模块、获取模块、增量抽取模块、全量抽取模块以及保存模块，其中：

所述筛选模块，用于依据预先制定的筛选策略对信息系统产生的结构化历史数据进行筛选，得到待归档的结构化历史数据，所述待归档的结构化历史数据包括至少一种类型的数据表；

所述获取模块，用于依据预先设定的数据抽取策略获取所述待归档的结构化历史数据中每种类型数据表所属的抽取方式，其中，所述抽取方式包括增量抽取方式和全量抽取方式；

所述增量抽取模块，用于在相应类型数据表的抽取方式为增量抽取方式时，对所述类型数据表中的数据进行增量抽取，得到文本文件格式的增量数据；

所述全量抽取模块，用于在相应类型数据表的抽取方式为全量抽取方式时，对所述类型数据表中的数据进行全量抽取，得到文本文件格式的全量数据；

所述保存模块，用于将所述文本文件格式的增量数据以及全量数据保存至存储设备。

上述系统，优选的，还包括配置模块，所述配置模块用于分别为所述增量数据所在的文本文件以及所述全量数据所在文本文件配置元数据，所述元数据记录所述文本文件的属性信息。

上述系统，优选的，还包括归档管理模块，所述管理模块用于对保存后的所述文本文件格式的数据进行归档管理，所述归档管理包括文件归档、权限管理、表信息查询、文件检索、文件下载和元数据管理。

上述系统，优选的，还包括查询管理模块，所述查询管理模块用于通过对保存后的所述文本文件格式的数据进行查询管理，实现对保存数据的再利用。

本发明提供了一种历史数据存储方法和系统，所述方法针对结构化历史数据中往往存在价值较低的数据这一现象，预先制定了筛选策略，以过滤价值较低的数据；并改变结构化数据全量备份的保存方式，将占用资源较多的结构化数据转化为非结构化的文本数据，同时为避免对部分表内的数据每个抽取周期重复抽取，造成存储浪费，制定了数据抽取策略及相应的两种抽取方式：增量抽取和全量抽取，例如明细类数据表数据量大、增长量大且有日期时间字段，对其可采用增量方式进行数据抽取，每个存储周期只保存增量数据，而其他数据表，如静态表等增量较小且无时间字段，则采用全量方式进行抽取，最终得到文本文件格式的抽取数据，并将其保存至存储设备。

可见，本发明改变了结构化数据全量备份的保存方式，通过数据筛选过滤掉了价值较低的数据，同时针对明细类表只保存增量数据，并将占用资源较多的结构化数据转化为非结构化的文本数据，大大减少了需保存的数据量，减小了存储消耗、降低了存储成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一公开的历史数据存储方法的一种流程图；

图2是本发明实施例三公开的历史数据存储方法的另一种流程图；

图3是本发明实施例四公开的历史数据存储方法的又一种流程图；

图4是本发明实施例五公开的历史数据存储系统的一种结构示意图；

图5是本发明实施例五公开的历史数据存储系统的另一种结构示意图；

图6是本发明实施例五公开的历史数据存储系统的又一种结构示意图；

图7是本发明实施例五公开的实现本发明方法的技术架构。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例一公开一种历史数据存储方法，该方法适于对海量历史数据进行长期保存，请参见图1，上述方法包括如下步骤：

S1：依据预先制定的筛选策略对信息系统产生的结构化历史数据进行筛选，得到待归档的结构化历史数据，所述待归档的结构化历史数据包括至少一种类型的数据表。

大型企业，例如银行类的大型金融企业，结构化历史数据的数据量以及每日的数据增量都非常大(占用空间超过TB级)，且这些数据中往往存在一些不重要的、价值较低的数据，对所有数据进行归档保存会造成不必要的资源浪费，针对此种情况，本实施例预先制定筛选策略，以对价值较低的数据进行过滤，初步减少需保存的数据量。

具体地，通过对数据库表中存储的数据业务类型进行判断，将有价值、重要、需要长期保存的数据纳入保存范围。以银行系统为例，记载银行与客户之间债权、债务关系(如分户帐)和记载银行与客户之间交易行为关系(如日志、明细帐等)的数据为银行系统的核心数据，价值较高，此类数据需要保存，而其他一些非账务数据暂不纳入需要存储的范围，因此，可采用筛选策略将这些数据过滤掉。

S2：依据预先设定的数据抽取策略获取所述待归档的结构化历史数据中每种类型数据表所属的数据抽取方式，其中，所述数据抽取方式包括增量抽取方式和全量抽取方式。

由于企业历史数据量巨大，本发明考虑尽量不在每个抽取周期对所有数据(包括之前历史数据和本周期新增数据)进行全量归档，为避免对部分数据表内数据每个周期重复抽取，造成存储浪费，本发明制定了数据抽取策略及相应的两种抽取方式：增量抽取(只抽取本周期新增数据)和全量抽取，以采用相应方式从生产数据库(在线数据)、历史数据库(近线数据)或历史磁带库(离线数据)中抽取数据。

S3：若相应类型数据表的抽取方式为增量抽取方式，则对所述类型数据表中的数据进行增量抽取，得到文本文件格式的增量数据。

具体地，例如明细类数据表数据量大、增长量大且有日期字段，对该类数据表可按日期字段采用增量方式只抽取其当日新增数据，并同时将新增数抽取为非结构化的文本文件格式进行保存，而之前的历史数据不再重复抽取。

由于明细类数据表数据量及增长量较大，本实施例对其进行每日归档，即每天抽取明细表的当日新增数据，减少了数据的重复抽取。

S4：若相应类型数据表的抽取方式为全量抽取方式，则对所述类型数据表中的数据进行全量抽取，得到文本文件格式的全量数据；

主档表或静态表没有日期字段标识数据时间，只能在每个抽取周期采用全量抽取方式对全表数据进行抽取，并同时将全量数据抽取为非结构化的文本文件格式。对于主档表或静态表，由于其数据量及增长量较小，本实施例采用每月归档，减少了数据的抽取次数。

具体地，对于存储在数据库中的数据，可采用数据库提供的抽取为文本文档的命令进行数据抽取，例如针对sybase数据库，全量抽取可采用该数据库提供的：bcp dbname..tablename out文件(带路径)-Usa-Ppassword-Sservername–c命令抽取得到非结构化的文本文件。

增量抽取可采用增加查询条件实现，如增加查询条件：select*from AAAwhere DATE＝$workDate$可实现从数据表“AAA”中抽取出时间字段是“workDate”的增量数据。

其中，对于已经存储在磁带库中的数据，需要首先搭建数据库环境，利用搭建的环境将磁带数据恢复，之后可对恢复的数据进行抽取。

S5：将所述文本文件格式的增量数据以及全量数据保存至存储设备。

综上，本发明方法针对结构化历史数据中往往存在价值较低的数据这一现象，预先制定了筛选策略，以过滤价值较低的数据；并改变结构化数据全量备份的保存方式，将占用资源较多的结构化数据转化为非结构化的文本数据，同时为避免对部分表内的数据每个抽取周期重复抽取，造成存储浪费，制定了数据抽取策略及相应的两种抽取方式：增量抽取和全量抽取，例如明细类数据表数据量大、增长量大且有日期时间字段，对其可采用增量方式进行数据抽取，每个存储周期只保存增量数据，而其他数据表，如静态表等增量较小且无时间字段，则采用全量方式进行抽取，最终得到文本文件格式的抽取数据，并将其保存至存储设备。

实施例二

本实施例二对保存文本数据所采用的存储设备进行说明。

具体地，本发明采用磁盘存储设备对抽取的文本数据进行保存。区别于现有的存储介质，本发明采用磁盘存储设备具有如下优势：

1)高效

现实应用中，大规模的历史数据短期内(如三年内)一般存于在线数据库，超过一定年限后一般从在线数据库转移到磁带库中存储，然而保存和访问磁带库历史数据的效率较低，本发明采用磁盘存储设备，提高了数据的保存和访问效率。

2)安全

大型企业尤其是金融行业的历史数据往往包含较多敏感信息，安全性要求较高，现有一般通过权限控制来保证数据的安全性，但仍存在权限泄漏、数据被更改的可能，本发明采用专用的磁盘存储设备，数据文件一旦存入该设备，其从物理层面决定数据将不能再修改。

3)经济

现有数据库尤其是高性能的大型机数据库存储资源成本较高，而磁盘存储设备成本低廉。

4)再利用

现有技术中，时间久远的历史数据一般存放于磁带库中，对磁带库中数据进行再利用难度大、成本高(需搭建一套和产生历史数据的原系统相同的环境)，且磁带介质寿命较短易导致数据无法恢复，本发明采用的磁盘存储设备可将数据恢复至任意一数据库中进行再利用，且其寿命长、设备维护、扩容和升级方便。

实施例三

本实施例三继续对以上实施例公开的历史数据存储方法进行补充，请参见图2，该方法还包括：

S6：分别为所述增量数据所在的文本文件以及所述全量数据所在文本文件配置元数据，所述元数据记录所述文本文件的属性信息。

其中，元数据中记录了文件的重要属性信息，包括省市代码、表名、日期、大小、保存年限等，以方便后续对保存的数据文件进行管理。

实施例四

本实施例四继续对以上实施例公开的历史数据存储方法进行补充、完善。请参见图3，该方法还包括：

S7：对保存后的所述文本文件格式的数据进行归档管理。

归档管理包括文件归档、权限管理、文件检索与下载、数据文件年限管理、辅助查询数据装载、任务监控以及元数据管理等功能。

其中，文件归档包括自动批量归档和手动批量归档。自动批量归档实现将从数据库中抽取的数据定时批量归档保存到磁盘存储设备中(可通过软件形式实现)，手动归档指通过手动操作方式将磁带数据或其他数据归档到磁盘存储设备中。

具体地，实现数据归档保存的过程如下：采用数据抽取程序从生产系统(信息系统)中抽取并导出待归档的文本数据，即格式为gzip的文件(包括增量数据和全量数据)，并将其存放在NAS(Network Attached Storage：网络附属存储)中进行中转存储；当数据抽取程序执行完毕后，数据上传程序将中转存储的gzip文件导入磁盘存储设备中实现归档，同时记录文件的元数据信息，包括省市代码、表名、日期、大小、保存年限等。

元数据管理是归档管理的一项重要功能，用于对已归档文本文件的元数据进行修改、添加或删除等操作，例如修改元数据中的保存年限字段。后续归档管理可在文本文件超出保存年限字段所标识的保存期限后，对该文本文件进行清除。

S8：通过对保存后的所述文本文件格式的数据进行查询管理，实现对保存数据的再利用。

查询管理提供对保存至磁盘设备的文本文件数据进行表信息查询、文件下载、恢复和辅助查询功能，以实现对已保存的相应文本数据进行再利用。

其中，在对文本文件进行归档时，预先制定待归档文件的明细，得到归档明细表。在此基础上，当需要对保存的文本数据进行再利用时，本步骤S8的询管理功能可通过索引查询到文本文件，再将其恢复到任意一数据库中，实现数据的再利用。

具体地，表信息查询(通过索引查询文件)是指通过输入一些关键信息，查找到精确的表信息，例如通过输入中文表名、所属子系统、表的类别、涉及的产品名，可以查到符合条件的表信息，得到英文表名，然后通过输入英文表名、时间区间、文件类型，进行文件检索，得到所需的文本文件。

接下来，本步骤S8提供的查询管理功能将文件检索的结果从归档磁盘设备中下载并导入至本地任意一主流的数据库中，实现数据恢复，之后通过后续的辅助查询从恢复的数据中查询出所需的特定数据，以为后续的数据再利用提供支持。

本实施例通过归档管理和查询管理实现了归档后数据的统一管理和再利用。

实施例五

本实施例五公开一种历史数据存储系统，该系统与以上各实施例公开的历史数据存储方法相对应。

首先，相应于实施例一中历史数据存储方法的流程，如图4所示，上述系统包括筛选模块100、获取模块200、增量抽取模块300、全量抽取模块400以及保存模块500。

筛选模块100，用于依据预先制定的筛选策略对信息系统产生的结构化历史数据进行筛选，得到待归档的结构化历史数据，所述待归档的结构化历史数据包括至少一种类型的数据表。

获取模块200，用于依据预先设定的数据抽取策略获取所述待归档的结构化历史数据中每种类型数据表所属的抽取方式，其中，所述抽取方式包括增量抽取方式和全量抽取方式。

增量抽取模块300，用于在相应类型数据表的抽取方式为增量抽取方式时，对所述类型数据表中的数据进行增量抽取，得到文本文件格式的增量数据。

全量抽取模块400，用于在相应类型数据表的抽取方式为全量抽取方式时，对所述类型数据表中的数据进行全量抽取，得到文本文件格式的全量数据。

保存模块500，用于将所述文本文件格式的增量数据以及全量数据保存至存储设备。

相应于实施例三中历史数据存储方法的流程，请参见图5，上述历史数据存储系统还包括配置模块600，该模块用于分别为所述增量数据所在的文本文件以及所述全量数据所在文本文件配置元数据，所述元数据记录所述文本文件的属性信息。

相应于实施例四，如图6所示，该历史数据存储系统还包括归档管理模块700和查询管理模块800。

归档管理模块700，用于对保存后的所述文本文件格式的数据进行归档管理，所述归档管理包括文件归档、权限管理、表信息查询、文件检索、文件下载和元数据管理。

查询管理模块800，用于通过对保存后的所述文本文件格式的数据进行查询管理，实现对保存数据的再利用。

接下来，请参见图7，本实施例继续公开实现本发明方法或系统的技术架构，包括主机数据层、数据抽取层和历史数据管理层。

在主机数据层，可将历史磁带备份数据恢复到数据库，恢复数据同当前生产数据库一起，作为数据源对外提供数据抽取接口。

在数据抽取层，配置抽取策略和作业，并使用数据库提供的自有工具或第三方工具，进行数据库的数据抽取，将数据库数据转换为纯文本文件。

在历史数据管理层，通过开发专用的管理系统平台，对权限、归档操作、文件等进行管理，并通过辅助查询，对外提供历史数据的再利用。

对于本发明实施例五公开的历史数据存储系统而言，由于其与以上各实施例公开的历史数据存储方法相对应，所以描述的比较简单，相关相似之处请参见以上各实施例中历史数据存储方法部分的说明即可，此处不再详述。

综上所述，本发明通过制定数据的抽取策略，改变了结构化数据全量备份保存的方式，只保存增量数据，并将结构化数据转换为非结构化的文本数据，大大减少了需保存的数据量，降低了资源消耗；且本发明使用磁盘存储设备保存数据，具有高效、安全、经济以及再利用可靠性高的优点，当需要对已保存的文本数据恢复再利用时，通过索引查询到文本文件再将其恢复到任意一主流数据库中即可，数据再利用的可靠性大大增强。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各模块、单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种历史数据存储方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述数据表的类型包括明细类、主档类和静态类。

3.根据权利要求1所述的方法，其特征在于，所述存储设备为磁盘存储设备。

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.一种历史数据存储系统，其特征在于，包括筛选模块、获取模块、增量抽取模块、全量抽取模块以及保存模块，其中：

8.根据权利要求7所述的系统，其特征在于，还包括配置模块，所述配置模块用于分别为所述增量数据所在的文本文件以及所述全量数据所在文本文件配置元数据，所述元数据记录所述文本文件的属性信息。

9.根据权利要求8所述的系统，其特征在于，还包括归档管理模块，所述管理模块用于对保存后的所述文本文件格式的数据进行归档管理，所述归档管理包括文件归档、权限管理、表信息查询、文件检索、文件下载和元数据管理。

10.根据权利要求8所述的系统，其特征在于，还包括查询管理模块，所述查询管理模块用于通过对保存后的所述文本文件格式的数据进行查询管理，实现对保存数据的再利用。