CN114787790A

CN114787790A - 利用数据的混合存储的数据归档方法及系统

Info

Publication number: CN114787790A
Application number: CN202080084433.3A
Authority: CN
Inventors: 金沃洙; 丁世勋
Original assignee: Armiq Co Ltd
Current assignee: Armiq Co Ltd
Priority date: 2020-01-06
Filing date: 2020-12-22
Publication date: 2022-07-22
Also published as: KR102270896B1; KR20210088419A; KR102267441B1; US20210374118A1; JP2021111352A; KR102301304B1; KR20210088407A; JP7324471B2; US11249975B2; CN114761939A; JP2022520654A; WO2021141294A1; KR102559290B1

Abstract

本发明提供如下的数据归档方法及系统，即，通过将存储在数据库中的至少一部分数据压缩存储于上述数据库或其他数据库的列表来实现可快速搜索所压缩存储的数据的第一次归档，并且，根据预设条件将压缩存储于列表中的至少一部分数据存储为文件，从而可针对不再需要搜索或搜索要求较低的数据实现第二次归档。

Description

利用数据的混合存储的数据归档方法及系统

技术领域

以下说明涉及利用数据的混合存储的数据归档方法及系统。

背景技术

最近，随着数据相关规定的加强、医疗行业的发展、患者的数据存储管理相关重要性及企业对数据管理的关注日益增加，对于数据归档的研究需求也逐渐增加。例如，在数据相关规定层面上，为了保护消费者权益，法律规定金融交易数据、医疗信息等数据应保存数年至数十年，因此，基于各种数据相关规定需长时间存储数据。并且，在医疗行业领域中，随着对影像诊断的依赖度逐渐上升，医疗影像数据量也会随之增加，因此，包括用于保存、管理数据的存储及备份需求在内，用于管理大量数据的归档系统相关需求也逐渐增加。并且，在企业内部的数据管理层面上，除将企业收发的大量数据存储在服务器并针对存储在服务器中的数据进行实时复原和备份的工作外，在安全层面上，保存并管理重要数据的功能也变得愈发重要。另一方面，在制造行业的自动化层面上，虽然劳动密集型制造商以往向中国、印度等低工资国家转移工厂，但是，随着机器人技术的发展，正在通过建立提高生产效率及质量的融合型机器人工厂来加速实现工序自动化。

随着第四次工业革命的到来，虽然大数据领域正备受瞩目，但是，当前韩国的大数据领域主要集中投资服务器、存储器、网络等基础设施，因此，将来需通过开发归档技术来分散基础设施的投资并扩大软件领域及服务领域的发展机会。为此，当前需开发相比于现有技术更具高数据压缩率、压缩速度且能够快速查询数据的归档技术。

现有技术文献

韩国公开专利第2014-0072929号(发明名称：归档工作执行自动化方法，公开日：2014年6月16日)

发明内容

技术问题

本发明的目的在于，提供如下的数据归档方法及系统，即，通过将存储在对象系统所包含的数据库中的至少一部分数据压缩存储于上述数据库或其他数据库的列表来实现可快速搜索所压缩存储的数据的第一次归档，并且，根据预设条件将压缩存储于列表中的至少一部分数据存储为文件，从而可针对不再需要搜索或搜索要求较低的数据实现第二次归档。

技术方案

本发明提供的数据归档方法由包括至少一个处理器的计算机装置执行，包括如下步骤：通过上述至少一个处理器，将存储在对象系统所包含的数据库中的至少一部分数据压缩存储于上述数据库或其他数据库的列表；以及通过上述至少一个处理器，根据预设条件将压缩存储于上述列表的至少一部分数据存储为文件。

根据一实施方式，本发明的特征在于，上述预设条件可包括如下条件中的至少一个：第一条件，是否从上述对象系统的管理人员接收第二次归档指令；第二条件，压缩存储于上述列表的数据是否超过保存时间；第三条件，在预设的第一时间内是否对压缩存储于上述列表的数据产生搜索要求；以及第四条件，在预设的第二时间内对压缩存储于上述列表的数据产生的搜索要求是否在预设次数以下。。

根据再一实施方式，本发明的特征在于，上述其他数据库可包括上述对象系统的外部系统所包含的数据库。

根据还有一实施方式，本发明的特征在于，在存储为上述文件的步骤中，可将上述文件存储在上述对象系统的本地存储器或上述对象系统的外部系统所包括的存储器。

根据另一实施方式，本发明的特征在于，压缩存储于上述列表的步骤可包括如下步骤：基于数据记录的筛选信息确定上述对象系统所包含的数据库的归档对象列表所包含的数据记录相关分区；按照上述分区压缩数据记录来生成压缩分区；将上述压缩分区及唯一识别上述压缩分区的存储键联接并存储于压缩列表；以及将上述存储键及上述筛选信息联接并存储于上述数据库或上述其他数据库的索引列表。

根据又一实施方式，本发明的特征在于，存储于上述索引列表的步骤包括如下步骤：当上述筛选信息包含相应数据记录的任意字段值时，将上述存储键及上述任意字段值联接并存储于上述数据库或上述其他数据库的组索引列表：以及当上述筛选信息包含相应数据记录的时间相关信息时，将上述存储键及上述时间相关信息联接并存储于上述数据库或上述其他数据库的时间索引列表。

根据又一实施方式，本发明的特征在于，压缩存储于上述列表的步骤还可包括如下步骤：分别针对上述归档对象列表所包含的数据记录将作为包含主键(primary key)、相应数据记录压缩的压缩分区内的相应数据记录位置的键索引信息及与包含相应数据记录压缩的压缩分区相对应的存储键联接并存储于上述数据库或上述其他数据库的键索引列表。

根据又一实施方式，本发明的特征在于，在存储于上述键索引列表的步骤中，相对于通过在上述主键与上述列表相连接的连接列表中压缩数据记录而生成的第二压缩分区，从上述第二压缩分区所包含的数据记录中搜索上述主键与上述归档对象列表所包含的数据记录相同的数据记录，相对于所搜索的上述数据记录，可使得作为上述第二压缩分区内的位置的子索引信息进一步存储于上述键索引列表上的上述主键相同的数据记录。

根据又一实施方式，本发明的特征在于，压缩存储于上述列表的步骤还可包括如下步骤：从上述归档对象列表删除所压缩的上述数据记录。

本发明提供的计算机程序与计算机装置相结合，为了使计算机装置执行上述方法而存储于计算机可读记录介质。

本发明提供的计算机可读记录介质为了使计算机装置执行上述方法而存储程序。

本发明提供的计算机装置包括至少一个处理器，用于执行计算机可读指令，通过上述至少一个处理器将存储在对象系统所包含的数据库中的至少一部分数据压缩存储于上述数据库或其他数据库的列表，根据预设条件将压缩存储于上述列表的至少一部分数据存储为文件。

发明的效果

本发明具有如下效果，即，可通过将存储在数据库中的至少一部分数据压缩存储于上述数据库或其他数据库的列表来实现可快速搜索所压缩存储的数据的第一次归档，并且，根据预设条件将压缩存储于列表中的至少一部分数据存储为文件，从而可针对不再需要搜索或搜索要求较低的数据实现第二次归档。

附图说明

图1为示出本发明一实施例的网络环境的例的图。

图2为示出本发明一实施例的计算机装置的例的框图。

图3为示出本发明一实施例的用于归档的计算机系统的概括状态的图。

图4为示出本发明一实施例的数据归档方法的例的流程图。

图5为示出本发明一实施例的通过第一功能归档数据的过程的例的流程图。

图6为示出本发明一实施例的压缩列表的结构的第一例的图。

图7为示出本发明一实施例的压缩列表的结构的第二例的图。

图8为示出本发明一实施例的时间索引列表的结构的例的图。

图9为示出本发明一实施例的组索引列表的结构的例的图。

图10为示出本发明一实施例的压缩列表的结构的第二例的图。

图11为示出本发明一实施例的时间索引列表与组索引列表结合状态的索引列表的结构的例的图。

图12为示出本发明一实施例的通过第一功能归档数据的过程的另一例的流程图。

图13为示出本发明一实施例的压缩列表及键索引列表的结构的例的图。

图14为示出本发明一实施例的压缩列表及键索引列表的结构的另一例的图。

图15为示出本发明一实施例的通过第二功能搜索归档数据的过程的例的图。

图16及图17为示出本发明一实施例的搜索归档数据的例的图。

图18为示出本发明一实施例的用于有效存储数据的过程的例的图。

图19为示出本发明一实施例的数据去标识化方法的例的图。

图20为示出本发明一实施例的数据归档方法的另一例的图。

具体实施方式

本发明的最佳实施方式

本发明可进行多种变更并具有多种实施例，因此，将参照附图详细说明特定实施例。但是，本发明并不限定特定实施方式，应理解为包括本发明的思想及技术范围内的所有变更、等同技术方法及代替技术方案。在说明各个附图的过程中，将对相似的结构要素赋予相似的附图标记。

“第一”、“第二”、“A”、“B”等术语仅用于说明多种结构要素，上述结构要素并不限定于上述术语。上述术语仅用于区分一个结构要素与其他结构要素。例如，在不脱离本发明的保护范围的情况下，第一结构要素可被命名为第二结构要素，与此类似地，第二结构要素也可被命名为第一结构要素。术语“和/或”包含多个相关记载项的组合或多个相关记载项目中的任一项。

当表示某结构要素与其他结构要素“相连接”或“相联接”时，虽然可直接与其他结构要素相连接或相接触，但还应理解为可在中间存在其他结构要素。相反，当表示某结构要素与其他结构要素“直接连接”或“直接联接”时，应理解为在中间并不存在其他结构要素。

本说明书中所使用的术语仅用于说明特定实施例，并不用于限定本发明。除非在文脉上明确表示其他含义，否则单数的表达包括复数的表达。应当理解的是，本说明书中的“包括”或“具有”等术语仅用于指定本说明书中所记载的特征、数字、步骤、工作、结构要素、部件或它们的组合的存在，并不预先排除一个或一个以上的其他特征、数字、步骤、动作、结构要素、部件或它们的组合的存在或附加可能性。

除非另有定义，否则包括技术术语或科学术语在内的在此使用的所有术语的含义与本发明所属技术领域的普通技术人员通常理解的含义相同。通常使用的词典中定义的术语应解释成含义与相关技术在文脉上所具有的含义相同，除非在本说明书中明确定义，否则不应以理想化或过于形式化的含义加以解释。

以下，参照附图详细说明实施例。

本发明实施例的数据归档系统可通过至少一个计算机装置实现，本发明实施例的数据归档方法可通过数据归档系统所包括的至少一个计算机装置执行。本发明一实施例的计算机程序可设置在计算机装置并驱动。计算机装置可通过驱动的计算机程序的控制来执行本发明实施例的数据归档方法。为了与计算机装置相结合并在计算机中执行数据归档方法，上述计算机程序可存储于计算机可读记录介质。

图1为示出本发明一实施例的网络环境的例的图。在图1示出的示例中，网络环境包括多个电子设备110、120、130、140、多个服务器150、160及网络170。图1仅为用于说明本发明的一例，电子设备的数量或服务器的数量并不限定于图1所示的数量。并且，图1中的网络环境仅用于说明可应用于本实施例的环境中的一例，可应用于本实施例的环境并不限定于图1所示的网络环境。

多个电子设备110、120、130、140可以为实现为计算机装置的固定终端或移动终端。例如，多个电子设备110、120、130、140为智能手机(smart phone)、手机、导航仪、计算机、笔记本电脑、数字广播终端、个人数据助理(PDA，Personal Digital Assistants)、便携式多媒体播放器(PMP，Portable Multimedia Player)、平板电脑等。作为一例，在图1中，作为电子设备110的一例示出智能手机的形状，但是，在本发明的实施例中，电子设备110可以为实质利用无线通信方式或有线通信方式并通过网络170与其他电子设备120、130、140和/或服务器150、160进行通信的多种物理计算机装置中的一个。

通信方式并不局限于此，可以为利用可包括在网络170范畴的通信网(例如，移动通信网、有线网络、无线网络、广播网)的通信方式，不仅如此，还可包括多个设备之间的近距离无线通信。例如，网络170可包括个人局域网(PAN，personal area network)、局域网(LAN，local area network)、校园网(CAN，campus area network)、城域网(MAN，metropolitan area network)、广域网(WAN，wide area network)、宽带网(BBN，broadbandnetwork)等网络中的一种以上的任意网络。并且，网络170可包括具有总线网络、星形网络、环形网络、网状网络、星形总线网络、树形网络或分层(hierarchical)网络等的网络拓扑结构中的一种以上，但并不局限于此。

服务器150、160可以分别由通过网络170与多个电子设备110、120、130、140进行通信来提供指令、代码、文件、内容、服务等的计算机装置或多个计算机装置来实现。例如，服务器150可以为通过网络170联接的多个电子设备110、120、130、140提供服务(例如，归档服务、文件发布服务、内容提供服务、群组通话服务(或语音会议服务)、消息服务、邮件服务、社交网络服务、地图服务、翻译服务、金融服务、结算服务、搜索服务)的系统。

图2为示出本发明一实施例的计算机装置的例的框图。以上说明的多个电子设备110、120、130、140及多个服务器150、160可分别通过图2所示的计算机装置200实现。

如图2所示，上述计算机装置200可包括存储器210、处理器220、通信接口230及输入输出接口240。存储器210作为计算机可读记录介质，可包括随机存储器(RAM，randomaccess memory)、只读存储器(ROM，read only memory)及磁盘驱动器等非易失性大容量存储装置(permanent mass storage device)。其中，只读存储器、磁盘驱动器等非易失性大容量存储装置还可作为不同于存储器210的单独的永久性存储装置包括在计算机装置200中。并且，存储器210可以存储操作系统和至少一个程序代码。多个这种软件结构要素可以从不同于存储器210的单独的计算机可读记录介质加载到存储器210。这种单独的计算机可读记录介质可包括软盘驱动器、硬盘、磁带、DVD/CD-ROM驱动器、存储卡等计算机可读记录介质。在另一实施例中，多个软件结构要素也可通过通信接口230加载到存储器210，而并非通过计算机可读记录介质。例如，多个软件结构要素可基于通过网络170接收的多个文件设置的计算机程序加载到计算机装置200的存储器210。

处理器220可通过执行基本的算术、逻辑及输入输出运算来对计算机程序的指令进行处理。指令可通过存储器210或通信接口230向处理器220提供。例如，处理器220可利用存储于存储器210等存储装置的程序代码来执行所接收到的指令。

通信接口230可通过网络170提供用于使计算机装置200与其他装置(例如，上述说明的多个存储装置)相互进行通信的功能。作为一例，计算机装置200的处理器220可使得存储于存储器210等存储装置的程序代码所生成的请求或指令、数据、文件等经过通信接口230的控制并通过网络170传输到其他装置。相反地，计算机装置200可通过网络170并利用计算机装置200的通信接口230接收从其他装置发出的信号或指令、数据、文件等。由此，通过通信接口230接收的信号或指令、数据等可以传输到处理器220或存储器210，而文件等可存储在计算机装置200还可包括的存储介质(上述永久性存储装置)中。

输入输出接口240可以为用于与输入输出装置250连接的单元。例如，输入装置可包括麦克风、键盘或鼠标等装置，输出装置可包括显示器、扬声器等装置。作为另一例，输入输出接口240也可以为用于与触摸屏等输入功能和输出功能整合到一起的装置相连接的单元。输入输出装置250也可以与计算机装置200形成为一体。

并且，在另一实施例中，计算机装置200也可包括比图2所示的结构要素更少或更多的结构要素。但是，现有技术中的大部分结构要素无需明确示出。例如，计算机装置200可包括上述输入输出装置250中的至少一部分，或者，还可包括无线电收发两用机(transceiver)、数据库等其他结构要素。

如图3所示，数据归档系统310可通过如图2所示的计算机装置200等物理装置或多个物理装置的结合来实现，可包括数据压缩模块311、查询模块312、显示及控制模块313及近线(near-line)接口模块314。其中，数据压缩模块311、查询模块312、显示及控制模块313及近线接口模块314可分别为针对基于设置在数据归档系统310的归档解决方案程序的代码实现数据归档系统310的计算机装置200的处理器220所执行的工作相关功能性表达。作为一例，归档解决方案程序可包括用于提供数据压缩功能的代码，处理器220可通过这种代码提供数据压缩功能。在此情况下，可作为处理器220的用于提供数据压缩功能的(多个)工作的相关功能性表达使用“数据压缩模块310”。

换言之，数据归档系统310可通过在计算机装置200设置并驱动归档解决方案程序来实现。例如，归档解决方案程序被开发成云软件即服务(SaaS，Software as a Service)型产品，可在各种云供应商的云系统注册，可通过以下说明的对象系统320提供用于归档的功能。作为另一例，数据归档系统310也可以为综合远程近线数据归档技术(归档解决方案程序)和硬件的应用(appliance)服务器的形态。在应用服务器的情况下，因产品形态而使得快速递送(delivery)和维护维修变得简单，因此，可提供稳定的产品质量和价格竞争力。

如图3所示，对象系统320也可通过如图2所示的计算机装置200等物理装置或多个物理装置的结合来实现，可包括数据库321、控制模块322及近线接口模块323。在此情况下，控制模块322及近线接口模块323也可以为实现对象系统320的计算机装置200的处理器220所执行的(多个)工作的相关功能性表达。

数据归档系统310和对象系统320可通过网络(例如，图1及图2所示的网络170)相互通信，按照控制模块322的控制，对象系统320可通过近线接口模块323调用数据归档系统310提供的功能。在此情况下，数据归档系统310可向对象系统320提供对象系统320调用的功能。例如，对象系统320可以为用于企业资源计划(ERP，Enterprise Resource Planning)的综合信息系统，作为一例，近线接口模块323能够以用于SAP ERP的远程函数调用(RFC，Remote Function Call)为基础。

图4为示出本发明一实施例的数据归档方法的例的流程图。本实施例的数据归档方法可通过上述说明的实现数据归档系统310的计算机装置200执行。在此情况下，计算机装置200的处理器220可执行存储器210所包括的操作系统的代码或基于至少一个计算机程序的代码的控制指令(instruction)。其中，处理器220可通过存储在计算机装置200的代码所提供的控制指令来控制计算机装置200执行图4所示的方法所包括的步骤410至步骤430。并且，计算机程序可对应于上述说明的归档解决方案程序。

在步骤410中，计算机装置200可从存储数据的对象系统接收远程功能调用。其中，对象系统可对应于图3所示的对象系统320，远程功能调用可通过对象系统320的近线接口模块323产生。

在步骤420中，计算机装置200可响应远程功能调用，通过网络向对象系统提供第一功能，上述第一功能用于将存储在对象系统中的至少一部分数据归档于存储系统。

例如，再次参照图3，基于对象系统320的调用，数据归档系统310可通过网络向对象系统320提供用于将存储在对象系统320的数据库321的至少一部分数据归档于存储系统330的第一功能。

其中，存储系统330可以为实施例的对象系统320所包括的本地数据库(例如，数据库321)或对象系统320的外部数据库和/或包括对象系统320的外部系统(例如，文件服务器或云服务器)的存储器。

例如，数据归档系统310可提供如下的第一功能，即，压缩存储于对象系统320的数据库321中的至少一部分数据并归档于数据库321的列表。在此情况下，压缩的数据并不以文件方式存储在对象系统320的数据库321的列表，因此，不仅提高归档速度，也可提高数据查询速度。

作为再一例，数据归档系统310可提供如下的第一功能，即，压缩存储于对象系统320的数据库321中的至少一部分数据并归档于对象系统320的外部数据库的列表。例如，在数据归档系统310的层面上，当假设对象系统320为客户端时，数据归档系统310可将压缩的数据存储在其他客户端所包括的数据库的列表。

作为另一例，数据归档系统310可提供如下的第一功能，即，将存储于对象系统320的数据库321中的至少一部分数据压缩成文件并归档于对象系统320的外部系统所包括的存储器。例如，若数据归档系统310存在于云系统内，则数据归档系统310可将压缩数据所包含的文件存储于云系统的存储器。

作为更具体的一例，数据归档系统310可通过显示及控制模块313向对象系统320提供用户界面，用于提供管理保存周期、归档配置、归档执行、监控、数据查询及数据管理功能等归档服务。

在此情况下，若通过显示及控制模块313提供的用户界面请求执行归档，则数据归档系统310可通过数据压缩模块311设定的归档配置来向对象系统320提供用于将存储在对象系统320的数据库312中的至少一部分数据归档于存储系统330的第一功能。换言之，对象系统320可通过数据归档系统310提供的第一功能来使得存储在本地数据库321的至少一部分数据归档于存储系统330。

在步骤430中，计算机装置200可通过网络向对象系统提供用于查询归档于存储系统的数据的第二功能。这种第二功能也可通过来自对象系统的远程功能调用来提供。

例如，再次参照图3，基于对象系统320的调用，数据归档系统310可通过网络向对象系统320提供用于查询归档于存储系统330的数据的第二功能。

若通过显示及控制模块313提供的用户界面请求查询数据，则数据归档系统310可通过查询模块312向对象系统320提供用于查询归档于存储系统330的数据的第二功能。换言之，对象系统320可通过数据归档系统310提供的第二功能查询归档于存储系统330的数据。

像这样，对象系统320可利用数据归档系统310提供的多个功能来归档存储在数据库321的数据。

如上述说明，数据归档系统310提供的第一功能可包括用于将压缩数据存储并保存于数据库(对象系统320的数据库321或外部数据库)的列表或以文件方式保存的功能。在此情况下，由于作为数据的压缩保存在数据库的列表中的存档数据也会导致数据库的体积增加，因此，数据归档系统310可管理数据生命周期。例如，数据归档系统310可通过“数据库→数据压缩存档→文件存档→存档消失”的过程来管理数据生命周期。其中，“数据库”可意味着以将数据存储在对象系统320的数据库321中的状态进行管理。并且，“数据压缩存档”可意味着因数据被压缩而导致在数据库(对象系统320的数据库321或外部数据库)的列表中以压缩状态进行管理。并且，“文件存档”可意味着因压缩数据超过保存期间而导致将在数据库的列表中以压缩状态进行管理的数据归档成文件来保存，“存档消失”可意味着从归档成文件的数据中删除无需进一步保存的数据。

“文件存档”可由对象系统320的存储器执行，但是，也可由对象系统320的外部系统的存储器执行。作为更具体的一例，数据归档系统310也可为了将存档数据传输到存在于对象系统320的外部的云系统而通过结束压缩目标提取的对象系统320来接收。在此情况下，数据归档系统310可通过近线接口模块314调用对象系统。这种调用可基于API调用，由于压缩数据可存储在多种类的存储器，因此，可以与各种类型的存储器相连接，例如，数据库、磁盘、文件、内存(in-memory)、量子内存器、非关系型数据库(NoSQL)、图形数据库(graph-DB)及区块链数据库等。另一方面，数据归档系统310可根据财务、成本、生产、销售、材料、质量、系统等业务类型来定义传输场景。根据实施例，数据归档系统310也可基于网络带宽来创建传输场景的小组。并且，在传输场景中，数据归档系统310可相当于对象。当存在传输场景的小组时，在传输场景的小组中，数据归档系统310可相当于完成提取的对象。并且，数据归档系统310可将提取对象转换为二进制对象，可按照每个传输场景和/或小组对象容量及数量来构建传输历史状态表。并且，数据归档系统310也可执行传输模拟。在此情况下，数据归档系统310可按照每个传输场景和/或小组选定模拟目标，通过执行传输模拟来确认各个对象的传输时间后，可基于对象数据比例预测对于传输的最佳时间。传输模拟过后，数据归档系统310可利用场景信息、小组信息和/或对象信息来执行实际数据传输。在此情况下，数据归档系统310可基于传输模拟信息以传输时间最长的小组和/或对象为基础排列消耗最少时间的小组和/对象来实现整体结束时间的最优化。在此情况下，数据归档系统310可按照数据属性区分数据存储位置来存储，可通过传输状况监控工具实时确认传输次数及执行时间。并且，数据归档系统310可在传输执行图中更新提取执行状况，当发生错误时，可从完成后的顺序开始执行并维持速度及完整性。数据的传输可选择流方式或对象单位传输来执行。并且，在确认从对象系统320传输的场景数据和/或小组数据是否传输到存储系统330后，数据归档系统310可通过比较按照传输场景和/或小组分类的对象容量及数量状况表与传输数据来验证存档数据的传输过程。在此情况下，数据的传输也可以1：1关系传输，也可以1：N关系通过不同服务器同时传输。此时，可按照服务器创建传输历史状况表。

图5为示出本发明一实施例的通过第一功能归档数据的过程的例的流程图。本实施例的过程利用数据归档系统310提供的第一功能，可由实现对象系统320的计算机装置200执行。在此情况下，计算机装置200的处理器220可执行存储器210所包含的操作系统的代码或基于至少一个计算机程序的代码的控制指令(instruction)。其中，处理器220可通过存储在计算机装置200的代码所提供的控制指令来控制计算机装置200执行图5所示的方法所包括的步骤510至步骤550。其中，代码可包含数据归档系统310用于提供第一功能的代码。

在步骤510中，计算机装置200可基于数据记录的筛选信息确定数据库的列表(归档对象列表)所包含的数据记录相关分区。其中，数据库可对应于图3所示的对象系统320的数据库321。筛选信息可包含数据记录的时间相关信息和/或数据记录的任意字段值。计算机装置200可基于上述时间相关信息和/或字段值确定数据记录相关分区。列表作为组成在数据库存储数据的基本结构的单位，在步骤510中提及的列表可以为用于在数据库所包含的多个列表中以节约容量的方式实现归档的归档对象列表。

例如，计算机装置200可将字段值在规定范围以内的数据记录筛选为一个分区。在此情况下，字段值可以为列表中搜索频率最高字段的字段值。这是因为，当未来搜索归档数据时，可利用基于相应字段值生成的索引信息来最大限度地提高搜索效率。作为另一例，计算机装置可将时间相关信息在规定范围以内的数据记录筛选为一个分区。

并且，分区可由在列表所包含的整体数据记录中筛选的数据记录的集合来构成。分区可生成至少一个以上，也可根据需求仅限定一部分数据记录生成分区，而并非列表的整体。例如，在列表中，除2015年以后的数据记录之外，可仅以2015年之前的数据记录为目标生成用于归档的分区。

另一方面，一个分区所包含的数据记录的数量可通过综合分析并检查列表所包含的整体记录的数量、搜索数据库的计算机性能及数据库中频率较高的搜索条件等来确定。

在再一实施例中，若在筛选的分区中存在数据记录的数量超过临界值的超额分区，则可将其超额分区分离为记录数量小于临界值的多个分区。例如，可将一个分区能够包含的数据记录的数量设定为10万个，即，可将临界值设定为10万个。然而，当所筛选的分区包含超过临界值的数据记录时，由于有可能导致计算机的过负荷及效率层面上的降低，因此，可产生消失的问题。所以，在一个分区包含大于10万个数据记录的情况下，可将其分离为10万个单位的多个分区来生成多个分区。例如，当一个分区包含25万个数据记录时，计算机装置200可将其超额分区分离为三个分区，即，两个包含10万个数据记录的分区和一个包含5万个数据记录的分区。

另一方面，由于以上述方式分离的多个分区基于相同字段值的分类基准实现分类，因此，可没有用于区分多个分区的方法。所以，可通过向分离的多个记录组分别赋予序列号(例如，1、2、3、4…)来进一步存储于索引列表的序列号字段。在此情况下，当搜索归档数据时，可通过分别区分分离的多个分区来执行搜索。上述序列号可对应于以下说明的序列。

在步骤520中，计算机装置200可按照分区压缩数据记录来生成压缩分区。作为一例，计算机装置200可将确定的分区所包含的数据记录压缩成二进制对象来生成压缩分区。

作为一例，首先，为了生成压缩分区，计算机装置200可将压缩分区所要包括的数据记录存储于缓冲器。用于存储数据记录的缓冲器的大小可基于列表的结构(字段的数量、种类及大小)及压缩分区所要包含的数据记录的临界值来确定。例如，列表总共可包含3个字段，即，DATE(8个字符)、NAME(30个字符)及AGE(4个字节整数)，若压缩分区包含的数据记录数量相关临界值为10万个，则将1个字符计算为2个字节的情况下，缓冲区的大小至少可以为100000*(8*2+30*2+4)＝800万字节(约8兆字节)。此时，计算机装置200可依次读取所有压缩分区所包含的数据记录及其数据记录的字段值并依次存储于缓冲器。

随后，计算机装置200可通过压缩存储于缓冲器的数据来生成压缩分区。压缩分区可以为通过压缩存储于缓冲器中的数据来生成的二进制对象的结果。在此情况下，为了防止产生因压缩引起的损失，可使用无损压缩算法，例如，ZIP、CTW、LZ77、LZW、gzip、bzip2、DEFLATE等。

在此情况下，计算机装置200可按照所生成的压缩分区生成唯一识别的存储键。

在步骤530中，计算机装置200可将压缩分区及唯一识别压缩分区的存储键联接并存储于压缩列表。在上述说明中，压缩数据可存储在对象系统320的数据库321的列表或外部数据库的列表。压缩列表可包含按照分区压缩生成的用于存储压缩分区的字段和用于存储唯一识别相应压缩分区的存储键的字段。存储键作为包含按照压缩分区赋予唯一值的键，可按照各个压缩分区将共享的存储键的值存储在与存储键相对应的压缩列表的字段。并且，存储键的相应字段也可以为一个以上，当结合分散存储在一个以上字段中的多个存储键的值时，也可按照压缩分区形成唯一的存储键。

在步骤540中，计算机装置200可将存储键及筛选信息联接并存储于数据库的索引列表。作为一例，当筛选信息包含相应数据记录的任意字段值时，计算机装置200可通过步骤540将存储键及任意字段值联接并存储于组索引列表。存储在组索引列表的存储键和字段值可用作基于包含任意字段值的搜索条件搜索压缩存储的数据记录的索引。作为另一例，当筛选信息包含数据记录的时间相关信息时，计算机装置200可将存储键及时间相关信息联接并存储于时间索引列表。存储在时间索引列表中的存储键和时间相关信息可用作基于包含任意时间相关信息的搜索条件搜索压缩存储的数据记录的索引。换言之，包含组索引列表和/或时间索引列表的索引列表可用于获得搜索条件包含的字段值和/或对应于时间相关信息的存储键，存储键可用于从压缩列表中获得对应于存储键的压缩分区。

在步骤550中，计算机装置200可从列表删除所压缩的数据记录。压缩归档数据库的目的为减少数据库的存储空间，因此，计算机装置200可从列表删除归档数据记录来减少数据库的存储空间。然而，根据实施例，可经过规定时间后从列表中删除所压缩的数据记录，而并非直接从列表中删除。

另一方面，所删除的数据记录以后也可复原成相应列表。例如，计算机装置200通过响应删除的数据记录的复原请求来从索引列表搜索与包含复原请求的识别信息相联接的存储键，并且，可从压缩列表搜索与搜索的存储键相联接的压缩分区。随后，计算机装置200可通过对所搜索的压缩分区进行解除压缩来复原所删除的数据记录并基于识别信息将复原的数据记录存储于列表。在此情况下，为了在包含压缩分区的多个数据记录中识别请求复原的特定数据记录，也可应用以下说明的键索引列表的信息。

上述步骤510至步骤550可由数据归档系统310提供的第一功能来实现。换言之，数据归档系统310可提供包含如下功能的第一功能，即，用于控制对象系统320执行步骤510至步骤550。

图6为示出本发明一实施例的压缩列表的结构的第一例的图。图6的列表610可包含Doc.No.字段611、对于时间的Date字段612及对于特定属性的Col1字段613。在此情况下，作为筛选信息，计算机装置200可基于时间相关信息列表610中的Date字段612的字段值或Col1字段613的字段值针对列表610的多个数据记录进行分类及压缩来生成压缩分区。在此情况下，计算机装置200可通过联接并存储用于唯一识别压缩分区的存储键和相应压缩分区来生成压缩列表600。例如，在图6的实施例中，压缩列表600可包含：OBJECT ID字段621，将存储键作为字段值；以及COMPRESSED DATA字段622，将压缩分区作为字段值。

图7为示出本发明一实施例的压缩列表的结构的第二例的图，图8为示出本发明一实施例的时间索引列表的结构的例的图，图9为示出本发明一实施例的组索引列表的结构的例的图。

图7用于说明通过图6所示的列表610生成压缩列表700的再一实施例。例如，作为筛选信息，计算机装置200可基于时间相关信息列表610中的Date字段612的字段值针对列表610的多个数据记录进行分类及压缩来生成压缩分区。并且，计算机装置200可通过联接并存储筛选信息和相对应的压缩分区来生成压缩列表700。例如，在图7的实施例中，压缩列表700可包含：PERIOD字段710，将时间相关信息作为字段值；以及COMPRESSED DATA字段720，将压缩分区作为字段值。

另一方面，图8示出了时间索引列表800的例，当压缩列表700包含基于Date字段612的字段值(时间相关信息)对数据记录进行分类并压缩来生成的压缩分区时，可用于生成及应用。在此情况下，时间索引列表800可包含：PERIOD字段810，将时间相关信息作为字段值；以及OBJECT ID字段820，将存储键作为字段值。例如，当计算机装置200作为筛选信息接收包含时间相关信息(例如，“2020.01”)的搜索条件时，可利用搜索条件所包含的时间相关信息从时间索引列表800搜索相对应的存储键(例如，从时间索引列表800搜索与时间相关信息“2020.01”相对应的存储键“O0001”)，由此，可利用所搜索的存储键从压缩列表620搜索与存储键相对应的压缩分区(例如，从压缩列表620搜索与存储键“O0001”相对应的“50000Rows”的压缩分区)。

并且，图9示出了组索引列表900的例，当压缩列表600包含基于Col1字段613的字段值对数据记录进行分类并压缩来生成的压缩分区时，可用于生成及应用。在此情况下，组索引列表900可包含：PERIOD字段910，将Col1字段613的字段值作为自身字段值；以及OBJECT ID字段920，将存储键作为字段值。例如，当计算机装置200作为筛选信息接收包含Col1字段613的字段值(例如，“1000”)的搜索条件时，可利用搜索条件所包含的字段值从组索引列表900搜索相对应的存储键(例如，从组索引列表900搜索与字段值“1000”相对应的存储键“O0001”)，由此，可利用所搜索的存储键从压缩列表600搜索与存储键相对应的压缩分区(例如，从压缩列表600搜索与存储键“O0001”相对应的“50000Rows”的压缩分区)。

图10为示出本发明一实施例的压缩列表的结构的第二例的图，图11为示出本发明一实施例的时间索引列表与组索引列表结合状态的索引列表的结构的例的图。

图10用于说明通过图6所示的列表610生成压缩列表1000的另一实施例。例如，计算机装置200可基于作为时间相关信息的两个字段值对列表610的数据记录进行分类并压缩来生成压缩分区，即，Date字段612的字段值及Col1字段613的字段值。

作为更具体的一例，计算机装置200可通过压缩Data字段612的字段值为“2002.01”且Col1字段613的字段值为“1000”的多个数据记录来生成第一压缩分区，通过压缩Data字段612的字段值为“2002.01”且Col1字段613的字段值为“2000”的多个数据记录来生成第二压缩分区，通过压缩Data字段612的字段值为“2002.02”且Col1字段613的字段值为“1000”的多个数据记录来生成第三压缩分区，通过压缩Data字段612的字段值为“2002.02”且Col1字段613的字段值为“2000”的多个数据记录来生成第四压缩分区，通过压缩Data字段612的字段值为“2002.03”且Col1字段613的字段值为“1000”的多个数据记录来生成第五压缩分区，通过压缩Data字段612的字段值为“2002.03”且Col1字段613的字段值为“2000”的多个数据记录来生成第六压缩分区。

在此情况下，计算机装置200可通过联接并存储用于唯一识别压缩分区的存储键和相应压缩分区来生成压缩列表1000。例如，在图10的实施例中，压缩列表1000可包含：OBJECT ID字段1010，将存储键作为字段值；以及COMPRESSED DATA字段1020，将压缩分区作为字段值。

另一方面，图11示出了时间索引列表与组索引列表结合状态的索引列表1100的例。在此情况下，索引列表1100可包含：PERIOD字段1110，将时间相关信息作为字段值；Col1字段1120，将Col1字段613的字段值作为自身字段值；以及OBJECT ID字段1130，将存储键作为字段值。例如，当计算机装置200作为筛选信息接收包含时间相关信息(例如，“2020.02”)及Col1字段613的字段值的搜索条件时，可从索引列表1100搜索均满足搜索条件所包含的时间相关信息及字段值的存储键(例如，索引列表1100的存储键“O0003”)，由此，可利用所搜索的存储键从压缩列表1000搜索与存储键相对应的压缩分区(例如，从压缩列表1000搜索与存储键“O0003”相对应的“30000Rows”的压缩分区)。

图12为示出本发明一实施例的通过第一功能归档数据的过程的另一例的流程图。图5所示的步骤540之后，本实施例的过程还可包括步骤1210。

在步骤1210中，分别针对列表所包含的各个数据记录，计算机装置200可将作为包含主键(primary key)、相应数据记录压缩的压缩分区内的相应数据记录位置的键索引信息及与包含相应数据记录压缩的压缩分区相对应的存储键联接并存储于键索引列表。上述步骤1210可通过数据归档系统310提供的第一功能来实现。换言之，数据归档系统310可提供包含如下功能的第一功能，即，用于控制对象系统320使其执行步骤1210。

主键可意味着字段中的相应值，上述字段具有数据库中的每条记录唯一识别的值，也可称为关系键、主键或唯一键。并且，一个列表可存在一个以上的主键。并且，键索引信息为用于搜索具有特定主键值的数据记录存储在压缩分区内的哪个位置的信息。例如，作为在压缩分区包含的10万个数据记录的相关信息中第1000次存储的数据记录的存储顺序相关信息可存储为键索引信息。

另一方面，在键索引列表存储主键的理由在于，除基于其他字段值及时间相关信息外，以便通过上述主键直接搜索作为搜索目标的列表。即，在用户输入特定主键的情况下，若想要从列表搜索具有其主键的数据记录，则可使用键索引列表。更具体地，计算机装置200可从键索引列表搜索具有特定主键的数据记录的键索引信息和存储键。在此情况下，计算机装置200可基于获得的存储键从压缩列表获得与存储键相对应的压缩分区，并且，可使得用户利用键索引信息获得所期望的特定数据记录。如上述说明，在列表复原特定条件的数据记录的过程中，上述键索引列表的键索引信息也可用于从包含压缩分区的多个数据记录中识别特定条件的数据记录。

压缩列表1310可包含：OBJECT ID字段1311，将存储键作为字段值；SEQ字段1312，将目标列表的处理顺序(序列)作为字段值；以及COMPRESSED DATA字段1313，将压缩分区作为字段值。当序列由主列表和子列表组成时，首先，提取主列表后，可利用所提取的主列表的数据来定义子列表的处理顺序。

如上述说明，键索引列表1320可包含：Doc.No.字段1321，将主键作为字段值；OBJECT ID字段1322，将存储键作为字段值；以及Key Location info.字段1323，将键索引信息作为字段值。例如，在键索引信息“1@1001”中，“@”前面的“1”为与SEQ字段1312的字段值相对应的序列，而“@”后面的“1001”可表示相应压缩分区所包含的多个数据记录中第1001个数据记录。作为更具体的一例，在键索引列表1320的第一个记录中，主键为“1”的数据记录的存储键为“O0001”，可表示在序列为“1”的压缩分区的多个数据记录中作为第1001个数据记录进行存储。与此类似地，在键索引列表1320的第二个记录中，主键为“2”的数据记录的存储键为“O0001”，可表示在序列为“2”的压缩分区的多个数据记录中作为第2001个数据记录进行存储。

像这样，键索引信息可包含特定数据记录在压缩分区内的位置相关信息，因此，可通过应用包含上述键索引信息和主键及存储键的键索引列表(例如，图13的键索引列表1320)来减少用户需按照搜索条件查询的数据记录的数量。

在另一实施例中，相对于通过在主键与第一列表(例如，在步骤410说明的列表)相连接的连接列表中压缩数据记录而生成的第二压缩分区，计算机装置200可从第二压缩分区所包含的数据记录中搜索主键与第一列表所包含的数据记录相同的数据记录，相对于所搜索的数据记录，使得作为第二压缩分区内的位置的子索引信息进一步存储于键索引列表上的主键相同的数据记录。连接列表为通过主键与第一列表相连接的列表。即，主键可均存在于第一列表和连接列表。当通过主键与第一列表相连接的连接列表存在时，第二压缩分区可以为通过压缩相应连接列表的数据记录生成的数据。在此情况下，第二压缩分区可通过与图4所示的上述压缩分区相同方式生成，可以与压缩分区的唯一存储键一并存储于压缩列表。子索引信息为用于搜索具有特定主键的数据记录存储在第二压缩分区内的哪个位置的信息。例如，作为在第二压缩分区包含的10万个数据记录相关信息中第1000次存储的数据记录额存储顺序相关信息可存储为子索引信息。例如，通过主键与第一列表相连接的连接列表存在于数据库，相对于不存在于第一列表而存在于连接列表的字段，用户可能需要其字段的字段值信息。在此情况下，计算机装置200还可针对在键索引列表上具有相同主键的数据记录存储子索引信息，以便以后可搜索到其连接列表。

在另一实施例中，在相对于第一列表存在多个连接列表的情况下，计算机装置200聚集并压缩各个连接列表的子索引信息后，可将其作为新子索引信息存储于键索引列表。例如，计算机装置200可针对在连接列表中具有相同主键的数据记录聚集对于两个以上第二压缩分区内的位置的所有子索引信息，并且，可通过压缩所聚集的值来将其作为新子索引信息存储于包含键索引列表上的相同主键值的数据记录。

压缩列表1410可包含：OBJECT ID字段1411，将存储键作为字段值；TABLE字段1412，将列表的标识符作为字段值；SEQ字段1413，将序列作为字段值；COMPRESSED DATA字段1414，将压缩分区作为字段值。TABLE字段1412可包含列表的标识符的字段值，由此，可识别对应的压缩分区包含从哪个列表提取的数据记录。

本实施例的键索引列表1420可包含：Doc.No.字段1421，将主键作为字段值；OBJECT ID字段1422，将存储键作为字段值；Key Location info.字段1423，将键索引信息作为字段值；以及Sub Location info.字段1424，将子索引信息作为字段值。

例如，键索引列表1420的第一个记录表示包括主键为“1”的数据记录作为存储键为“O0001”且序列为“1”的压缩分区的多个数据记录中的第10001个数据记录。在此情况下，Sub Location info.字段1424的字段值“TAB1@1001-2/TAB2@2001-3”表示相对于主键为“1”的数据记录的连接列表而生成的第二压缩分区内的位置。例如，在字段值“TAB1@1001-2/TAB2@2001-3”中，“@”前面的“TAB1”和“TAB2”可意味着通过相同主键连接的多个连接列表，“@”后面的“1001-2”表示在相对于连接列表“TAB1”的第二压缩分区所包含的多个数据记录中，从第“1001”个数据记录开始的两个数据记录(第1001个数据记录(第一数据记录)及第1002个数据记录(第二数据记录))。并且，“@”后面的“2001-3”表示在相对于连接列表“TAB2”的第二压缩分区所包含的多个数据记录中，从第“2001”个数据记录开始的三个数据记录(第2001个数据记录(第三数据记录)、第2002个数据记录(第四数据记录)及第2003个数据记录(第五数据记录))。在此情况下，第一数据记录至第五数据记录均可由相同主键识别。

图15为示出本发明一实施例的通过第二功能搜索归档数据的过程的例的图。本实施例的过程利用数据归档系统310提供的第二功能，可由实现对象系统320的计算机装置200执行。

在步骤1510中，计算机装置200可接收搜索条件，包含数据记录的筛选信息。这种筛选信息可包含要搜索的数据记录的任意字段值和/或相应数据记录的时间相关信息。筛选信息所包含的字段值和/或时间相关信息也可以以范围的形式被包含。

在步骤1520中，计算机装置200可从在数据库上联接并存储数据记录的筛选信息和用于唯一识别包含相应数据记录的压缩分区的存储键的索引列表，搜索与搜索条件所包含的筛选信息相联接的存储键。如上述说明，索引列表可包含组索引列表和/或时间索引列表，组索引列表可用于联接并存储特定字段值和存储键，时间索引列表用于联接并存储时间相关信息和存储键。因此，计算机装置200可从组索引列表和/或时间索引列表搜索对应于筛选信息所包含的字段值和/或时间相关信息的存储键。例如，当筛选信息包含数据记录的任意字段值时，计算机装置200可从联接并存储存储键及任意字段值的组索引列表搜索与作为搜索条件的筛选信息所包含的任意字段值相联接的存储键。作为另一例，当筛选信息包含数据记录的时间相关信息时，计算机装置200可从联接并存储存储键及时间相关信息的时间索引列表搜索与作为搜索条件的筛选信息所包含的时间相关信息相联接的存储键。

在步骤1530中，计算机装置200可从联接并存储存储键和压缩分区的压缩列表搜索与所搜索的存储键相联接的压缩分区。如上述说明，压缩列表联接并存储压缩分区及唯一识别压缩分区的存储键，因此，计算机装置200可通过存储键从上述压缩列表搜索相应压缩分区。

如上所述，在进一步利用键索引列表的情况下，用户可将主键用于搜索。如上述说明，相对于数据库上的任意列表所包含的各个数据记录，键索引列表可联接并存储包含主键、相应数据记录压缩的压缩分区内作为相应数据记录的位置的键索引信息及与包含相应数据记录压缩的压缩分区相对应的存储键。在此情况下，当搜索条件还包含数据记录的主键时，计算机装置200可从键索引列表搜索与搜索条件还包含的主键相联接的键索引信息及存储键。随后，基于搜素的键索引信息及存储键，计算机装置200可从通过步骤1530搜索的压缩分区中搜索符合搜索条件的特定数据记录。

并且，当存在通过主键与任意列表相连接的连接列表时，键索引列表还可包含相对于通过在连接列表中压缩数据记录生成的第二压缩分区而作为数据记录的第二压缩分区中的位置的子索引信息。因此，在搜索条件还包含主键的情况下，计算机装置200可从键索引列表进一步搜索与搜索条件还包含的主键相联接的子索引信息，基于第二压缩分区及子索引信息从第二压缩分区进一步搜索符合搜索条件的数据记录，由此，相对于特定数据记录，不仅获得要搜索的第一列表的字段值，还可获得通过主键与第一列表相连接的连接列表的字段值。

另一方面，如上述说明，压缩列表也可包含通过网络与计算机装置200相连接的其他计算机装置的数据库的压缩列表。在此情况下，计算机装置200可通过网络基于步骤1530从其他计算机装置的数据库的压缩列表中搜索与基于步骤1520搜索的存储键相联接的压缩分区。

上述步骤1510至步骤1530可通过数据归档系统310提供的第二功能来实现。换言之，数据归档系统310可提供第二功能，用于控制对象系统320使其执行步骤1510至步骤1530。

图16及图17为示出本发明一实施例的搜索归档数据的例的图。

图16示出了通过查询1610从压缩列表1620搜索归档数据的例。在图16的实施例中，压缩列表1620与索引列表相结合，可包含PERIOD字段1621、COL1字段1622、TABLE字段1623、OBJECT ID字段1624、SEQ字段1625及COMPRESSED DATA字段1626。根据实施例，PERIOD字段1621和COL1字段1622也可存在于单独的索引列表。在此情况下，为了连接压缩列表1620与索引列表，OBJECT ID字段1624可分别存在于两个列表。根据实施例，TABLE字段1623和SEQ字段1625也可存在于索引列表。

在此情况下，查询1610可意味着从列表“TAB1”搜索PERIOD字段1621的字段值为“2002.01”且COL1字段1622的字段值为“1000”的数据记录的指令。此时，计算机装置200可确认到从压缩列表1620中对应于查询1610的数据记录为存储在压缩列表1620的第一个记录的COMPRESSED DATA字段1626的压缩分区。因此，计算机装置200可通过解除相应压缩分区的压缩并将相应压缩分区包含的多个数据记录(“50000rows”的数据记录)作为搜索结果提供。

图17为通过查询1710从压缩列表1620搜素归档数据的列。在图17的实施例中，由于查询1710将主键应用为搜索条件，因此，可应用键索引列表1720。键索引列表1720可包含Doc.No.字段1721、OBJECT ID字段1722、Key Location Info.字段1723及Sub LocationInfo.字段1724。

在此情况下，查询1710可意味着从列表“TAB1”及列表“TAB2”中搜索作为主键的Doc.No.字段1721的字段值为“1”的数据记录的指令。此时，计算机装置200可在键索引列表1720中确认Doc.No.字段1721的字段值为“1”的第一个记录，可通过第一个记录的SubLocation Info.字段1724的字段值从压缩列表1620搜索主键为“1”的数据记录。例如，计算机装置200可通过Doc.No.字段1721的字段值为“1”的键索引列表1720的第一个记录的子索引信息“TAB1@1001-2/TAB2@2001-3”从压缩列表1620提取主键为“1”的数据记录。在此情况下，可通过子索引信息包含的位置来轻松且快速地搜索具有特定主键值的数据记录，而无需搜索压缩分区的所有数据记录。

再次参照图3，在对象系统320的外部的其他系统(例如，云存储系统)包括存储系统330的实施例中，数据归档系统310可通过应用数据查询目录来优化对象系统320和存储系统330的数据。例如，数据归档系统310可通过分析(1)本地(on-premise，企业通过本地设备保存并运行，而并非通过云环境)数据库的历史列表访问日志、(2)基于历史列表访问日志并通过机器学习来预测的访问量及(3)数据转换于存储系统330后的访问日志中的至少一个来持续优化对象系统320与存储系统330之间的数据容量及用户访问速度。

图18为示出本发明一实施例的用于有效存储数据的过程的例的图。图18示出了对象系统320和云系统1810。在图18的实施例中，存储系统330和数据归档系统310可均实现在云系统1810上。为了将存储数据有效存储于远程存储器(实现在云系统1810的存储系统330)，数据归档系统310可根据数据使用率分别管理存储器级别。例如，数据归档系统310可向对象系统320提供如下功能，即，用于控制对象系统320基于本地数据库的数据使用率传输数据。在此情况下，数据归档系统310可通过上述功能分析对象系统310的数据使用状况来分离各个级别后，在向云系统1810传输数据之前，可按照级别分离数据。此时，云系统1810也可按照级别包括分级存储器，可存储对应于特定级别存储器的级别数据。

并且，数据归档系统310可按照业务对象、时间进行监控来分离并存储向传输云系统1810传输的数据使用状况。例如，数据归档系统310可基于云系统1810的存储器内的数据使用率来管理存储器。

另一方面，数据归档系统310控制对象系统320的数据使用状况向云系统1810传输并应用机器学习来分析数据使用率后，可将其存储于各个分级存储器。例如，数据归档系统310可控制对象系统310以在规定时间内使得企业内数据使用状况转移到云系统1810，可基于所转移的数据使用状况的相关机器学习应用来预测数据使用率。并且，数据归档系统310可基于预测的数据使用率来以优化数据的方式处理对象系统320与云系统1810之间的数据转移。例如，在存储于云系统1810的存储器(存储系统320)的数据中，数据使用率为第一临界值以上的数据可转移到对象系统320的存储器(数据库321)，在存储于对象系统320的存储器的数据中，数据使用率为第二临界值以上的数据可转移到云系统1810的存储器。数据转移可能需要以上通过图3至图17的实施例说明的数据压缩或压缩解除。

像这样，数据归档系统310可基于对象系统320的数据使用状况(过去)、云系统的数据使用状况(当前)及通过机器学习预测的数据使用率(未来)来持续执行存储优化工作。

作为另一实施例，数据归档系统310可提供用于优化对象系统320相关性能的功能。作为一例，对象系统320可考虑以即时形态位于云环境中的情况。在此情况下，例如，对象系统320删除数据后(或者，通过上述说明的持续执行优化存储工作来减少存储空间使用量后)，数据归档系统310了基于对象系统320的数据库容量来监控以即时形态位于云环境中的对象系统320的整体性能(中央处理器(CPU)、存储器使用量、系统相应速度等)，可基于所监控的性能将对象系统320的规格变更为可降低成本的服务器类型来减少对象系统320层面上的成本。例如，在不考虑优化数据容积的前提下，数据归档系统310可提供一并考虑中央处理器效率、存储器效率的即时优化功能。为此，数据归档系统310可检查因数据容积减少引起的追加资源的优化可能性。作为更具体的一例，数据归档系统310可通过分析在最近规定时间内(例如，一年)使用频率较高的程序的技术(technical)物料清单(BOM，Billof Material)和程序的内部结构来测定各个流程的时间，可通过减少数据库相关逻辑的处理时间来减少中央处理器、存储器等的规格。并且，数据归档系统310也可将用于实现对象系统320的即时变更为在经济层面上相比于初始设定的即时级别更低一级的即时。在测定各个流程时间的过程中，除程序的技术物料清单和内部结构外，可应用系统响应率、中央处理器使用率、处理时间、数据库响应时间等。

在另一实施例中，数据归档系统310可提供数据去标识化功能。当进行数据归档的采集时，可基于业务要求事项和/或法律要求实现去标识化。或者，也可为了在不同于对象系统320的其他系统应用归档于存储系统330的数据而需要实现去标识化。图19为示出本发明一实施例的数据去标识化方法的例的图。

图20为示出本发明一实施例的数据归档方法的另一例的图。本实施例的数据归档方法可由实现上述说明的数据归档系统310的计算机装置200执行。在此情况下，计算机装置200的处理器可执行存储器210所包括的操作系统的代码或基于至少一个计算机程序的代码的控制指令(instruction)。其中，处理器220可基于存储在计算机装置200的代码提供的控制指令来控制计算机装置200，使得计算机装置200执行图20的方法所包含的步骤2010至步骤2020。并且，计算机程序可对应于以上说明的归档解决方案程序。

在步骤2010中，计算机装置200可将存储在对象系统所包含的数据库中的至少一部分数据压缩存储于上述数据库或其他数据库的列表。其中，对象系统可对应于以上说明的对象系统320，数据库可对应于以上说明的数据库321。另一方面，其他数据库可包括对象系统的外部系统(例如，不同于对象系统310的数据归档系统310或第三方系统)所包含的数据库。针对将数据压缩存储于列表的方法已通过图3至图14进行了详细说明，因此，以下将通过图15至图19进一步详细说明用于搜索压缩存储于列表的数据的方法。如上述说明，第一次归档是指将数据压缩存储于列表，随着数据以压缩状态存储于列表，不仅可大幅减少存储在对象系统所包含的数据库中的数据容量，而且可使得计算机装置200能够从归档数据中轻松且快速地搜索所期望的数据。随后，随着针对第一次归档的数据的搜索需求减少，列表上的第一次归档的数据可被第二次归档成文件。

在步骤2020中，计算机装置200可根据预设条件将压缩存储于列表的至少一部分数据存储为文件。作为一例，预设条件可包括如下条件中的至少一个：第一条件，是否从对象系统的管理人员接收第二次归档指令；第二条件，压缩存储于列表的数据是否超过保存时间；第三条件，在预设的第一时间内是否对压缩存储于列表的数据产生搜索要求；以及第四条件，在预设的第二时间内对压缩存储于列表的数据产生的搜索要求是否在预设次数以下。其中，有关第一条件，第二次归档指令可以为用于将压缩存储于列表的至少一部分数据存储为文件的指定指令。在此情况下，计算机装置200可将归档指令指定的数据存储为文件来实现第二次归档。并且，有关第二条件，可针对压缩存储于列表的数据设定保存时间。在此情况下，计算机装置200可将压缩存储于列表的数据中超过保存时间的数据存储为文件来实现第二次归档。并且，有关第三条件，计算机装置200可将压缩存储于列表的数据中的未在第一时间内产生搜索要求的数据存储为文件来实现第二次归档。并且，有关第四条件，计算机装置200可将压缩存储于列表的数据中的在第二时间内产生的搜索要求为预设次数以下的数据存储为文件来实现第二次归档。除此之外，应当理解的是，还可基于多种条件来将压缩存储于列表的至少一部分数据存储为文件来实现第二次归档。例如，如上述说明，在对象系统320的外部的其他系统(例如，云存储系统)包括存储系统330的实施例中，数据归档系统310可应用数据查询日志来优化对象系统320和存储系统330的数据。在此情况下，数据归档系统310可通过分析(1)本地(on-premise，企业通过本地设备保存并运行，而并非通过云环境)数据库的历史列表访问日志、(2)基于历史列表访问日志并通过机器学习来预测的访问量及(3)数据转换于存储系统330后的访问日志中的至少一个来持续优化对象系统320与存储系统330之间的数据容量及用户访问速度。此时，计算机装置200也可基于通过机器学习预测的访问量来实现第二次归档。在此情况下，预设条件也可包括如下条件，即，所预测的访问量为临界值以下。

另一方面，计算机装置200可通过步骤2020将文件存储于对象系统的本地存储器或对象系统的外部系统(例如，文件服务器或云服务器)所包含的存储器。若存在针对存储为文件的第二次归档的数据的搜索要求，则可在将存储于文件的数据(压缩的数据)再次复原成列表后，利用通过上述图15至图19说明的搜索方法来搜索所期望的数据。

另一方面，步骤2010及步骤2020也可以为计算机装置200提供如下功能的过程，即，使得对象系统处理第一次归档和第二次归档。例如，计算机装置200可在步骤2010提供通过控制对象系统来将存储在对象系统所包含的数据库中的至少一部分数据压缩存储于数据库或其他数据库的列表的功能，并且，可在步骤2020提供通过控制对象系统来根据预设条件将压缩存储于列表的至少一部分数据存储为文件的功能。

如上所述，根据本发明的实施例，本发明可通过将存储在数据库中的至少一部分数据压缩存储于上述数据库或其他数据库的列表来实现可快速搜索所压缩存储的数据的第一次归档，并且，可根据预设条件将压缩存储于列表中的至少一部分数据存储为文件，从而针对不再需要搜索或搜索要求较低的数据实现第二次归档。

以上说明的系统或装置可通过硬件结构要素、硬件结构要素及软件结构要素的组合来实现。例如，在实施例中说明的装置及结构要素可利用处理器、控制器、算术逻辑单元(ALU，arithmetic logic unit)、数字信号处理器(digital signal processor)、微型计算机、现场可编程门阵列(FPGA，field programmable gate array)、可编程逻辑单元(PLU，programmable logic unit)、微型处理器或可执行并响应指令(instruction)的其他装置等的至少一个通用计算机或特殊用途计算机来实现。处理装置可执行操作系统(OS)及在上述操作系统上执行的至少一个软件应用程序。并且，处理装置可响应软件的执行来访问、存储、操作、处理及生成数据。为了便于理解，虽说明了仅使用一个处理装置的情况，但是，本发明所属技术领域的普通技术人员应当理解的是，处理装置可包括多个处理元件(processing element)和/或多个类型的处理元件。例如，处理装置可包括多个处理器或一个处理器及一个控制器。并且，还可以为如并联处理器(parallel processor)等的其他处理结构(processing configuration)。

软件可包括计算机程序(computer program)、代码(code)、指令(instruction)或它们中的一种以上的组合，能够以按需要进行工作的方式构成处理装置或者独立或结合性(collectively)地向处理装置下达指令。软件和/或数据可为了通过处理装置解释或者为了向处理装置提供指令或数据而由任何类型的机械、结构要素(component)、物理装置、虚拟装置(virtual equipment)、计算机存储介质或装置具体化(embody)。软件可以分布在通过网络连接的计算机系统上，从而可通过分布式方法存储或执行。软件及数据可存储在至少一个计算机可读记录介质中。

实施例的方法可通过多种计算机单元执行的程序指令形态实现来记录在计算机可读介质。上述计算机可读介质可以包括单独或组合的程序指令、数据文件、数据结构等。介质也可以为用于持续存储、执行或下载计算机可执行程序而临时存储的。并且，介质可以为单个或多个硬件结合的各种记录装置或存储装置，并不限定于与某计算机系统直接连接的介质，也可以为分布存在于网络上的介质。作为一例，介质可包括硬盘、软盘及磁盘等磁介质、CD-ROM及DVD等光记录介质、光磁软盘(floptical disk)等磁光介质(magneto-optical medium)及只读存储器、随机存取存储器、闪存等用于存储程序指令语言的装置。并且，作为其他介质的一例还可以有用于流通应用程序的应用商店、提供或流通其他多种软件的网站及由服务器等管理的记录介质或存储介质。作为一例，程序指令不仅包括由编译器生成的机器语言代码，还包括可使用解释器等通过计算机执行的高级语言代码。

本发明的实施方式

以上，虽然通过限定性实施例和附图说明了实施例，但是，本发明所属技术领域的普通技术人员可基于以上内容进行多种修改及变形。例如，即使所说明的技术以与所说明的方法不同的顺序执行和/或所说明的系统、结构、装置、电路等结构要素以与所说明的方法不同的实施方式结合或组合，或者，即使被其他结构要素或等同的技术方案所代替或取代也可达到适当的结果。

因此，其他实施方式、其他实施例及等同于发明要求保护范围的内容也属于所附的发明要求保护范围。

Claims

1.一种数据归档方法，由包括至少一个处理器的计算机装置执行，其特征在于，包括如下步骤：

通过上述至少一个处理器，将存储在对象系统所包含的数据库中的至少一部分数据压缩存储于上述数据库或其他数据库的列表；以及

通过上述至少一个处理器，根据预设条件将压缩存储于上述列表的至少一部分数据存储为文件。

2.根据权利要求1所述的数据归档方法，其特征在于，上述预设条件包括如下条件中的至少一个：

第一条件，是否从上述对象系统的管理人员接收第二次归档指令；

第二条件，压缩存储于上述列表的数据是否超过保存时间；

第三条件，在预设的第一时间内是否对压缩存储于上述列表的数据产生搜索要求；以及

第四条件，在预设的第二时间内对压缩存储于上述列表的数据产生的搜索要求是否在预设次数以下。

3.根据权利要求1所述的数据归档方法，其特征在于，上述其他数据库包括上述对象系统的外部系统所包含的数据库。

4.根据权利要求1所述的数据归档方法，其特征在于，在存储为上述文件的步骤中，将上述文件存储在上述对象系统的本地存储器或上述对象系统的外部系统所包括的存储器。

5.根据权利要求1所述的数据归档方法，其特征在于，压缩存储于上述列表的步骤包括如下步骤：

基于数据记录的筛选信息确定上述对象系统所包含的数据库的归档对象列表所包含的数据记录相关分区；

按照上述分区压缩数据记录来生成压缩分区；

将上述压缩分区及唯一识别上述压缩分区的存储键联接并存储于压缩列表；以及

将上述存储键及上述筛选信息联接并存储于上述数据库或上述其他数据库的索引列表。

6.根据权利要求5所述的数据归档方法，其特征在于，存储于上述索引列表的步骤包括如下步骤：

当上述筛选信息包含相应数据记录的任意字段值时，将上述存储键及上述任意字段值联接并存储于上述数据库或上述其他数据库的组索引列表：以及

当上述筛选信息包含相应数据记录的时间相关信息时，将上述存储键及上述时间相关信息联接并存储于上述数据库或上述其他数据库的时间索引列表。

7.根据权利要求5所述的数据归档方法，其特征在于，压缩存储于上述列表的步骤还包括如下步骤：分别针对上述归档对象列表所包含的数据记录将作为包含主键、相应数据记录压缩的压缩分区内的相应数据记录位置的键索引信息及与包含相应数据记录压缩的压缩分区相对应的存储键联接并存储于上述数据库或上述其他数据库的键索引列表。

8.根据权利要求7所述的数据归档方法，其特征在于，在存储于上述键索引列表的步骤中，相对于通过在上述主键与上述列表相连接的连接列表中压缩数据记录而生成的第二压缩分区，从上述第二压缩分区所包含的数据记录中搜索上述主键与上述归档对象列表所包含的数据记录相同的数据记录，相对于所搜索的上述数据记录，使得作为上述第二压缩分区内的位置的子索引信息进一步存储于上述键索引列表上的上述主键相同的数据记录。

9.根据权利要求5所述的数据归档方法，其特征在于，压缩存储于上述列表的步骤还包括如下步骤：从上述归档对象列表删除所压缩的上述数据记录。

10.一种计算机程序，其特征在于，与计算机装置相结合，为了使计算机装置执行根据权利要求1至9中任一项所述的方法而存储于计算机可读记录介质。

11.一种计算机可读记录介质，其特征在于，为了使计算机装置执行根据权利要求1至9中任一项所述的方法而存储计算机程序。

12.一种计算机装置，其特征在于，包括至少一个处理器，用于执行计算机可读指令，通过上述至少一个处理器将存储在对象系统所包含的数据库中的至少一部分数据压缩存储于上述数据库或其他数据库的列表，根据预设条件将压缩存储于上述列表的至少一部分数据存储为文件。