CN108701134A - 数据库的存档方法及装置、存档的数据库的搜索方法及装置 - Google Patents

数据库的存档方法及装置、存档的数据库的搜索方法及装置 Download PDF

Info

Publication number
CN108701134A
CN108701134A CN201680081603.6A CN201680081603A CN108701134A CN 108701134 A CN108701134 A CN 108701134A CN 201680081603 A CN201680081603 A CN 201680081603A CN 108701134 A CN108701134 A CN 108701134A
Authority
CN
China
Prior art keywords
mentioned
record
group
search
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201680081603.6A
Other languages
English (en)
Inventor
金沃洙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asia Pacific Research Corp
Armiq Co Ltd
Original Assignee
Asia Pacific Research Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asia Pacific Research Corp filed Critical Asia Pacific Research Corp
Publication of CN108701134A publication Critical patent/CN108701134A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1451Management of the data involved in backup or backup restore by selection of backup contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供数据库存档方法。本发明一实施例的数据库存档方法包括:在需要进行数据存档的原始表中,以与时间及字段值中的至少一个有关的筛选信息为基础,来筛选包含多个记录的至少一个记录组的步骤;针对所筛选的上述至少一个记录组,将按不同上述记录组进行压缩来生成的组压缩数据及与上述组压缩数据相对应的上述筛选信息存储于压缩表的步骤;以及在上述原始表中删除所筛选的上述至少一个记录组中所包含的多个记录的步骤。

Description

数据库的存档方法及装置、存档的数据库的搜索方法及装置
技术领域
本发明涉及数据库的存档方法及装置、存档的数据库的搜索方法及装置,更详细地,涉及利用数据压缩技术的数据的存档方法及其装置和搜索被压缩并存档的数据库的方法及装置。
背景技术
随着网络的普及、数据通信技术的发展等,如计算机、笔记本电脑及智能手机的数据生产及消费手段得到普及,如今生产且消费的数据的量成倍增加。
为了有效分类并使用这种数据,利用数据库来管理数据的方法在各种企业、团体及学校等中广泛应用。但是,随着数据量的倍增,数据库的容量也面临界线,持续扩大数据库的容量在费用及管理侧面受到了限制。
因此,需要有效存档数据库来节约容量的技术。尤其,需要利用数据压缩技术的数据库的存档方法及其装置和被压缩并存档的数据库的方法及装置。
发明内容
技术问题
本发明的目的在于,提供数据库存档方法及其装置,即,根据规定的基准对数据的记录进行分类,按分类的记录进行压缩并存档,由此,可节约数据库的容量。
并且,本发明的目的在于,提供数据库搜索方法及其装置,即,并列搜索通过上述方法存档的数据库,从而变得更加有效。
技术方案
为了实现上述目的,本发明提供的数据库存档方法包括:在需要进行数据存档的原始表中,以与时间及字段值中的至少一个有关的筛选信息为基础,来筛选包含多个记录的至少一个记录组的步骤;针对所筛选的上述至少一个记录组,将按不同上述记录组进行压缩来生成的组压缩数据及与上述组压缩数据相对应的上述筛选信息存储于压缩表的步骤;以及在上述原始表中删除所筛选的上述至少一个记录组中所包含的多个记录的步骤。
优选地,将上述筛选信息存储于压缩表的步骤包括:对所筛选的上述至少一个记录组,将上述记录组中所包含的多个记录的数据存储于缓冲器的步骤;对存储于上述缓冲器的数据进行压缩来生成上述组压缩数据的步骤;获取与所生成的上述组压缩数据相对应的上述筛选信息的步骤;以及将上述组压缩数据与上述筛选信息一同存储于上述压缩表上的相同的记录的步骤。
优选地,本发明还包括:若在所筛选的上述至少一个记录组中存在记录的数量超出临界值的超出记录组,则将上述超出记录组分离为记录的数量为上述临界值以下的多个上述记录组的步骤,将上述筛选信息存储于压缩表的步骤中,将向所分离的上述多个记录组赋予的序列号存储于压缩表。
并且,为了实现上述目的,本发明提供的数据库存档方法包括:数据筛选部,在需要进行数据存档的原始表中,以与时间及字段值中的至少一个有关的筛选信息为基础,来筛选包含多个记录的至少一个记录组;数据压缩部,针对所筛选的上述至少一个记录组,按不同上述记录组进行压缩来生成组压缩数据;以及数据库管理部,将上述组压缩数据及与上述组压缩数据相对应的上述筛选信息存储于压缩表,在上述原始表中删除所筛选的上述至少一个记录组中所包含的多个记录。
优选地,上述数据压缩部对所筛选的上述至少一个记录组,将上述记录组中所包含的多个记录的数据存储于缓冲器,对存储于上述缓冲器的数据进行压缩来生成组压缩数据,上述数据库管理部获取与所生成的上述组压缩数据相对应的上述筛选信息,将上述组压缩数据与上述筛选信息一同存储于上述压缩表上的相同的记录。
优选地,若在所筛选的上述至少一个记录组中存在记录的数量超出临界值的超出记录组,则上述数据筛选部将上述超出记录组分离为记录的数量为上述临界值以下的多个上述记录组,上述数据库管理部将向所分离的上述多个记录组赋予的序列号存储于压缩表。
并且,为了实现上述目的,本发明提供的存档的数据库的搜索方法包括:接收搜索条件,上述搜索条件用于在包含对与时间及字段值中的至少一个有关的筛选信息及与上述筛选信息相对应的多个记录进行压缩来生成的组压缩数据的压缩表中搜索用户需要的记录的步骤;以执行搜索的计算机的性能及与满足上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量中的至少一个为基础,确定用于对上述记录的搜索进行并列处理的数据库搜索过程的数量的步骤;以及以所确定的上述数据库搜索过程的数量为基础,并列执行满足上述搜索条件的记录的搜索的步骤。
优选地,在确定用于并列处理的数据库搜索过程的数量的步骤包括:收集与上述计算机中所包含的中央处理器的数量、存储器的容量及存储装置的输入输出速度中的至少一个有关的计算机性能信息的步骤;在存储于上述压缩表的上述组压缩数据中,确定与满足接收的上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量的步骤;以及以所收集的上述计算机性能信息及所确定的上述组压缩数据的数量中的至少一个为基础,确定用于对上述记录的搜索进行并列处理的数据库搜索过程的数量的步骤。
优选地,并列处理满足上述搜索条件的记录的搜索的步骤包括:对所确定的上述数量的各个数据库搜索过程,以与满足上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量为基础,分配至少一个上述组压缩数据的步骤;以及按各个上述数据库搜索结果,并列执行所分配的上述至少一个组压缩数据的解压及满足上述搜索条件的记录的搜索的步骤。
优选地,在并列处理满足上述搜索条件的记录的搜索的步骤中,还以表结构信息为基础执行搜索,上述表结构信息为与以上述压缩表形式存档的原始表中所包含的字段的种类、大小、顺序及名称有关的信息。
优选地,上述数据库搜索过程利用按各个上述数据库搜索过程分配的处理器(process)或线程(thread)来执行搜索。
并且,为了实现上述目的,本发明提供的存档的数据库的搜索装置包括:接收部,用于接收搜索条件,上述搜索条件用于在包含对与时间及字段值中的至少一个有关的筛选信息及与上述筛选信息相对应的多个记录进行压缩来生成的组压缩数据的压缩表中接收用户需要的记录;搜索准备部,以执行搜索的计算机的性能及与满足上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量中的至少一个为基础,确定用于对上述记录的搜索进行并列处理的数据库搜索过程的数量;以及并列搜索部,以所确定的上述数据库搜索过程的数量为基础,并列执行满足上述搜索条件的记录的搜索。
优选地,上述搜索准备部用于:收集与上述计算机中所包含的中央处理器的数量、存储器的容量及存储装置的输入输出速度中的至少一个有关的计算机性能信息;在存储于上述压缩表的上述组压缩数据中,确定与满足接收的上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量;以所收集的上述计算机性能信息及所确定的上述组压缩数据的数量中的至少一个为基础,确定用于对上述记录的搜索进行并列处理的数据库搜索过程的数量。
优选地,上述并列搜索部用于:对所确定的上述数量的各个数据库搜索过程,以与满足上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量为基础,分配至少一个上述组压缩数据;按各个上述数据库搜索结果,并列执行所分配的上述至少一个组压缩数据的解压及满足上述搜索条件的记录的搜索。
优选地,上述并列搜索部还以表结构信息为基础执行搜索,上述表结构信息为与以上述压缩表形式存档的原始表中所包含的字段的种类、大小、顺序及名称有关的信息。
优选地,上述数据库搜索过程利用按各个上述数据库搜索过程分配的处理器或线程来执行搜索。
有益效果
本发明具有如下效果,即,根据搜索频率、重要程度等来对存储于数据库的数据进行分类,按分类结果进行压缩并存档,由此,很大程度减少数据库的使用容量,存档的数据的搜索效率也会极大化。
附图说明
图1为用于说明本发明一实施例的数据库存档方法的流程图。
图2为用于说明将本发明一实施例的筛选信息存储于压缩表的方法的流程图。
图3为用于说明本发明一实施例的存档的数据库的搜索方法的流程图。
图4为用于说明确定本发明一实施例的数据库搜索过程的数量的方法的流程图。
图5为用于说明本发明一实施例的数据库存档装置的图。
图6为用于说明本发明一实施例的存档的数据库的搜索装置的图。
图7及图8为用于说明本发明一实施例的压缩表的图。
具体实施方式
本发明可具有多种变更并可具有多种实施例,在图中例示特定实施例并进行详细说明。但是,这并非将本发明限定在特殊实施形态,而是包括本发明的思想及技术范围中的所有变更、等同技术方案或替代技术方案。在各个图中,对类似的结构要素赋予类似的附图标记。
第一、第二、A、B等的术语用于说明多种结构要素,上述结构要素并不局限于上述术语。上述术语用于区分两种结构要素。例如,在不超出本发明的发明要求保护范围的范围的情况下,第一结构要素可被命名为第二结构要素,第二结构要素可以被命名为第一结构要素。和/或术语包括多个相关记载的项目的组合或多个相关记载项目中的一个项目。
当一个结构要素与另一个结构要素“连接”或“链接”时,是指直接连接或者直接链接,也可以是在中间隔着其他结构要素。相反,当一个结构要素与其他结构要素“直接连接”或“直接链接”的时,在中间不存在其他结构要素。
在本申请中所使用的术语仅用于说明特定实施例,而并非用于限定本发明。只要并未明确表示,单数的表现包括复数的表现。在本申请中,“包括”或“具有”等的术语用于指定在说明书上记载的特征、数字、步骤、动作、结构要素、部件或这些组合的存在,而并非预先排除一个或一个以上的其他特征或数字、步骤、动作、结构要素、部件或这些组合的存在或附加可能性。
只要并未明确定义,包括技术或科学术语在内的在此使用的所有术语的含义与本发明所属技术领域的普通技术人员一般理解的含义相同。通常使用的预先定义的术语的含义与相同技术的文脉所具有的含义相同,只要在本申请中并未明确定义,不能被解释成异常或过度形式的含义。
以下,参照附图,详细说明本发明的优选实施例。
图1为用于说明本发明一实施例的数据库存档方法的流程图。
在步骤S110中,数据库存档装置在需要进行数据存档的原始表中,以与时间及字段(field)值中的至少一个有关的筛选信息为基础来筛选包含多个记录(record)的至少一个记录组。
表为在数据库中形成存储数据的基本结构的单位,原始表可以为在数据库中的多个表中,为了节约容量而进行存档的表。
数据库存档装置以与在规定的时间及字段值中的至少一个有关的筛选信息为基础来筛选包含多个记录的至少一个记录组。
此时,筛选信息为与时间有关的信息,或者与在原始表中的特定字段值有关的信息,也可以包含上述两种。例如,与时间有关的筛选信息利用与在原始表中的时间有关的字段来筛选以每月为单位的记录的信息。并且,与字段值有关的筛选信息利用在原始表中的规定字段,并根据上述字段的字段值来筛选记录的信息。并且,与时间及字段值有关的筛选信息一同利用与时间有关的字段及规定的字段来筛选记录的信息。
另一方面,在筛选信息中的字段值为在原始表中最频繁搜索的字段的字段值。此时,利用最频繁搜索的字段来筛选记录的原因如下,在存档之后,当搜索上述存档的数据库时,可以使有效性极大化。
记录组为在包含在原始表中的整个记录中,由利用筛选信息分配的多个记录构成的组。记录组根据筛选基准来生成至少一个以上,根据需要,以原始表的一部分记录为对象限定并生成记录组,而并非以全部记录为对象生成。例如,在原始表中,以仅对2015年之前的记录为对象来生成用于存档的记录组。
另一方面,在一个记录组中的记录的数量可通过综合性分析及检讨在原始表中的整个记录的数量、搜索数据库的计算机的性能及数据库的搜索条件模式等来确定。
在另一实施例中,在数据库存档装置在筛选的至少一个记录组中,若存在记录的数量超出临界值的超出记录组,则将上述超出记录组分离为记录的数量为临界值以下的多个记录组。
例如,一个记录组可包含的记录的数量的临界值可被设定为10万个。但是,若在筛选的记录组中,存在包含超出上述临界值的记录数量的超出记录组,则有可能导致计算机的过负荷及搜索过程的非效率,从而引发问题。
因此,在一个记录组具有超出10万个记录的情况下,将其分离为10万个单位来生成多个记录组。例如,在一个记录组包括25万个记录的情况下,数据库存档装置可将超出记录组分离为具有10万个记录数量的2个记录组和具有5万个记录数量的1个记录组的共3个的记录组。
另一方面,所分离的上述多个记录组通过相同筛选信息分类,因此,有可能无法区分上述多个记录组。因此,向所分离的上述多个记录组赋予序列号(例如,1、2、3、4…),并存储于压缩表的序列号字段。在此情况下,当搜索存档的数据库时,区别记录组来执行搜索。对此,后述图7的说明。
在步骤S120中,数据库存档装置对所筛选的上述至少一个记录组,将按不同记录组进行压缩生成的组压缩数据及与上述组压缩数据相对应的筛选信息存储于压缩表。
压缩表存储以记录组为单位进行压缩来存档的数据的表。并且,压缩表可包括用于存储按记录组进行压缩来生成的组压缩数据的字段和与上述组压缩数据相对应的筛选信息的至少一个字段。
组压缩数据可以为对分类的记录组进行压缩来生成的二进制数据,生成组压缩数据并存储于压缩表的具体过程在图2、图7及图8的说明中后述。
最后,在步骤S130中,数据库存档装置在上述原始表中删除所筛选的上述至少一个记录组中所包含的多个记录。
对数据库进行压缩来存档的目的为节约数据库的存储空间,在原始表删除存档的记录组中所包含多个记录,由此,可节约数据库的存储空间。
如上所述,本发明一实施例的数据库存档方法具有如下效果,即,经过压缩的步骤来存档数据库,由此,可很大程度节约数据库的容量。并且,将在数据库中的原始表分离为时间或频繁搜索为字段值之后进行存档,由此,之后,在搜索上述存档的数据的过程中,可以使搜索的有效性极大化。
图2为用于说明将本发明一实施例的筛选信息存储于压缩表的方法的流程图。此时,将筛选信息存储于压缩表的过程可对筛选的至少一个记录组执行。
在步骤S210中,数据库存档装置将记录组中所包含的多个记录的数据存储于缓冲器。
存储多个记录的数据的缓冲器的大小以原始表的表结构(字段的数量、种类及大小)及在记录组中的记录的临界值来确定。
例如,原始表包含DATE(文字8字)、NAME(文字30字)及AGE(正数4字节)的总3个字段,若与记录组的就数量有关的临界值为10万个,则当将文字1以2字节计算时,缓冲器的大小为至少为10万×(8×2+30×2+4)=800万字节(约8MB)。
而且,数据存档装置依次读取在记录组中的记录及上述记录的字段值来依次存储于缓冲器。
在步骤S220中,数据库存档装置对存储于上述缓冲器的数据进行压缩来生成组压缩数据。
组压缩数据为对存储于缓冲器的记录组的数据进行压缩来生成的二进制形式的产物。此时,为了防止因压缩而引起的损失的发生,可使用无损失的压缩算法ZIP、CTW、LZ77或LZW等。
在步骤S230中,数据库存档装置获取与所生成的上述组压缩数据相对应的筛选信息。
例如,数据库存档装置以与时间有关的筛选信息为基础来分类记录组,当生成与上述记录组相对应的组压缩数据时,上述组压缩数据可从具有与2015年2月相对应的筛选信息的多个记录生成。此时,与组压缩数据相对应的筛选信息可以为2015年2月。
最后,在步骤S240中,数据库存档装置将生成的组压缩数据与获取的筛选信息一同存储于压缩表上的相同的记录。
压缩表可包含用于存储二进制形态的组压缩数据的字段和用于存储筛选信息的至少一个字段。即,生成的组压缩数据存储于用于存储压缩的二进制数据的字段,与上述组压缩数据相对应的筛选信息可分散存储于上述至少一个字段。
另一方面,图7及图8为用于说明本发明一实施例的压缩表的图,说明压缩表的结构如下。
参照图7,原始表710包含与时间有关的Data字段714。此时,原始表710以作为与时间有关的筛选信息的Data字段714的字段值为基础进行分类之后,按各个分类结果,将组压缩数据726及与上述组压缩数据相对应的时间有关的筛选信息722存储于压缩表720。此时,参照Data字段714的值为2002.01的记录的数量为Doc.No.字段712的字段值,从1至190000存在19万个,记录组的临界值超出10万个。因此,上述记录组可分离为包含10万个及9万个记录的2个记录组。而且,所分离的上述2个记录组相对应的组压缩数据分别形成,按生成的组压缩数据726,固有的序列号724以1和2赋予,从而一同存储于压缩表720。
参照图8,原始表810包含与时间有关的Date字段814、频繁搜索的字段Col1字段816及Col2字段818。此时,原始表810以与时间及字段有关的筛选信息的Date字段814、Col1字段816及Col2字段818的字段值为基础进行分类之后,按各个分类结果,将组压缩数据825及与上述组压缩数据相对应的筛选信息821、822、823存储于压缩表820。即,当参照Doc.No.字段812的字段值时,Date字段814的值为2002.01,Col1字段816的值为1000,Col2字段818的值为A的记录从1至90000的9万个,因此,上述9万个记录变为一个记录组,并生成未组压缩数据825,从而与对应的筛选信息821、822、823一同存储。同样,参照Doc.No.字段812的字段值,Date字段814的值为2002.01,Col1字段816的值为1000,Col2字段818的值为B的记录为从90001至150000的6万个,因此,上述6万个的变为一个记录组,生成为压缩数据825,从而与对应的筛选信息821、822、823一同存储。
如上所述,将本发明一实施例的筛选信息存储于压缩表的方法具有如下效果,将组压缩数据及与上述组压缩数据相对应的筛选信息一同存储于压缩表的相同的记录,之后,仅利用筛选信息来更加有效地寻找对应的组压缩数据。
图3为用于说明本发明一实施例的存档的数据库的搜索方法的流程图。
在步骤S310中,接收用于在数据库的搜索装置对在时间及字段值中的至少一个的筛选信息及与上述筛选信息相对应的多个记录进行压缩来生成的组压缩数据的压缩表中,搜索用户所需要的记录的搜索条件。
此时,接收的搜索条件可以为结构化查询语言(SQL,structured querylanguage)形态的搜索条件。即,数据库的搜索装置以结构化查询语言的形式接收用于在存储组压缩数据和与上述组压缩数据相对应的筛选信息的压缩表中,搜索用户所需要的记录的搜索条件。
此时,用户不知是否搜索压缩表的状态下,在原始表中生成用于搜索记录的搜索条件,数据库的搜索装置可接收上述生成的搜索条件。
在步骤S320中,数据库的搜索装置以执行搜索的计算机的性能及与满足搜索条件的筛选信息相对应的组压缩数据的数量中的至少一个为基础,确定用于对记录的搜索进行并列处理的数据库搜索过程的数量。
数据库搜索过程为在存档的数据库中执行记录的搜索的单一过程。因此,在并列处理记录的搜索的情况下,存在多个数据库搜索过程,从而可被理解成同时进行。
另一方面,数据库搜索过程的数量以计算机的性能为基础来确定是因为数据库搜索过程从压缩的组压缩数据搜索流的过程对计算机产生很多负荷。并且,数据库搜索过程的数量以满足搜索条件的筛选信息相对应的组压缩数据的数量为基础来确定是因为上述组压缩数据的数量结果与搜索的量或范围有关。
另一方面,在图4中具体说明确定用于对记录的搜索进行并列处理的数据库搜索过程的数量的具体过程。
最后,在步骤S330中,数据库的搜索装置以所确定的上述数据库搜索过程的数量为基础来并列执行满足搜索条件的记录的搜索。
例如,数据库的搜索装置准备上述确定数量的数据库搜索过程,按各个数据库搜索过程分配搜索范围来并列执行记录的搜索。
在另一实施中,数据库的搜索装置对数据库搜索过程分配至少一个组压缩数据,基于此,并列执行记录的搜索。
例如,若满足搜索条件的筛选信息相对应的组压缩数据的数量为6个,确定的数据库搜索过程的数量为4个,则数据库的搜索装置向数据库搜索过程4个中的2个分配2个组压缩数据,在剩余数据库搜索过程2个分配1个组压缩数据。而且,可并列执行上述4个数据库搜索过程分配的1个或2个的组压缩数据有关的记录的搜索。
此时,各个数据库搜索过程解除分配的组压缩数据的压缩来存储于缓冲器,通过从存储于上述缓冲器的数据搜索满足搜索条件的记录的过程来执行搜索。
在另一实施例中,数据库的搜索过程部还以表结构信息为基础执行满足搜索条件的记录的搜索,上述表结构信息为与以上述压缩表形式存档的原始表中所包含的字段的种类、大小、顺序及名称有关的信息。
解除组压缩数据的压缩来存储于缓冲器,在从存储于上述缓冲器的数据搜索满足搜索条件的记录的情况下,若数据库的搜索装置知道作为与以上述压缩表形式存档的原始表中所包含的字段的种类、大小、顺序及名称有关的信息的表结构信息,则基于上述表结构信息来简单地执行搜索。
在另一实施例中,数据库搜索过程可利用按各个的数据库搜索过程分配的处理器或线程来执行。
各个数据库搜索过程需要并列执行记录的搜索,因此,为了满足这种并列特性,子处理器(child process)或线程向每个数据库搜索过程分配一个来执行搜索。此时,是否按各个数据库搜索过程分配处理器或者线程通过执行搜索的计算机的中央处理器的种类及操作系统的种类等的资源来确定。
例如,在数据库搜索过程的数量为6个的情况下,6个子处理器向每个数据库搜索过程分配,可并列执行与6个子处理器向数据库搜索过程分配的组压缩数据有关的记录的搜索。
如上所述,本发明一实施例的存档的数据库的搜索方法以根据计算机的性能及数据库的搜索范围确定的数据库搜索过程的数量为基础,并列执行记录的搜索。
图4为用于说明确定本发明一实施例的数据库搜索过程的数量的方法的流程图。
在步骤S410中,数据库的搜索装置收集与在计算机中所包含的中央处理器的数量、存储器的容量及存储装置的输入输出速度中的至少一个有关的计算机性能信息。
计算机的性能可通过执行记录的搜索的计算机中所包含的中央处理器、存储器及出处装置的性能来确定。由此,在中央处理器的情况下,搭载于上述计算机的中央处理器的数量、点击频率、缓存大小及各个中央处理器的芯片数量等来确定。并且,存储器可通过容量及动作点击频率等来确定性能。并且,存储装置可通过输入输出速度确定性能。
因此,数据库的搜索装置可收集包含与执行记录的搜索的计算机的中央处理器、存储器及存储装置中的至少一个有关的信息的计算机性能信息。
在步骤S420中,数据库的搜索装置确定满足从包含在压缩表中的组压缩数据接收的搜索条件的筛选信息有关的组压缩数据的数量。
例如,对存储于压缩表的筛选信息及与上述筛选信息相对应的组压缩数据,在用户传送从2015年1月至2015年10的搜索条件的情况下,若均找出满足上述搜索条件的筛选信息,则可确定与上述筛选信息相对应的组压缩数据的数量。
最后,在步骤S430中,数据库的搜索装置以所收集的上述计算机性能信息及所确定的上述组压缩数据的数量中的至少一个为基础,确定用于对记录的搜索进行并列处理的数据库搜索过程的数量。
例如,数据库的搜索装置综合分析计算机性能信息和组压缩数据的数量来确定用于对记录的搜索进行并列处理的数据库搜索过程的数量。
更具体地,即使收集的计算机性能信息并不优秀,在确定的组压缩数据的数量不多的情况下,数据库搜索过程的数量符合组压缩数据的数量来被确定的少数量,相反,在收集的计算信息极为优秀的情况下,即使确定的组压缩数据的数量不多,数据库搜索过程的数量符合计算机性能信息来被确定为少数量。
如上所述,确定本发明一实施例的数据库搜索过程的数量的方法中,通过与执行搜索的计算机的性能有关的信息及满足搜索条件的筛选信息相对应的组压缩数据的数量来确定数据库搜索过程的数量,由此,更加有效执行记录的并列搜索。
图5为用于说明本发明一实施例的数据库存档装置的图。
参照图5,数据库存档装置500包括数据筛选部510、数据压缩部520及数据库管理部530。此时,数据库存档装置500与搭载数据的计算机一同搭载,或者可搭载于与数据库网络连接的计算机。
数据筛选部510在需要数据存档的原始表中,以在时间及字段值中的至少一个有关的筛选信息为基础来筛选包含多个记录的至少一个记录组。
数据压缩部520对所筛选的上述至少一个记录组,按记录组进行压缩来生成组压缩数据。
数据库管理部530将组压缩数据及与上述组压缩数据相对应的筛选信息存储于压缩表,在原始表中删除筛选的至少一个记录组中所包含的多个记录。
在另一实施例中,数据压缩部520对筛选的至少一个记录组,将上述记录组中所包含的多个记录的数据存储于缓冲器,对存储于上述缓冲器的数据进行压缩来生成组压缩数据,数据库管理部530获取与所生成的上述组压缩数据相对应的筛选信息,将上述组压缩数据与上述筛选信息一同存储于压缩表上的相同记录。
在另一实施例中,在至少一个记录组中,若存在记录的数量超出临界值的超出记录组,则数据筛选部510将上述超出记录组分离为记录的数量为临界值以下的多个记录组,数据库管理部530将向所分离的上述多个记录组赋予的序列号存储于压缩表。
图6为用于说明本发明一实施例的存档的数据库的搜索装置的图。
参照图6,存档的数据库的搜索装置600包括接收部610、搜索准备部620及并列搜索部630。此时,存档的数据库的搜索装置600与搭载数据的计算机一同搭载,或者可搭载于与数据库网络连接的计算机。
接收部610接收用于在包含对与在时间及字段值中的至少一个有关的筛选信息及与上述筛选信息相对应的多个记录进行压缩来生成的组压缩数据的压缩表中,搜索用户所需要的记录的搜索条件。
搜索准备部620以执行搜索的计算机的性能及满足接收的计算机条件的筛选信息相对应的组压缩数据的数量中的至少一个,确定用于对记录的搜索进行并列处理的数据库搜索过程的数量。
在另一实施例中,搜索准备部620收集在计算机中所包含的中央处理器的数量、存储器的容量及存储装置的输入输出速度中的至少一个的计算机性能信息,确定与满足存储于压缩表的组压缩数据中接收的搜索条件的筛选信息相对应的组压缩数据的数量。
并列搜索部630以所确定的上述数据库确定过程的数量为基础,并列执行满足接收的搜索条件的记录的搜索。
在另一实施例中,并列搜索部630对上述确定数量的数据库搜索过程,以满足搜索条件的筛选信息相对应的组压缩数据的数量为基础,分配至少一个组压缩数据,并列执行按各个上述数据库搜索过程分配的至少一个组压缩数据的解压及满足搜索条件的记录的搜索。
并且,在另一实施例中,并列搜索部630还以表结构信息为基础执行搜索,上述表结构信息为与以上述压缩表形式存档的原始表所包含的字段的种类、大小、顺序及名称有关的信息。
在又一实施例中,数据库搜索过程可利用按各个数据库搜索过程分配的处理器或线程来执行搜索。
另一方面,上述本发明的实施例体现为可通过能够在计算机执行的程序制定,利用计算机可读记录介质来使上述程序工作的通用数字计算机。
上述计算机可读记录介质包括磁存储介质(例如,ROM、软盘、硬盘)、光学读数介质(例如,CD-ROM、DVD等)。
如上所述,以上述优选实施例为中心,对本发明进行了说明。本发明所属技术领域的普通技术人员在不超出本发明的本质特性的范围内可进行多种变形时实施。因此,公开的实施例并非以限定的观点考虑,而是以说明的观点考虑。本发明的范围通过发明要求保护范围体现,而并非通过上述说明体现,与此等同范围内的所有差异点均属于本发明的范围。

Claims (16)

1.一种数据库存档方法,其特征在于,包括:
在需要进行数据存档的原始表中,以与时间及字段值中的至少一个有关的筛选信息为基础,来筛选包含多个记录的至少一个记录组的步骤;
针对所筛选的上述至少一个记录组,将按不同上述记录组进行压缩来生成的组压缩数据及与上述组压缩数据相对应的上述筛选信息存储于压缩表的步骤;以及
在上述原始表中删除所筛选的上述至少一个记录组中所包含的多个记录的步骤。
2.根据权利要求1所述的数据库存档方法,其特征在于,将上述筛选信息存储于压缩表的步骤包括:
对所筛选的上述至少一个记录组,将上述记录组中所包含的多个记录的数据存储于缓冲器的步骤;
对存储于上述缓冲器的数据进行压缩来生成上述组压缩数据的步骤;
获取与所生成的上述组压缩数据相对应的上述筛选信息的步骤;以及
将上述组压缩数据与上述筛选信息一同存储于上述压缩表上的相同的记录的步骤。
3.根据权利要求1所述的数据库存档方法,其特征在于,
还包括:
若在所筛选的上述至少一个记录组中存在记录的数量超出临界值的超出记录组,则将上述超出记录组分离为记录的数量为上述临界值以下的多个上述记录组的步骤,
将上述筛选信息存储于压缩表的步骤中,将向所分离的上述多个记录组赋予的序列号存储于压缩表。
4.一种数据库存档装置,其特征在于,包括:
数据筛选部,在需要进行数据存档的原始表中,以与时间及字段值中的至少一个有关的筛选信息为基础,来筛选包含多个记录的至少一个记录组;
数据压缩部,针对所筛选的上述至少一个记录组,按不同上述记录组进行压缩来生成组压缩数据;以及
数据库管理部,将上述组压缩数据及与上述组压缩数据相对应的上述筛选信息存储于压缩表,在上述原始表中删除所筛选的上述至少一个记录组中所包含的多个记录。
5.根据权利要求4所述的数据库存档装置,其特征在于,上述数据压缩部对所筛选的上述至少一个记录组,将上述记录组中所包含的多个记录的数据存储于缓冲器,对存储于上述缓冲器的数据进行压缩来生成组压缩数据,
上述数据库管理部获取与所生成的上述组压缩数据相对应的上述筛选信息,将上述组压缩数据与上述筛选信息一同存储于上述压缩表上的相同的记录。
6.根据权利要求5所述的数据库存档装置,其特征在于,
若在所筛选的上述至少一个记录组中存在记录的数量超出临界值的超出记录组,则上述数据筛选部将上述超出记录组分离为记录的数量为上述临界值以下的多个上述记录组,
上述数据库管理部将向所分离的上述多个记录组赋予的序列号存储于压缩表。
7.一种存档的数据库的搜索方法,其特征在于,包括:
接收搜索条件,上述搜索条件用于在包含对与时间及字段值中的至少一个有关的筛选信息及与上述筛选信息相对应的多个记录进行压缩来生成的组压缩数据的压缩表中搜索用户需要的记录的步骤;
以执行搜索的计算机的性能及与满足上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量中的至少一个为基础,确定用于对上述记录的搜索进行并列处理的数据库搜索过程的数量的步骤;以及
以所确定的上述数据库搜索过程的数量为基础,并列执行满足上述搜索条件的记录的搜索的步骤。
8.根据权利要求7所述的存档的数据库的搜索方法,其特征在于,在确定用于并列处理的数据库搜索过程的数量的步骤包括:
收集与在上述计算机中所包含的中央处理器的数量、存储器的容量及存储装置的输入输出速度中的至少一个有关的计算机性能信息的步骤;
在存储于上述压缩表的上述组压缩数据中,确定与满足接收的上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量的步骤;以及
以所收集的上述计算机性能信息及所确定的上述组压缩数据的数量中的至少一个为基础,确定用于对上述记录的搜索进行并列处理的数据库搜索过程的数量的步骤。
9.根据权利要求7所述的存档的数据库的搜索方法,其特征在于,并列处理满足上述搜索条件的记录的搜索的步骤包括:
对所确定的上述数量的各个数据库搜索过程,以与满足上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量为基础,分配至少一个上述组压缩数据的步骤;以及
按各个上述数据库搜索结果,并列执行所分配的上述至少一个组压缩数据的解压及满足上述搜索条件的记录的搜索的步骤。
10.根据权利要求7所述的存档的数据库的搜索方法,其特征在于,在并列处理满足上述搜索条件的记录的搜索的步骤中,还以表结构信息为基础执行搜索,上述表结构信息为与以上述压缩表形式存档的原始表中所包含的字段的种类、大小、顺序及名称有关的信息。
11.根据权利要求7所述的存档的数据库的搜索方法,其特征在于,上述数据库搜索过程利用按各个上述数据库搜索过程分配的处理器或线程来执行搜索。
12.一种存档的数据库的搜索装置,其特征在于,包括:
接收部,用于接收搜索条件,上述搜索条件用于在包含对与时间及字段值中的至少一个有关的筛选信息及与上述筛选信息相对应的多个记录进行压缩来生成的组压缩数据的压缩表中搜索用户需要的记录;
搜索准备部,以执行搜索的计算机的性能及与满足上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量中的至少一个为基础,确定用于对上述记录的搜索进行并列处理的数据库搜索过程的数量;以及
并列搜索部,以所确定的上述数据库搜索过程的数量为基础,并列执行满足上述搜索条件的记录的搜索。
13.根据权利要求12所述的存档的数据库的搜索装置,其特征在于,上述搜索准备部用于:
收集与在上述计算机中所包含的中央处理器的数量、存储器的容量及存储装置的输入输出速度中的至少一个有关的计算机性能信息;
在存储于上述压缩表的上述组压缩数据中,确定与满足接收的上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量;
以所收集的上述计算机性能信息及所确定的上述组压缩数据的数量中的至少一个为基础,确定用于对上述记录的搜索进行并列处理的数据库搜索过程的数量。
14.根据权利要求12所述的存档的数据库的搜索装置,其特征在于,上述并列搜索部用于:
对所确定的上述数量的各个数据库搜索过程,以与满足上述搜索条件的上述筛选信息相对应的上述组压缩数据的数量为基础,分配至少一个上述组压缩数据;
按各个上述数据库搜索结果,并列执行所分配的上述至少一个组压缩数据的解压及满足上述搜索条件的记录的搜索。
15.根据权利要求12所述的存档的数据库的搜索装置,其特征在于,上述并列搜索部还以表结构信息为基础执行搜索,上述表结构信息为与以上述压缩表形式存档的原始表中所包含的字段的种类、大小、顺序及名称有关的信息。
16.根据权利要求12所述的存档的数据库的搜索装置,其特征在于,上述数据库搜索过程利用按各个上述数据库搜索过程分配的处理器或线程来执行搜索。
CN201680081603.6A 2016-02-26 2016-10-13 数据库的存档方法及装置、存档的数据库的搜索方法及装置 Withdrawn CN108701134A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020160023401A KR101663547B1 (ko) 2016-02-26 2016-02-26 데이터베이스의 아카이빙 방법 및 장치, 아카이빙된 데이터베이스의 검색 방법 및 장치
KR10-2016-0023401 2016-02-26
PCT/KR2016/011463 WO2017146337A1 (ko) 2016-02-26 2016-10-13 데이터베이스의 아카이빙 방법 및 장치, 아카이빙된 데이터베이스의 검색 방법 및 장치

Publications (1)

Publication Number Publication Date
CN108701134A true CN108701134A (zh) 2018-10-23

Family

ID=57145318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680081603.6A Withdrawn CN108701134A (zh) 2016-02-26 2016-10-13 数据库的存档方法及装置、存档的数据库的搜索方法及装置

Country Status (7)

Country Link
US (1) US11030050B2 (zh)
EP (1) EP3422204A4 (zh)
JP (1) JP6638821B2 (zh)
KR (1) KR101663547B1 (zh)
CN (1) CN108701134A (zh)
AU (1) AU2016394743A1 (zh)
WO (1) WO2017146337A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874417B (zh) * 2018-09-04 2024-04-16 华为技术有限公司 数据检索的方法和装置
CN111090652B (zh) * 2019-12-20 2023-05-23 山大地纬软件股份有限公司 一种可水平扩展归档数据库的数据归档方法和装置
US11907713B2 (en) 2019-12-28 2024-02-20 Intel Corporation Apparatuses, methods, and systems for fused operations using sign modification in a processing element of a configurable spatial accelerator
KR102559290B1 (ko) * 2020-01-06 2023-07-26 주식회사 아미크 하이브리드 클라우드 기반의 실시간 데이터 아카이빙 방법 및 시스템
US11676066B2 (en) * 2020-01-17 2023-06-13 Western Digital Technologies, Inc. Parallel model deployment for artificial intelligence using a primary storage system
KR102256814B1 (ko) * 2020-09-10 2021-05-27 주식회사 아미크 목적 데이터 선별 방법 및 시스템
CN113111032B (zh) * 2021-04-20 2022-03-08 河南水利与环境职业学院 一种档案管理系统数据归档方法和系统
CN113791742B (zh) * 2021-11-18 2022-03-25 南湖实验室 一种高性能的数据湖系统及数据存储方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101553813A (zh) * 2006-11-01 2009-10-07 起元技术有限责任公司 管理可单独访问的数据单元的存储器
US20140046908A1 (en) * 2012-08-08 2014-02-13 Kestutis Patiejunas Archival data storage system
US20140250119A1 (en) * 2004-02-20 2014-09-04 Informatica Corporation Domain based keyword search
EP2937794A1 (en) * 2014-04-22 2015-10-28 DataVard GmbH Method and system for archiving digital data

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8832045B2 (en) 2006-04-07 2014-09-09 Data Storage Group, Inc. Data compression and storage techniques
JP2010287024A (ja) 2009-06-11 2010-12-24 Yaskawa Information Systems Co Ltd アーカイブシステム、アーカイブシステム用検索プログラムならびにアーカイブシステムによる検索方法
JP5621229B2 (ja) 2009-08-27 2014-11-12 日本電気株式会社 ストレージシステム、管理方法及びプログラム
JP2013065224A (ja) 2011-09-20 2013-04-11 Kddi Corp メールアーカイブシステム
KR20140072929A (ko) * 2012-11-16 2014-06-16 현대중공업 주식회사 아카이빙 작업수행 자동화 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140250119A1 (en) * 2004-02-20 2014-09-04 Informatica Corporation Domain based keyword search
CN101553813A (zh) * 2006-11-01 2009-10-07 起元技术有限责任公司 管理可单独访问的数据单元的存储器
US20140046908A1 (en) * 2012-08-08 2014-02-13 Kestutis Patiejunas Archival data storage system
EP2937794A1 (en) * 2014-04-22 2015-10-28 DataVard GmbH Method and system for archiving digital data

Also Published As

Publication number Publication date
EP3422204A1 (en) 2019-01-02
JP6638821B2 (ja) 2020-01-29
WO2017146337A1 (ko) 2017-08-31
JP2019512125A (ja) 2019-05-09
US11030050B2 (en) 2021-06-08
EP3422204A4 (en) 2020-01-22
KR101663547B1 (ko) 2016-10-07
AU2016394743A1 (en) 2018-08-30
US20190026189A1 (en) 2019-01-24

Similar Documents

Publication Publication Date Title
CN108701134A (zh) 数据库的存档方法及装置、存档的数据库的搜索方法及装置
CN102112986B (zh) 对基于列的数据编码的结构的高效的大规模处理
CN103733195B (zh) 管理用于基于范围的搜索的数据的存储
CN108604249A (zh) 生成索引信息的数据库的存档方法及装置、包含索引信息的存档的数据库的搜索方法及装置
KR101400816B1 (ko) 개별적으로 액세스 가능한 데이터 유닛의 기억 관리 방법 및 시스템
US8266147B2 (en) Methods and systems for database organization
CN102893265B (zh) 管理可独立访问的数据单元的存储
US9665634B2 (en) Advanced database systems and methods for use in a multi-tenant system
CN104199816A (zh) 单独可访问数据单元的管理存储
CN108038188A (zh) 一种文件处理方法及装置
CN108153744A (zh) 一种数据存储维护方法及装置
CN111427858A (zh) 日志处理系统及其处理方法
JP4081236B2 (ja) データベースの処理方法
CN115409297B (zh) 一种政务服务流程优化方法、系统及电子设备
WO2010060179A1 (en) Methods for organizing a relational database by using clustering operations
JP6476346B2 (ja) データ分類方法及びデータ分類装置
CN113590594A (zh) 银行数据库迁移方法及装置
CN110858195A (zh) 时间系列度量的高效的存储和查询
JPH0877266A (ja) クロス集計処理方法及びクロス集計システム
Zhang et al. A novel storage embedded application
JP2006331294A (ja) 操作記録圧縮方法、操作記録圧縮装置、及び操作記録圧縮プログラム
JP2000163293A (ja) リレーショナル型データベースの格納方法および装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181023