CN102332004B - 用于海量数据管理的数据处理方法和系统 - Google Patents

用于海量数据管理的数据处理方法和系统 Download PDF

Info

Publication number
CN102332004B
CN102332004B CN 201110217035 CN201110217035A CN102332004B CN 102332004 B CN102332004 B CN 102332004B CN 201110217035 CN201110217035 CN 201110217035 CN 201110217035 A CN201110217035 A CN 201110217035A CN 102332004 B CN102332004 B CN 102332004B
Authority
CN
China
Prior art keywords
data
storage server
index
retrieval
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110217035
Other languages
English (en)
Other versions
CN102332004A (zh
Inventor
吴广君
王树鹏
云晓春
张永铮
王明华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoxin electronic bill Platform Information Service Co., Ltd.
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN 201110217035 priority Critical patent/CN102332004B/zh
Publication of CN102332004A publication Critical patent/CN102332004A/zh
Application granted granted Critical
Publication of CN102332004B publication Critical patent/CN102332004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于海量数据管理的数据处理方法和系统。该方法包括:设置多个数据加载装置的步骤、设置元数据管理装置的步骤、在所述数据存储服务器上设置数据管理服务装置的步骤。该系统包括:多个数据加载装置、元数据管理装置、数据存储服务器。该方法和系统提高了海量数据的处理效率,降低了针对海量数据处理的复杂性,从而实现提高海量数据检索与挖掘的效率。

Description

用于海量数据管理的数据处理方法和系统
技术领域
本发明针对海量数据管理过程中加载与检索效率低下的问题,提出并发加载和多层次并发检索的方法和线性扩容的系统,尤其涉及一种线性扩容的分布式并发加载、检索方法和系统。
背景技术
据市场调查公司IDC统计,到2011年全球数据量预计达到35.2ZB(1ZB=1021B)。典型的应用包括:海量日志的分析、挖掘;网络报文的实时存储与分析;Web2.0下的在线游戏、SNS网络等。传统关系型数据库由于一致性的约束,在数据量达到TB量级时,加载效率和检索效率会明显下降;典型的分布式No-SQL数据库,如Yahoo!的PNUTS,Amazon的Dynamo,Facebook的Cassandra以及Hbase,Hypertable等由于没有为数据源建立索引的机制,仅支持字符串数据类型,导致系统仅提供基于关键字或者时间戳的数据管理,无法执行复杂的统计、分析操作。
目前海量数据管理中大部分的应用可以通过二维表结构数据管理模型实现数据的管理与分析操作;同时对于数据加载过程中多条记录之间的一致性需求较弱。基于上述分析,本发明设计并实现具有海量数据管理功能的数据处理方法和系统,通过分布式的数据处理方法和系统为用户提供二维表空间的数据管理模型(行为记录,列为属性),每条记录内部支持多种属性数据检索,多条记录之间可以联合执行复杂的统计、分析操作。通过元数据管理装置,集中管理海量数据的元数据和分布存储的数据块与数据存储装置的映射关系,支持数据的并发加载与数据管理装置的线性扩容。
发明内容
为解决上述技术问题,本发明提出一种用于海量数据管理的数据处理方法和系统,提高了海量数据的处理效率,降低了针对海量数据处理的复杂性,从而实现提高海量数据检索与挖掘的效率。
本发明公开了一种用于海量数据管理的数据处理方法,其特征在于,包括:
A,设置多个数据加载装置的步骤,通过二维表结构管理不同类型的字段创建不同类型的索引,并以并发方式向通过网络连接的至少一个数据存储服务器加载索引数据源,实现数据加载与维护操作;
B,设置元数据管理装置的步骤,用于记录由所述数据加载装置生成的索引分片的分布信息,记录并更新所述数据存储服务器的状态信息,以及记录所述索引分片与所述数据存储服务器的对应关系;
C,在所述数据存储服务器上设置数据管理服务装置的步骤,用于存储、管理所述索引分片,并根据检索命令并发检索索引分片,并向所述元数据管理装置报告工作状态。
还包括:设置多个数据检索装置的步骤,用于实现多机协同、多层次、不同粒度的数据并发检索。
还包括:所述索引分片由所述数据加载装置独立生成,构成进行调度、负载均衡和并发检索的基本单元。
还包括:所述索引分片之间根据时间顺序排序;所述索引分片内部根据字典序排序。
所述数据检索装置至少设置二层次数据过滤机制,和/或二个层次数据汇总机制。
所述二个层次数据过滤机制,包括:第一级过滤机制是根据检索命令,通过所述元数据管理装置过滤特定的数据存储服务器列表,并发地向过滤后的检索服务器发送检索命令;第二级过滤机制是所述数据存储服务器根据检索命令,过滤本地索引分片,符合条件的索引分片并发的执行检索操作。
所述二个层次数据汇总机制,包括:所述数据存储服务器汇总多个索引分片的并发检索后结果;所述数据检索装置汇总多个所述数据存储服务器返回的初次汇总结果。
本发明还公开了一种用于海量数据管理的数据处理系统,包括:多个数据加载装置通过二维表结构,为不同类型的字段创建不同类型的索引,并通过网络连接的至少一个数据存储服务器加载索引数据源,实现数据加载与维护操作;元数据管理装置,用于记录由所述数据加载装置生成的索引分片的分布信息,记录并更新所述数据存储服务器的状态信息,以及记录所述索引分片与所述数据存储服务器的对应关系;数据存储服务器,还包括数据管理服务装置,用于存储、管理所述索引分片,并根据检索命令并发检索索引分片,并向所述元数据管理装置报告工作状态。
还包括:多个数据检索装置,用于实现多机协同、多层次、不同粒度的数据并发检索。当有新的数据存储服务器加入时,所述数据管理服务装置向所述元数据管理装置报告状态变更信息,所述元数据管理装置把新的数据存储服务器加入到可用服务器列表中,并开始接下来的存储调度和定期心跳机制检查中。
本发明的技术特征,首先,基于表结构(schema)的并发索引创建、加载机制。数据加载装置利用表结构(schema)为不同类型的字段,创建不同类型的索引。多个数据加载装置可以并发的向存储系统加载索引数据源;该技术在以记录为原子操作的应用场合,可以在线的为数据源创建索引,在系统计算资源允许的条件下,系统的加载效率可以随数据加载装置的数目呈线性关系增长。其次,索引分片的分割策略和分布存储技术。一定数量的索引构成一个索引分片。每个索引分片是由数据加载装置独立生成的,是调度、负载均衡和并发检索的基本单位。索引分片根据一定的规则进行有序存储,默认索引分片之间根据时间顺序排序;索引分片内部根据字典序排序。通过元数据管理装置记录分片的分布信息。该技术可以有效管理大规模存储中索引并发加载、检索乃至负载均衡的粒度,并且根据检索条件,采用具体的优化策略,提高索引整体检索效率。最后,多层次、不同粒度的索引并发检索、过滤以及汇总机制。检索过程主要包括两个层次的过滤机制,两个层次的数据汇总机制。第一级过滤机制是根据检索命令,通过元数据管理装置过滤特定的数据存储服务器列表,并发的向过滤后的检索服务器发送检索命令;第二级过滤机制是数据存储服务器根据检索命令,过滤本地索引分片,符合条件的索引分片并发的执行检索操作。两级汇总机制包括:数据存储服务器汇总多个索引分片的并发检索后结果;数据检索装置汇总多个数据存储服务器返回的初次汇总结果。该技术的效果是利用多机协同,实现多层次,不同粒度的数据并发检索框架,提高大规模存储条件下索引的检索效率。
本发明的基本出发点是通过降低关系模型中多记录之间的强一致性的约束,实现以单条记录为原子操作,面向用户提供二维表数据模型。同时本发明利用SQL-Like语言描述数据检索规则。系统通过增加数据加载装置可以达到近线性的提高系统加载效率;通过增加存储管理服务器的数量,可以近线性的提高检索效率。本发明提出的方法和系统适用于海量日志存储分析与挖掘、网络报文落地存储与统计等要求较高的加载效率和复杂的统计检索功能的场合。
附图说明
图1为数据并发检索存储系统示意图;
图2为数据加载装置工作流程图;
图3为数据检索装置工作流程图;
图4为元数据管理装置功能描述;
图5为数据管理装置工作流程图。
具体实施方式
下面结合附图,详细说明本发明的具体实施方式。图1给出整体的数据部署结构图,本发明揭示了一种用于海量数据管理的数据处理方法以及采用该方法的系统。该系统包括:多个数据加载装置10,多个数据检索装置20,元数据管理装置30,多个数据存储服务器40,该数据存储服务器40又包括数据管理装置41以及存储介质装置42。数据加载装置10,数据检索装置20,元数据管理装置30,以及数据存储服务器40之间通过Gb Ethernet(Gb以太网)连接。
该数据加载装置10接收加载数据源,并构建二维表结构。二维表结构支持的数据类型包括:INDEX(创建全文索引),INTEGER(整数),TIMESTAMP(时间戳),IPFIELD(IP类型),STORE(不创建索引,直接存储数据源)。该数据加载装置10为不同类型的字段建立索引。多个数据加载装置10可以同时加载数据源,提高数据加载效率。数据通过Gb Ethernet传输到具体的数据存储服务器40,并保存到存储介质装置42。该数据的检索装置20,接收用户检索命令,通过该元数据管理装置30获得满足检索条件的数据存储服务器40,并向该数据存储服务器40发出检索命令。该数据存储服务器40通过数据管理装置41检索本地的索引分片并返回检索结果,该数据检索装置42接收返回的检索结果并返回给用户。
本发明的数据源加载流程如图2所示。该数据加载装置10主要的功能是接收操作命令,实现表空间管理,数据加载操作,数据删除操作等。该数据加载装置10以记录为单位进行原子操作,多个数据加载装置10之间可以并行向系统加载数据。数据加载装置10进一步的工作步骤:
步骤S101:初始化数据加载装置,开辟内存空间,数据加载装置通常以进程为单位进行并发加载;
步骤S102:开辟缓存空间,接收加载数据命令和对应的数据源;
步骤S103:通过分词,解析加载数据的命令信息,提取输入信息的关键字,并进行SQL语法分析,进行语法检查,如果语法正确执行步骤S1041;
步骤S104:解析操作命令;
步骤S1041:如果是创建表空间命令,类型如下:CREATE TABLE tablename(字段名字段类型,…),根据输入的表名,字段名,字段类型等信息,创建二维表结构,并记录表空间的结构(schema)文件;
步骤S1042:把表结构文件写入到元数据管理装置;如果执行成功,返回步骤S102;
步骤S1051:如果是数据加载命令(图中表述为插入数据,请修改。),类型如下:INSERT INTO tablename VALUES(字段值类表),从元数据管理装置读取对应的schema,并根据schema文件对输入的字段值进行检查,检查通过后根据每个字段类型进行数据转换,针对文本数据需要进行分词工作;
步骤S1052:根据每个字段的类型建立对应的索引。目前系统分为五类数据类型:STORE类型字段不建立索引直接存储数据;INDEX类型字段保存文本信息;INTEGER保存整数类型,TIMESTAMP保存统计信息,IPFIELD字段类型主要存储IP数据;
步骤S1053:根据不同字段类型创建索引首先在本地进行缓存;
步骤S1054:判断本地缓存索引是否达到阈值,缓存阈值是5分钟或者是100万记录;如果达到阈值转到步骤S1055,否则执行步骤S102;
步骤S1055:判断是否为新的索引分片,索引分片阈值通过配置文件进行说明,默认把缓存阈值作为索引分片阈值。对于新生成的索引分片进行负载均衡;如果是新生成的索引分片执行步骤S1056,否则执行步骤S1057;
步骤S1056:连接元数据管理装置,根据调度规则,获得当前可用的数据存储服务器地址,并在本地缓存;
步骤S1057:向数据存储服务器传输由索引分片构成的数据;
步骤S1058:更新元数据管理装置,如果执行成功返回步骤S102;
步骤S1061:系统提供基于时间戳区间的旧数据删除机制;如果是删除数据的命令,获取删除命令中删除数据的时间戳区间;
步骤S1062:连接元数据管理装置,检索索引分片对应数据存储服务器列表;
步骤S1063:从元数据管理装置获得存储索引分片对应的数据存储服务器列表;
步骤S1064:向保存时间戳区间内的索引分片数据存储服务器发送索引删除数据命令;如果执行成功返回步骤S102;
步骤S1071:如果是删除表空间的命令,型如:DROP tablename,向元数据管理装置发起连接,检索索引分片对应的数据存储服务器列表;
步骤S1072:根据存储索引的数据存储服务器列表,发送删除表空间命令;如果执行成功返回步骤S102;
步骤S1081:如果是退出数据加载装置的命令,则关闭表空间,清空资源;
步骤S1082:结束流程。
该数据检索装置20,主要面向用户执行具体的数据检索操作。数据的检索操作使用SQL-Like语言描述检索规则。本发明根据海量流数据、日志数据主要的检索特点,设计并实现了一种支持精确、模糊检索、多属性检索,具备统计分析功能的聚和函数(SUM,AVG,COUNT,MAX,MIN),分组排序(ORDER BY,GROUP BY)等描述数据操作的数据检索方法,具体的检索流程如图3所示。
步骤S201:接收SQL-Like语言描述的数据检索命令;
步骤S202:通过分词,语法分析等操作,解析输入的SQL-Like检索命令,并生成检索语法树;
步骤S203:连接元数据管理装置,根据检索的语法树过滤数据存储服务器,获得索引分片所在的数据存储服务器地址列表;
步骤S204:根据数据存储服务器地址列表,并发的向目标数据存储服务器发送检索命令;
步骤S205:开辟缓存,接收数据存储服务器发回的检索结果;
步骤S206:对步骤S205发回的检索结果,根据检索命令进行汇总,二次排序等操作,如果检索命令中有ORDER BY,GROUP BY等关键字时,需要对不同数据存储服务器发回的结果集进行二次排序或分组处理;有TOP或LIMIT关键字时,需要进行结果的截断处理;
步骤S207:根据检索结果的大小以及检索命令的类型进行判断,如果结果过大,返回结果的前100万条记录,并提示用户结果不完全,是否继续检索;如果继续检索则转到步骤S204,如果结束本次操作则执行步骤S208;
步骤S208:判断是否退出检索操作,如果退出则释放资源,否则执行步骤S201。
该元数据管理装置30主要的功能是:记录索引分片和数据存储服务器的对应关系,记录数据存储服务器的状态信息,定期检测本地数据存储服务器状态。在有新数据写入时S301,根据当前的服务器状态进行负载均衡,并记录或更新表空间的schema文件以及对应表空间元数据信息;当数据检索装置进行数据检索时S302,元数据管理装置提供索引分片和数据存储服务器的对应关系,并把目标数据存储服务器列表发送给数据检索装置;元数据管理装置定期利用心跳机制监测集群内部的数据存储服务器是否可以连接,并根据心跳机制返回信息更新服务器状态S303。
该元数据管理装置具有的其他功能包括进行组员管理,副本管理。当有新的数据存储服务器加入时,向元数据管理装置报告本地的状态信息,元数据管理装置把新的数据存储服务器加入到可用数据存储服务器列表中,并开始接下来的存储调度和定期心跳机制检查中。根据索引分片和数据存储服务器的对应关系,元数据管理装置可以把同一份索引分片导向两个不同的数据存储服务器,起到副本容错的功能。该元数据管理装置的基本工作流程如图4所示。
数据管理装置41通常部署在数据存储服务器40上,主要提供三种功能:存储、管理索引分片;根据检索命令并发检索索引分片;定期向元数据管理装置报告系统的状态。具体工作流程如图5所示。
步骤S401:数据管理装置启动监听服务,接收并判断操作命令;
步骤S4021:如果是元数据管理装置的心跳机制信息,则收集本地的状态信息,主要是本地的磁盘剩余空间等参数;
步骤S4022:向元数据管理装置发送心跳机制状态信息;
步骤S4031:如果是数据写入操作,在本地开辟缓存,接收数据加载装置传来的索引或数据;
步骤S4032:在存储本地索引分片,并根据具体规则组织本地的索引分片;
步骤S4033:判断索引分片是否大于、等于本地索引分片的阈值,如果大于执行步骤S4034,否则执行步骤S4035;
步骤S4034:生成不同的索引分片;
步骤S4035:更新本地索引分片对应的元数据信息;
步骤S4036:如果本地索引分片写入成功,向元数据管理装置发送更新的索引分片元数据信息;
步骤S4041:如果是接收数据检索命令,首先根据数据检索命令判断是否是新建立的检索会话,如果是则执行步骤S4043,否则执行S4042;
步骤S4042:当检索的结果过大时,只返回部分的结果(前100万记录),本次需要继续上次的检索操作,首先从内存的获得上次检索后剩余的缓存的结果;
步骤S4043:根据检索条件过滤本地的索引分片,选择符合检索条件的索引分片;
步骤S4044:根据检索条件,并发检索目标索引分片,并对结果集进行汇总;
步骤S4045:判断结果集是否大于结果集的阈值,系统默认是100万记录;如果大于阈值,执行步骤S4046,否则执行步骤S4047;
步骤S4046:缓存本次检索大于阈值的结果集部分和本次检索的会话ID信息,支持后续的查找操作;
步骤S4047:向数据检索装置发送检索结果;
步骤S4051:如果是退出命令,清空缓存数据,释放资源;
步骤S4052:退出流程。
本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下,还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明,而是由权利要求书的范围来确定的。

Claims (10)

1.一种用于海量数据管理的数据处理方法,其特征在于,包括:
A,设置多个数据加载装置的步骤,通过二维表结构为不同类型的字段创建不同类型的索引,并以并发方式向通过网络连接的至少一个数据存储服务器加载索引数据源,实现数据加载与维护操作;
B,设置元数据管理装置的步骤,用于记录由所述数据加载装置生成的索引分片的分布信息,记录并更新所述数据存储服务器的状态信息,以及记录所述索引分片与所述数据存储服务器的对应关系;
C,在所述数据存储服务器上设置数据管理服务装置的步骤,用于存储、管理所述索引分片,并根据检索命令并发检索索引分片,并向所述元数据管理装置报告工作状态。
2.根据权利要求1所述数据处理方法,其特征在于,还包括:设置多个数据检索装置的步骤,用于实现多机协同、多层次、不同粒度的数据并发检索。
3.根据权利要求1所述数据处理方法,其特征在于,还包括:所述索引分片由所述数据加载装置独立生成,构成进行调度、负载均衡和并发检索的基本单元。
4.根据权利要求3所述数据处理方法,其特征在于,还包括:所述索引分片之间根据时间顺序排序;所述索引分片内部根据字典序排序。
5.根据权利要求2所述数据处理方法,其特征在于,所述数据检索装置至少设置二个层次数据过滤机制,和/或二个层次数据汇总机制。
6.根据权利要求5所述数据处理方法,其特征在于,所述二个层次数据过滤机制,包括:
第一级过滤机制是根据检索命令,通过所述元数据管理装置过滤特定的数据存储服务器列表,并发地向过滤后的数据存储服务器发送检索命令;
第二级过滤机制是所述数据存储服务器根据检索命令,过滤本地索引分片,对符合条件的索引分片并发地执行检索操作。
7.根据权利要求5所述数据处理方法,其特征在于,所述二个层次数据汇总机制,包括:
所述数据存储服务器汇总多个索引分片的并发检索后结果; 
所述数据检索装置汇总多个所述数据存储服务器返回的初次汇总结果。
8.一种用于海量数据管理的数据处理系统,采用所述权利要求1至7中任意一种的数据处理方法,其特征在于,包括:
多个数据加载装置,用于通过二维表结构,为不同类型的字段创建不同类型的索引,并以并发方式向通过网络连接的至少一个数据存储服务器加载索引数据源,实现数据加载与维护操作;
元数据管理装置,用于记录由所述数据加载装置生成的索引分片的分布信息,记录并更新所述数据存储服务器的状态信息,以及记录所述索引分片与所述数据存储服务器的对应关系;
数据管理服务装置,设置在所述数据存储服务器上,用于存储、管理所述索引分片,并根据检索命令并发检索索引分片,并向所述元数据管理装置报告工作状态。
9.根据权利要求8所述数据处理系统,其特征在于,还包括:多个数据检索装置,用于实现多机协同、多层次、不同粒度的数据并发检索。
10.根据权利要求9所述数据处理系统,其特征在于,当有新的数据存储服务器加入时,所述数据管理服务装置向所述元数据管理装置报告状态变更信息,所述元数据管理装置把新的数据存储服务器加入到可用服务器列表中,并开始接下来的存储调度和定期心跳机制检查中。 
CN 201110217035 2011-07-29 2011-07-29 用于海量数据管理的数据处理方法和系统 Active CN102332004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110217035 CN102332004B (zh) 2011-07-29 2011-07-29 用于海量数据管理的数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110217035 CN102332004B (zh) 2011-07-29 2011-07-29 用于海量数据管理的数据处理方法和系统

Publications (2)

Publication Number Publication Date
CN102332004A CN102332004A (zh) 2012-01-25
CN102332004B true CN102332004B (zh) 2013-04-24

Family

ID=45483780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110217035 Active CN102332004B (zh) 2011-07-29 2011-07-29 用于海量数据管理的数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN102332004B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2821925B1 (en) * 2012-08-09 2017-05-10 Huawei Technologies Co., Ltd. Distributed data processing method and apparatus
CN103488687A (zh) * 2013-09-02 2014-01-01 用友软件股份有限公司 用于大数据的搜索系统和搜索方法
CN103944964A (zh) * 2014-03-27 2014-07-23 上海云数信息科技有限公司 一种分布式系统及根据该系统进行逐步扩容的方法
CN104657459B (zh) * 2015-02-09 2018-02-16 中国科学院信息工程研究所 一种基于文件粒度的海量数据存储方法
CN105512168A (zh) * 2015-11-16 2016-04-20 天津南大通用数据技术股份有限公司 一种集群数据库复合加载数据的方法及装置
CN106095832B (zh) * 2016-06-01 2020-02-18 东软集团股份有限公司 分布式并行数据处理方法以及装置
CN107330114A (zh) * 2017-07-11 2017-11-07 王焱华 一种大数据处理方法
CN107832055A (zh) * 2017-12-11 2018-03-23 安徽科大国创云网科技有限公司 一种mql语言翻译为sql语言的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735590B1 (en) * 1997-05-29 2004-05-11 Oracle Corporation Method, article of manufacture, and apparatus for generating a multi-dimensional record management index
CN101996250A (zh) * 2010-11-15 2011-03-30 中国科学院计算技术研究所 一种基于Hadoop的海量流数据存储和查询方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735590B1 (en) * 1997-05-29 2004-05-11 Oracle Corporation Method, article of manufacture, and apparatus for generating a multi-dimensional record management index
CN101996250A (zh) * 2010-11-15 2011-03-30 中国科学院计算技术研究所 一种基于Hadoop的海量流数据存储和查询方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴伟.海量存储系统元数据管理的研究.《中国博士学位论文全文数据库》.2010,全文.
吴婷.海量存储系统中元数据管理机制的研究.《中国硕士学位论文全文数据库》.2010,全文.
海量存储系统中元数据管理机制的研究;吴婷;《中国硕士学位论文全文数据库》;20100831;全文 *
海量存储系统元数据管理的研究;吴伟;《中国博士学位论文全文数据库》;20101031;全文 *

Also Published As

Publication number Publication date
CN102332004A (zh) 2012-01-25

Similar Documents

Publication Publication Date Title
CN102332004B (zh) 用于海量数据管理的数据处理方法和系统
US10552287B2 (en) Performance metrics for diagnosing causes of poor performing virtual machines
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN102521405B (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
CN104301360B (zh) 一种日志数据记录的方法、日志服务器及系统
CN102629269B (zh) 一种嵌入式数据库的检索及存储方法
Santos et al. Real-time data warehouse loading methodology
CN103714123B (zh) 企业云存储分块对象重复数据删除和重组版本控制方法
JP4403068B2 (ja) データウェアハウジングのための高性能な変更の捕捉
CN104317800A (zh) 一种海量智能用电数据混合存储系统及方法
CN108536761A (zh) 报表数据查询方法及服务器
CN103631842B (zh) 用于检测多列复合键列集合的方法和系统
KR102038529B1 (ko) 인-메모리 데이터베이스의 실시간 데이터 변경 처리 시스템
Yang et al. F1 Lightning: HTAP as a Service
CN101963982A (zh) 基于位置敏感哈希的删冗存储系统元数据管理方法
CN102779138B (zh) 实时数据的硬盘存取方法
EP2610768B1 (en) Data archiving and de-archiving in a business environment
US11429629B1 (en) Data driven indexing in a spreadsheet based data store
CN110096509A (zh) 大数据环境下实现历史数据拉链表存储建模处理的系统及方法
CN101916281B (zh) 并行计算系统及去重计数方法
CN102521347A (zh) 基于优先级的模式匹配中间结果管理方法
CN101122978A (zh) 合约风险转嫁系统及方法
US10776368B1 (en) Deriving cardinality values from approximate quantile summaries
WO2024212594A1 (zh) 一种存储文件管理方法、装置、ai平台和存储介质
US11514236B1 (en) Indexing in a spreadsheet based data store using hybrid datatypes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180824

Address after: 100044 B sixteen, No. 22 building, South Road, Haidian District, Beijing.

Patentee after: Guoxin electronic bill Platform Information Service Co., Ltd.

Address before: 100080 No. 6 South Road, Zhongguancun Academy of Sciences, Beijing, Haidian District

Patentee before: Institute of Computing Technology, Chinese Academy of Sciences