CN102521405B - 支持高速加载的海量结构化数据存储、查询方法和系统 - Google Patents

支持高速加载的海量结构化数据存储、查询方法和系统 Download PDF

Info

Publication number
CN102521405B
CN102521405B CN201110441775.9A CN201110441775A CN102521405B CN 102521405 B CN102521405 B CN 102521405B CN 201110441775 A CN201110441775 A CN 201110441775A CN 102521405 B CN102521405 B CN 102521405B
Authority
CN
China
Prior art keywords
data
distributed
window
inquiry
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110441775.9A
Other languages
English (en)
Other versions
CN102521405A (zh
Inventor
吴广君
李超
王树鹏
云晓春
王勇
李斌斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoxin electronic bill Platform Information Service Co., Ltd.
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201110441775.9A priority Critical patent/CN102521405B/zh
Publication of CN102521405A publication Critical patent/CN102521405A/zh
Application granted granted Critical
Publication of CN102521405B publication Critical patent/CN102521405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种支持高速加载的海量结构化数据存储、查询方法和系统。其中海量结构化数据的分布式存储方法包括:从用户端接收高速加载的数据;以及利用双滑动窗口结构,将加载的数据进行分布式缓存,并在固定周期之后将缓存的数据进行分布式存储。通过本发明的海量结构化数据分布式存储方法,能够实现对新加载数据的缓存,从而在后期查询数据时能够提高流数据这种对近期加载数据使用频率高的应用下的查询效率。

Description

支持高速加载的海量结构化数据存储、查询方法和系统
技术领域
本发明涉及一种信息安全领域中的海量数据管理系统和方法,更具体地涉及面向复杂查询任务的查询以及分布式数据管理方法和系统,主要用于信息安全领域网络报文的落地存储、分析和海量日志数据的统计、分析等应用。
背景技术
当代信息安全领域中数据管理不再局限于传统的数据采样、分析等简单的数据处理方式,而是借助高效的数据存储系统,进行数据落地存储,并支持事后复杂的数据统计、分析等功能。
由于目前普遍使用的关系型数据库受到一致性约束,因此基于关系型数据库的查询方法和查询系统在海量数据存储和查询的条件下加载效率低、检索速度慢,而且无法实现系统的平滑扩容的目标。为了适应海量数据存储、查询等应用需求、提高数据的查询效率,提出了一种基于Hadoop开源分布式NO-SQL数据库(也称为KEY-VALUE型数据库),例如Hbase、Hypertable等,这些数据库通过降低一致性约束,提高了系统的存储规模与数据处理效率。但是基于Hadoop的NO-SQL数据库仅能提供KEY-VALUE查询模式,即根据给定的KEY值,查找对应的VALUE值或值区间,因此,其无法满足海量结构化数据的复杂条件的统计、分析查询功能。
现有技术中针对海量结构化数据的查询,有一种基于Hadoop实现的分布式数据仓库HIVE以及基于HIVE的查询方法和查询系统,其能够支持较完备的复杂SQL查询。虽然HIVE能够支持复杂的SQL查询,但是其存在以下不足:
(1)HIVE需要查询到满足条件的所有记录后才将查询结果返回给用户使用,如果结果集过大用户需要等待大量的时间才能获得结果。因此导致HIVE实时查询效率较低、延迟大,无法实现在线数据加载与快速查询的目的,无法满足界面展示这种不需要大量结果集的查询应用。
(2)HIVE中没有索引,其所有的查询操作都是通过读取原始数据文件执行的。因此,查询效率低。
(3)HIVE的查询过程是用户通过HQL语言(一种类似于SQL语言的查询表达方式)描述查询规则,虽然通过HQL语言可以描述更复杂的关联查询、等值连接JOIN,但是由于其主要是面向MapReduce的任务分解方法(即在执行查询任务时,需要多次磁盘写入、读取操作),因此其执行效率低,并且其无法直接用于流记录数据的查询。
(4)HIVE是从数据文件中读取数据的,因此不支持记录流式频繁加载方式,也不支持缓存加载数据或缓存查找数据。虽然现有技术中存储系统具有开辟缓存结构、提高数据加载效率的功能,但是需要等到缓存数据写入到磁盘中后才能支持查询操作,流式记录数据应用场合是持续不断的加载到系统中,而且近期数据相对具有更高的使用频率,因此传统方法无法满足查询的需求。
因此,在针对海量结构化数据的查询和管理领域,亟需一种能够支持复杂查询条件并且能够实现快速查询目的的方法和系统。
发明内容
本发明要解决的技术问题是提供一种能够支持复杂的SQL查询并且能够实现快速查询的海量结构化数据分布式查询方法和系统。
根据本发明的另一个方面,提出一种海量结构化数据的分布式存储方法,包括:步骤1,从用户端接收高速加载的数据;以及步骤2,利用双滑动窗口结构,将加载的数据进行分布式缓存,并在固定周期之后将缓存的数据进行分布式存储。
根据本发明的又一个方面,提出一种基于上述分布式存储方法的海量结构化数据的分布式查询方法,包括:步骤1,接收用户发出的查询任务并将查询任务分解为多个查询子任务;以及步骤2,根据该多个查询子任务,对分布式缓存的每组数据并发执行分批次查询,并分布式返回查询到的结果集。
根据本发明的另一方面,提出一种海量结构化数据分布式存储系统,包括:用于从用户端接收高速加载的数据的装置;以及用于将加载的数据进行分布式缓存并在固定周期之后将缓存的数据进行分布式存储的装置,该装置具有双滑动窗口结构。
根据本发明的另一方面,提出一种海量结构化数据分布式查询系统,包括:用于接收用户发出的查询任务并将查询任务分解为多个查询子任务的装置;以及用于根据该多个查询子任务对分布式缓存的各组数据并发执行分批次查询、并分布式返回查询到的结果集的装置。
通过本发明的海量结构化数据分布式存储方法,能够实现对新加载数据的缓存,从而在后期查询数据时能够提高流数据这种对近期加载数据使用频率高的应用下的查询效率。
并且,本发明采用的分批次查询并保持中间结果状态的查询方法充分考虑了界面展示应用中小数据量快速查询的需求,同时也兼顾了统计、分析背景下的大结果集的统计需求。
附图说明
图1为根据本发明第一实施例的海量结构化数据分布式查询方法的流程图。
图2为根据本发明一个实例的对存储在硬盘中的数据进行分批查询并分批返回结果集的流程图。
图3为根据本发明另一实例的执行分批查询并分批返回结果集的流程图。
图4为示出对查询结果集进行汇总的各步骤的流程图。
图5为双滑动窗口结构及其工作原理的示意图。
图6为根据本发明第二实施例的海量结构化数据分布式存储方法的流程图。
图7为根据本发明第二实施例的海量结构化数据分布式查询方法的流程图。
具体实施方式
在本发明的海量结构化数据的分布式存储方法和查询方法中,所采用的数据结构包括两个基本部分:全排序索引和记录数据。全排序索引是把记录所有的属性值根据字典序进行全排序。记录数据是把每条记录以行为单位按序存储。全排序索引支持过滤类查询条件,如WHERE中的查询条件。
在对本发明做详细说明之前,首先对本发明中所涉及的相关概念“分批次查询”进行定义。分批次查询指对具有大量查询结果集的查询任务,根据用户需求选择获得少量结果集的单次查询或获得所有结果集的多次查询。
下面结合附图和具体实施方式对本发明加以说明。
在针对海量结构化数据的查询方法中,通常采用分布式数据存储结构来实现海量数据的查询。
图1为根据本发明实施例的海量结构化数据分布式查询方法的流程图。如图1所示,本发明的海量结构化数据的分布式查询方法主要针对流记录数据,该方法包括以下步骤:
步骤1,接收用户发出的查询任务并将查询任务分解为多个查询子任务。
在海量数据查询过程中,针对具体的查询条件如果所有存储装置之间按照串行方式执行查询任务,则无法发挥出分布式系统的整体计算能力。因此,为了提高分布式环境下海量数据的查询效率,本发明对具体的查询任务进行分解,并将分解后的子任务发送到各个存储装置上进行并发执行。
根据本发明的一个实施例,可以根据分区类查询条件、过滤类查询条件或全局统计分析类查询条件将查询任务分解为多个查询子任务。其中,分区类查询条件是进行数据文件级别的查询,可以根据所存储的数据的索引类型设置分区类查询条件。例如,在本发明中,以时间属性为例为存储数据建立集中索引(基本的数据组织规则是根据时间属性把数据进行分块存储,数据分块之间保证时间属性的有序性,并建B+Tree索引支持统一的数据文件的查询,从而实现基于时间属性的文件级分区快速查找),则可以选用时间属性作为分区查询条件,通过在基于时间属性建立的B+tree索引中执行操作,来执行分区查询条件;过滤类查询条件针对目标索引文件内的具体记录进行过滤或匹配,这类条件可以在多个存储装置中并发执行。数据统计分析类查询条件,需要针对最后的结果集进行统一处理,才能保证查询语义的正确性。
除上述查询任务的分解方法之外,本领域技术人员可以理解还可以根据其它类型的查询条件对查询任务进行分解,以提高分布式环境下海量数据的查询效率。
本发明通过在分布式建立面向复杂条件的查询任务分解机制和并发子查询任务调度机制,从而充分利用分布式环境下的计算资源,并发执行查询子任务,以提高海量结构化数据的查询效率。
步骤2,根据该多个查询子任务中的每个查询子任务,对分布式存储的数据并发执行分批次查询,并分布式返回查询到的结果集。
在海量数据查询过程中,根据用户的查询条件可能会产生大量的结果集,甚至多达上亿条记录。处理如此大规模的结果集会占用大量时间,对于例如以B/S为应用背景的仅需要返回例如几百条记录界面展示来说,将所有的结果集都返回用户是没有必要的并且浪费了宝贵的数据处理时间。为此,本发明提出了分批查询的方法,以适用于海量数据查询需要快速返回结果集的需要。
图2为根据本发明一个实例的对存储在数据存储装置中的数据进行分批查询并分批返回结果集的流程图。如图2所示,其包括以下步骤:
步骤211,为查询操作设置单次最大返回记录数目(也称为阈值),例如将该阈值设置为100万条。
步骤212,根据查询子任务,对存储在各存储装置中的数据进行查询,并基于该阈值获得查询结果集。其中包括:当查询到的符合查询条件的记录数目达到阈值时获得结果集,例如当查询到100万条符合查询条件的记录时,将该100万条记录返回,还包括虽然查询到的符合查询条件的记录未达到阈值(例如100万条)但当已经完成了对整个存储装置的查询时获得的结果集。
步骤213,判断该结果集中的记录数目是否达到单次最大返回记录数目,如果未达到单次最大返回记录数目,则说明已经对整个数据存储装置进行了全面查询并且已经获得了所有符合查询条件的结果集,从而执行步骤215,如果达到单次最大返回记录数目,则将“未全面查询”的标记返回给用户,由用户确定是否继续进行查询,如果需要继续查询,则执行步骤214,否则执行步骤215。
步骤214,保存当前的查询状态并基于该查询状态继续进行查询。在本发明中,通过为每个查询子任务提供一个与查询子任务相关的标识符Session ID并根据Session ID保存查询状态。具体而言,对于同一个查询任务的多个批次的查询,其Session ID是相同的,因此在接收到查询子任务时,将查询子任务中的Session ID与保存的查询状态信息进行匹配,如果Session ID相同,则利用已保存的包括Session ID的查询状态信息,对上次查询中未查询到的数据进行查询,直到用户获得了所需的全部结果集。
步骤215,将查询到的结果集返回给用户。
根据本发明的另一实施例,还可以通过如图3流程图所示的步骤执行分批查询并分批返回结果集,其包括:
步骤D2100,为查询操作设置单次最大返回记录数目(也称为阈值),例如将该阈值设置为100万条。
步骤D2200,接收多个查询子任务,通过分区查询条件,获得目标索引分片,在每个索引分片上并发执行过滤类查询条件;并获得满足条件的结果集。
步骤D2300,判断查询子任务中是否有分组命令GROUP BY,如果有分组命令则执行步骤D2400,否则执行步骤D2500。
步骤D2400,利用Hash算法快速判断结果集是否属于同一个分组。Hash分组的具体方法是:使用Hash对需要分组的属性进行Hash计算,把得到的Hash值作为一个桶号标示,在标示的桶内放置Hash值与桶号相同的纪录。由于每个桶内是Hash值相同的记录,因此能够实现在O(1)时间内对记录的快速分组操作。
步骤D2500,判断查询子任务中是否有去重命令,即关键字DISTINCT,如果有则执行步骤D2600的;否则执行步骤D2700。
步骤D2600,对记录进行去重,区分DISTINCT出现在整条记录的前面、型如“SELECT DISTINCT…”,还是针对统计字段去重、型如“SELECTSUM(DISTINCT name)…”;对于型如“SELECT DISTINCT…”命令,表示针对整条记录去重,型如“SELECT SUM(DISTINCT name)…”表示针对分组name后的字段去重做统计(通常SUM与GROUP BY字段同时出现)。为了提高计算效率,数据去重时利用bloom filter进行加速重复字段的判断。
步骤D2700,判断查询条件中是否有SELECT…LIMIT K,一般K很小(比如K=100),远远小于单次最大返回记录数目(100万),如果有则在并发查询时每个查询子任务查询到满足条件的K条记录后停止查询,执行步骤D2810;否则执行步骤D2800。该步骤是针对流记录应用场合中,仅查询符合条件的一小部分数据应用情况而设计,在查询中即使没有达到分批的阈值,数据存储装置对于此类查询也不再缓存查询状态。
步骤D2800,判断查询到的记录数目是否达到阈值(例如100万条),如果达到了阈值,则将“未全面查询”的标记返回给用户,由用户根据实际需要确定是否继续查询,如果确定继续查询,则执行步骤D2820;如果确定不继续查询或者查询到的记录数目未达到阈值,则为单批次返回的结果集,执行步骤D2810。
步骤D2810,对于单批次返回的结果集,判断是否有统计函数SUM、COUNT、AVG、MAX、MIN函数,如果有执行步骤D2811,否则执行步骤D2812。
步骤D2811,根据统计函数命令,计算具体的数值,SUM是对分组后的字段计算具体数值,COUNT是统计记录条数,AVG是计算平均值,MAX是记录最大值,MIN是记录最小值。
步骤D2812,如果有排序操作命令,则进行数据排序。排序的功能包括:针对某一个字段的排序;或经过SUM、COUNT、AVG等统计函数计算的结果数据进行排序,关键字ASC表示升序排序,DESC表示降序排序,默认为升序排序。
步骤D2813,将结果集返回。
步骤D2820,将本次查询的中间结果文件暂存于临时文件中,支持与下一个批次的查询结果进行合并后得到最后的查询结果文件。
步骤D3821,根据查询子任务中的SessionID判断是否是新发起的查询请求。每次发出查询子任务时,在查询子任务中包含SessionID,同一个查询子任务中的SessionID相同。
步骤D2822,判断是否有去重命令;如果有去重命令执行步骤D2823,否则执行步骤D2824。
步骤D2823,根据DISTINCT关键字的位置,通过bloom filter进行字段去重。
步骤D2824,判断是否有分组命令,如果有分组命令执行步骤D2825;否则执行步骤D2826。
步骤D2825,统计分组过程先从临时文件中读取结果集,由于临时文件中保存的结果集是已经经过上次分组运算后的数据,只需比较每个分组的第一条记录,判断本批次的数据是否与上批次统计后的结果集属于同一分组。
步骤D2826,是否有统计函数SUM、COUNT、AVG、MAX、MIN、如果有则执行步骤D2827;否则执行步骤D2828。
步骤D2827,根据统计函数命令,计算具体的数值,SUM对分组后的字段计算具体数值,COUNT统计记录条数,AVG计算平均值,MAX选择最大值,MIN选择最小值。在计算过程中涉及到两个批次之间的合并操作。例如,对于COUNT、SUM直接与上一批次计算的结果累加;对于MAX、MIN统计函数选取当前批次与上一个批次的最大或最小值。
步骤D2828,判断分批次查询是否结束,即判断是否已查询了所有的数据集,如果没有结束,执行步骤D2820;否则执行步骤D2829。
步骤D2829,对最后的结果集进行全局排序,排序内容可以针对某一个字段进行排序,可以针对聚合函数SUM、COUNT、AVG等计算结果进行排序,默认结果集采用升序排序规则。
步骤D2830,把统计的结果由临时文件转化为最终的结果文件,并按照指定的格式进行数据的导出,以返回结果集。
根据本发明的又一实施例,海量结构化数据的分布式查询方法还可以包括:步骤3,对分布式查询返回的结果集进行汇总,并将该结果集呈现给用户。
图4示出根据本发明的一个实施例的对查询结果集进行汇总的各步骤的流程图。如图4所示,包括:
步骤311,对分布式返回的结果集进行合并,之后,判断是否有全局统计、分析类查询条件,如Group By、Order By、SUM、COUNT、AVG、TOP、LIMIT、MAX、MIN等需要汇总后执行分析类的查询命令;如果有,执行步骤312,如果没有执行步骤313。
步骤312,根据统计分析查询命令,执行全局统计、分析类操作。
步骤313,对生成的结果集根据用户要求的格式、路径生成结果文件,并将该结果文件呈现给用户。为此,本发明提供分页查询机制,所谓分页查询机制是指用户可以任意显示数据集中的某一部分数据集进行界面展示,如经过步骤313后,生成的结果文件中一共有i条记录,界面上每页可以显示j条记录(i>j),则一共有
Figure BDA0000124873340000091
页(取i/j的上整数),用户可以根据需要直接选择结果集中的任意一页进行展示。之后,退出查询操作。
本发明的海量结构化数据分布式查询方法,由于采用了分批查询并返回结果集,因此在不需要大量结果集的应用下,能够使查询结果集在达到一定阈值后,直接返回给用户端,也可以根据需要将查询结果进行暂存以支持分批查询操作。因此对于界面展示的查询应用,选择单批次返回结果集用于在界面上进行展示;而对于具有数据统计分析功能的查询应用,通过保存的查询状态,进行多批次查询,直到查询到满足条件的所有结果集为止。因此在海量数据管理系统中,本发明既能满足对返回结果集的数据需求量小但是需要快速响应这一类型应用的需求(例如界面展示查询类型),也能满足对响应时间要求不高但需要返回大量结果集的数据统计分析查询这一类型应用的需求(例如以数据挖掘为应用背景的信息分析)。
由于在分布式海量结构化数据存储系统中建立了索引以及建立了复杂查询条件分解和并发子查询任务调度机制,因此,本发明通过充分利用分布式环境下的计算资源,并发执行查询子任务,从而提高了海量结构化数据的查询效率。
在流数据等应用背景下,近期加载数据具有很高的使用频率。基于此,根据本发明的一个实施例,提出一种数据存储方法,利用双滑动窗口结构将近期加载的数据进行缓存,并且通过对所缓存的数据进行查询,以提高流数据应用下的查询效率。
图5为双滑动窗口结构及其工作原理的示意图。如图5所示,该双滑动窗口结构包括:数据写入窗口和数据查询窗口。其中,数据写入窗口接收实时加载的数据,为数据建立索引,并修改相关的系统元数据信息;数据查询窗口接收查询子任务,并根据建立的元数据记录信息直接查询本窗口的数据。其中,数据查询窗口和数据写入窗口根据时间周期进行流式转变。
例如将时间窗口设置为5分钟。如图5所示,当时间达到5分钟时,数据写入窗口内保存的是完整的5分钟内的数据,此时数据写入窗口不再写入新数据,窗口角色转化为数据查询窗口。重新开辟新的缓存结构接收加载数据,生成新的数据写入窗口。数据查询窗口内保证完整的5分钟内记录数据,接收查询命令,根据元数据记录信息直接查询本窗口的数据,返回满足条件的结果集。当再经过一个写入周期时,会有新的数据查询窗口产生。此时旧的数据查询窗口不再提供数据查询服务,而是通过网络把该窗口内缓存的批量数据进行存储(例如存储到硬盘中)。待窗口内的数据全部写入被存储后回收该窗口使用的资源。从而实现多个窗口之间的角色根据时间周期的流式转变。
基于上述双滑动窗口结构,根据本发明的一个实施例,提出一种海量结构化数据分布式存储方法。如图6所示,根据本发明的海量结构化数据分布式存储方法包括:
步骤1,从用户端接收高速加载的数据。
步骤2,建立具有固定查询周期的双滑动窗口结构,以将加载的数据进行缓存,该双滑动窗口结构在后期的数据查询步骤中还使能对缓存数据的查询。
数据缓存装置利用高速缓存设备接收实时加载的数据并进行本地缓存。通常数据缓存装置通过开辟大存储空间内存或固态硬盘实现。经过固定的时间周期,数据缓存装置会把缓存的数据写入到数据存储管理装置中,实现数据持久存储。
通过本发明的海量结构化数据分布式存储方法,能够实现对新加载数据的缓存,从而在后期查询数据时能够提高流数据这种对近期加载数据使用频率高的应用下的查询效率。
根据本发明的一个实施例,可以基于上述将新加载的数据进行缓存的海量结构化数据的分布式存储方法,在对分布式存储的数据并发执行分批次查询的同时,对通过双滑动窗口结构实现分布式缓存的每组数据并发执行分批次查询,并分布式返回结果集。
基于上述分布式数据存储方法,根据本发明的一个实施例,提出另一种海量结构化数据的分布式查询方法。如图7所示,该查询方法包括:
步骤1,接收用户发出的查询任务并将查询任务分解为多个查询子任务。
步骤2,根据该多个查询子任务,对分布式缓存的每组数据并发执行分批次查询,并分布式返回查询到的结果集。
其中对在将查询任务分解为多个查询子任务的步骤中也可以根据分区类查询条件、过滤类查询条件或全局统计、分析类查询条件将查询任务分解为多个查询子任务的步骤,从而在进行查询时进一步提高查询效率。
根据本发明的另一实施例,该海量结构化数据的分布式查询方法还包括:步骤3,对分批返回的查询结果集进行汇总,并将该结果集呈现给用户。
根据本发明的又一实施例,该海量结构化数据的分布式查询方法还包括在对分布式缓存的每组数据并行执行分批次查询的同时还对分布式存储的每组数据并行执行分批次查询。
根据本发明的另一实施例,也可以采用如图2和图3所示的方式对分布式缓存的每组数据进行分批查询。
本发明通过直接对加载数据进行缓存,并对缓存的数据直接进行查询操作,因此无需等到所有数据统一存储之后再执行查询,从而尤其提高了近期存储的数据使用频率非常高(例如日志类流记录数据)这种应用下的查询效率。
当然,本领域技术人员也可以理解,在前面描述的针对分布式存储的每组数据执行分批次查询的同时
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (22)

1.一种海量结构化数据的分布式存储方法,包括:
步骤a,从用户端接收高速加载的数据;以及
步骤b,利用双滑动窗口结构,将加载的数据进行分布式缓存,并在固定周期之后将缓存的数据进行分布式存储;其中该双滑动窗口结构包括数据写入窗口和数据查询窗口,该数据写入窗口接收实时加载的数据,并修改相关的系统元数据信息;该数据查询窗口接收查询子任务,并根据建立的元数据记录信息直接查询本窗口的数据;所述数据查询窗口和数据写入窗口根据时间周期进行流式转变,进行流式转变的方式如下:一个写入周期完成时,当前的数据写入窗口的角色转化为数据查询窗口,重新开辟新的缓存结构接收加载数据,生成新的数据写入窗口;当再经过一个写入周期,新的数据查询窗口产生,此时旧的数据查询窗口不再提供数据查询服务,把该旧的数据查询窗口内缓存的批量数据进行存储,待该旧的数据查询窗口内的数据全部写入被存储后回收该旧的数据查询窗口使用的资源,从而实现多个窗口之间的角色根据时间周期的流式转变。
2.一种基于权利要求1所述的分布式存储方法的海量结构化数据的分布式查询方法,包括:
步骤1,接收用户发出的查询任务并将查询任务分解为多个查询子任务;以及
步骤2,根据该多个查询子任务,对分布式缓存的各组数据并发执行分批次查询,并分布式返回查询到的结果集,其中,所述查询子任务被所述数据查询窗口接收,所述数据查询窗口根据建立的元数据记录信息对本窗口缓存的数据直接进行查询操作。
3.如权利要求2所述的分布式查询方法,还包括:步骤3,对分布式返回的结果集进行汇总,并将汇总后的结果集呈现给用户。
4.如权利要求2或3所述的分布式查询方法,其中步骤1包括根据分区类查询条件、过滤类查询条件或全局统计分析类查询条件将查询任务分解为多个查询子任务。
5.如权利要求4所述的分布式查询方法,其中根据分布式存储的数据的索引类型设置分区类查询条件。
6.如权利要求5所述的分布式查询方法,其中根据以时间属性建立的索引,以时间属性设置该分区类查询条件。
7.如权利要求4所述的分布式查询方法,其中对分布式缓存的各组数据并发执行分批次查询包括针对分布式缓存的每组数据执行下列步骤:
步骤211,为查询分布式缓存数据的操作设置单次最大返回记录数目;
步骤212,根据查询子任务对缓存的数据进行查询,并且基于该单次最大返回记录数目,获得结果集;
步骤213,判断该结果集中的记录数目是否达到单次最大返回记录数目,如果未达到单次最大返回记录数目,则执行步骤215,如果达到单次最大返回记录数目,则由用户确定是否继续进行查询,如果需要继续查询即为多次查询,则执行步骤214,否则为单次查询,执行步骤215;
步骤214,保存当前的查询状态并基于该查询状态继续进行查询,直到获得包括符合查询条件的所有记录的结果集;以及
步骤215,将查询到的结果集返回。
8.如权利要求7所述的分布式查询方法,其中步骤212包括通过分区类查询条件获得目标索引分片,在每个索引分片上并发执行过滤类查询条件,以获得结果集。
9.如权利要求8所述的分布式查询方法,其中步骤212还包括:在获得结果集之后,执行全局统计、分析类查询条件。
10.如权利要求9所述的分布式查询方法,其中执行全局统计、分析类查询条件包括:根据查询子任务中的分组命令,利用hash算法进行数据集快速分组操作。
11.如权利要求9所述的分布式查询方法,其中执行全局统计、分析类查询条件还包括:根据查询子任务中的去重命令进行组内去重或全局去重。
12.如权利要求9所述的分布式查询方法,其中执行全局统计、分析类查询条件包括根据统计函数SUM、COUNT、AVG、MAX、MIN对查询结果计算统计结果,其中SUM是对分组后的字段计算具体数值,COUNT是统计记录条数,AVG是计算平均值,MAX是查询到的所有记录中的最大值,MIN是查询到的所有记录中的最小值。
13.如权利要求7所述的分布式查询方法,其中步骤212包括:当查询到的符合查询条件的记录数目达到该单次最大返回记录数目时获得结果集,或者虽然查询到的符合查询条件的记录未达到该单次最大返回记录数目但已经完成了对所有存储数据的查询时获得的结果集。
14.如权利要求7所述的分布式查询方法,其中步骤213包括:当该结果集中的记录数目等于单次最大返回记录数目时,将“未全面查询”的标记返回给用户,用户基于该标记根据实际需要确定是否继续查询。
15.如权利要求7所述的分布式查询方法,其中步骤214包括:为每个查询子任务提供一个与其相关的标识符,并且根据该标识符保存当前的查询状态。
16.如权利要求3所述的分布式查询方法,其中步骤3包括:
步骤311,将分布式返回的结果集进行合并;
步骤312,根据统计分析查询命令,对合并后的结果集执行全局统计、分析类操作;以及
步骤313,对生成的结果集根据用户要求的格式、路径生成结果文件,并将该结果文件呈现给用户。
17.如权利要求7所述的分布式查询方法,还包括在步骤214之后,对所有的结果集进行全局排序。
18.如权利要求3所述的分布式查询方法,其中步骤3包括通过分页查询机制,将汇总后的结果集分页呈现给用户。
19.如权利要求2或3所述的分布式查询方法,其中步骤2还包括:在对分布式缓存的各组数据并发执行分批次查询的同时,还对分布式存储的每组数据并发执行分批次查询,并分布式返回查询到的结果集。
20.如权利要求19所述的分布式查询方法,其中对分布式缓存的各组数据和分布式存储的各组数据并发执行分批次查询包括针对分布式缓存的每组数据和分布式存储的每组数据分别执行下列步骤:
步骤211,为查询操作设置单次最大返回记录数目;
步骤212,根据查询子任务对该组数据进行查询,并且基于该单次最大返回记录数目,获得结果集;
步骤213,判断该结果集中的记录数目是否达到单次最大返回记录数目,如果未达到单次最大返回记录数目,则执行步骤215,如果达到单次最大返回记录数目,则由用户确定是否继续进行查询,如果需要继续查询即为多次查询,则执行步骤214,否则为单次查询,执行步骤215;
步骤214,保存当前的查询状态并基于该查询状态继续进行查询,直到获得包括符合查询条件的所有记录的结果集;以及
步骤215,将查询到的结果集返回。
21.一种海量结构化数据分布式存储系统,包括:
用于从用户端接收高速加载的数据的装置;以及
用于将加载的数据进行分布式缓存并在固定周期之后将缓存的数据进行分布式存储的装置,其中该装置具有双滑动窗口结构;其中该双滑动窗口结构包括数据写入窗口和数据查询窗口,该数据写入窗口接收实时加载的数据,并修改相关的系统元数据信息;该数据查询窗口接收查询子任务,并根据建立的元数据记录信息直接查询本窗口的数据;所述数据查询窗口和数据写入窗口根据时间周期进行流式转变,进行流式转变的方式如下:一个写入周期完成时,当前的数据写入窗口的角色转化为数据查询窗口,重新开辟新的缓存结构接收加载数据,生成新的数据写入窗口;当再经过一个写入周期,新的数据查询窗口产生,此时旧的数据查询窗口不再提供数据查询服务,把该旧的数据查询窗口内缓存的批量数据进行存储,待该旧的数据查询窗口内的数据全部写入被存储后回收该旧的数据查询窗口使用的资源,从而实现多个窗口之间的角色根据时间周期的流式转变。
22.一种海量结构化数据分布式查询系统,包括:
用于从用户端接收高速加载的数据的装置;
用于将加载的数据进行分布式缓存并在固定周期之后将缓存的数据进行分布式存储的装置,其中该装置具有双滑动窗口结构;其中该双滑动窗口结构包括数据写入窗口和数据查询窗口,该数据写入窗口接收实时加载的数据,并修改相关的系统元数据信息;该数据查询窗口接收查询子任务,并根据建立的元数据记录信息直接查询本窗口的数据;所述数据查询窗口和数据写入窗口根据时间周期进行流式转变,进行流式转变的方式如下:一个写入周期完成时,当前的数据写入窗口的角色转化为数据查询窗口,重新开辟新的缓存结构接收加载数据,生成新的数据写入窗口;当再经过一个写入周期,新的数据查询窗口产生,此时旧的数据查询窗口不再提供数据查询服务,把该旧的数据查询窗口内缓存的批量数据进行存储,待该旧的数据查询窗口内的数据全部写入被存储后回收该旧的数据查询窗口使用的资源,从而实现多个窗口之间的角色根据时间周期的流式转变;
用于接收用户发出的查询任务并将查询任务分解为多个查询子任务的装置;以及
用于根据该多个查询子任务对分布式缓存的每组数据执行并发执行分批次查询、并分布式返回查询到的结果集的装置。
CN201110441775.9A 2011-12-26 2011-12-26 支持高速加载的海量结构化数据存储、查询方法和系统 Active CN102521405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110441775.9A CN102521405B (zh) 2011-12-26 2011-12-26 支持高速加载的海量结构化数据存储、查询方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110441775.9A CN102521405B (zh) 2011-12-26 2011-12-26 支持高速加载的海量结构化数据存储、查询方法和系统

Publications (2)

Publication Number Publication Date
CN102521405A CN102521405A (zh) 2012-06-27
CN102521405B true CN102521405B (zh) 2014-06-25

Family

ID=46292318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110441775.9A Active CN102521405B (zh) 2011-12-26 2011-12-26 支持高速加载的海量结构化数据存储、查询方法和系统

Country Status (1)

Country Link
CN (1) CN102521405B (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737134B (zh) * 2012-06-29 2014-06-18 电子科技大学 适用于大规模实时数据流的查询处理方法
CN103092920B (zh) * 2012-12-26 2017-04-12 新浪网技术(中国)有限公司 半结构化数据的存储方法及存储系统
CN103049556B (zh) * 2012-12-28 2016-11-09 中国科学院深圳先进技术研究院 一种海量医疗数据的快速统计查询方法
CN104035923B (zh) * 2013-03-04 2017-09-01 阿里巴巴集团控股有限公司 查询数据的方法及装置
CN103164531B (zh) * 2013-04-03 2016-03-23 河海大学 基于模糊优先级的二阶段实例层数据集成方法
WO2015016907A1 (en) * 2013-07-31 2015-02-05 Hewlett Packard Development Company, L.P. Data stream processing using a distributed cache
CN103412922B (zh) * 2013-08-12 2017-02-08 曙光信息产业股份有限公司 一种数据查询处理方法
CN103491187B (zh) * 2013-09-30 2018-04-27 华南理工大学 一种基于云计算的大数据统一分析处理方法
CN103544259B (zh) * 2013-10-16 2017-01-18 国家计算机网络与信息安全管理中心 分组聚集排序TopK查询处理方法及系统
CN104572676B (zh) * 2013-10-16 2017-11-17 中国银联股份有限公司 一种针对多数据库表的跨库分页查询方法
CN103825930B (zh) * 2013-11-12 2017-03-29 浙江省水文局 一种分布式环境下的实时数据同步方法
CN104636389B (zh) * 2013-11-14 2018-03-27 博雅网络游戏开发(深圳)有限公司 实现Hbase数据库实时查询的方法和系统
CN103617232B (zh) * 2013-11-26 2018-03-30 北京京东尚科信息技术有限公司 一种针对HBase表的分页查询方法
CN103927331B (zh) * 2014-03-21 2017-03-22 珠海多玩信息技术有限公司 数据查询方法、装置及系统
CN107291869B (zh) * 2014-04-14 2020-04-24 五八同城信息技术有限公司 一种分布式服务系统及其数据查询的方法
CN104050276B (zh) * 2014-06-26 2017-08-01 北京思特奇信息技术股份有限公司 一种分布式数据库的缓存处理方法及系统
CN104123374B (zh) * 2014-07-28 2017-09-29 北京京东尚科信息技术有限公司 分布式数据库中聚合查询的方法及装置
CN104252535A (zh) * 2014-09-16 2014-12-31 福建新大陆软件工程有限公司 一种基于hbase的数据散列处理方法及装置
CN104361090B (zh) * 2014-11-17 2018-01-05 浙江宇视科技有限公司 数据查询方法及装置
CN105786845B (zh) * 2014-12-23 2020-03-31 中兴通讯股份有限公司 一种提供网络资产数据的方法及装置
CN105045891B (zh) * 2015-07-31 2018-08-31 中国科学院计算技术研究所 提高顺序表性能方法、系统、架构、优化方法及存储装置
CN106708865B (zh) * 2015-11-16 2020-04-03 杭州华为数字技术有限公司 流处理系统中访问窗口数据的方法和装置
CN105653652B (zh) * 2015-12-28 2019-07-05 上海瀚银信息技术有限公司 一种数据同步方法及系统
CN107045499A (zh) * 2016-02-05 2017-08-15 中兴通讯股份有限公司 一种实现数据查询的方法和服务器
CN106021386B (zh) * 2016-05-12 2019-02-05 西北工业大学 面向海量分布式数据的非等值连接方法
CN106547837A (zh) * 2016-10-13 2017-03-29 广西电网有限责任公司电力科学研究院 一种分布式文件系统及其数据文件处理方法
CN106570145B (zh) * 2016-10-28 2020-07-10 中国科学院软件研究所 一种基于分层映射的分布式数据库结果缓存方法
CN108664322A (zh) * 2017-03-29 2018-10-16 广东神马搜索科技有限公司 数据处理方法及系统
CN107844405B (zh) * 2017-10-12 2021-11-19 华为技术有限公司 日志处理方法及装置、服务器
CN108172299B (zh) * 2017-12-25 2021-04-27 华中科技大学同济医学院附属协和医院 一种医疗数据远端计算系统及方法
CN108804642A (zh) * 2018-06-05 2018-11-13 中国平安人寿保险股份有限公司 检索方法、装置、计算机设备及存储介质
CN109032794A (zh) * 2018-07-12 2018-12-18 广州市闲愉凡生信息科技有限公司 一种电子商务系统的Cache对象缓存方法
CN110716924B (zh) * 2018-07-13 2022-09-16 杭州海康威视系统技术有限公司 删除过期数据的方法和装置
CN109408541A (zh) * 2018-09-03 2019-03-01 平安科技(深圳)有限公司 报表分解统计方法、系统、计算机设备和存储介质
CN111125157B (zh) * 2018-10-31 2023-07-04 北京国双科技有限公司 查询数据的处理方法、装置、存储介质及处理器
CN109582640B (zh) * 2018-11-15 2020-12-01 深圳市酷开网络科技有限公司 一种基于滑动窗口的数据去重存储方法、装置及存储介质
CN110321388B (zh) * 2019-02-26 2021-07-02 南威软件股份有限公司 一种基于Greenplum的快速排序查询方法及系统
CN110096520B (zh) * 2019-04-28 2021-08-17 浙江邦盛科技有限公司 一种用于轨道交通多源流数据的分布式实时处理方法
CN110502543B (zh) * 2019-08-07 2022-07-12 京信网络系统股份有限公司 设备性能数据存储方法、装置、设备和存储介质
CN111767252A (zh) * 2020-06-30 2020-10-13 平安科技(深圳)有限公司 日志查询方法、装置、计算机设备和存储介质
CN112579576B (zh) * 2020-12-31 2022-10-14 杭州网易智企科技有限公司 一种数据处理方法、装置、介质和计算设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1269714B1 (en) * 2000-03-30 2006-08-30 Intel Corporation Method and device for distributed caching
CN101251861B (zh) * 2008-03-18 2010-04-21 北京锐安科技有限公司 一种海量数据加载和查询的方法
CN101908075A (zh) * 2010-08-17 2010-12-08 上海云数信息科技有限公司 基于sql的并行计算系统及方法
CN102006330B (zh) * 2010-12-01 2013-06-12 北京瑞信在线系统技术有限公司 分布式缓存系统、数据的缓存方法及缓存数据的查询方法
CN102254024A (zh) * 2011-07-27 2011-11-23 国网信息通信有限公司 海量数据处理系统及方法

Also Published As

Publication number Publication date
CN102521405A (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
CN102521405B (zh) 支持高速加载的海量结构化数据存储、查询方法和系统
CN102521406B (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
CN103853727B (zh) 提高大数据量查询性能的方法及系统
CN103020204B (zh) 一种对分布式顺序表进行多维区间查询的方法及其系统
US10642831B2 (en) Static data caching for queries with a clause that requires multiple iterations to execute
Santos et al. Real-time data warehouse loading methodology
CN104424258B (zh) 多维数据查询的方法、查询服务器、列存储服务器及系统
CN109241093B (zh) 一种数据查询的方法、相关装置及数据库系统
CN102523285B (zh) 一种基于对象分布式文件系统的存储缓存方法
CN102184222B (zh) 一种在大数据量存储中快速检索的方法
CN102629269B (zh) 一种嵌入式数据库的检索及存储方法
CN103678665A (zh) 一种基于数据仓库的异构大数据整合方法和系统
CN103678491A (zh) 一种基于Hadoop中小文件优化和倒排索引的方法
CN103366015A (zh) 一种基于Hadoop的OLAP数据存储与查询方法
CN110309233A (zh) 数据存储的方法、装置、服务器和存储介质
CN102779138B (zh) 实时数据的硬盘存取方法
JP2019204472A (ja) Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN106933511B (zh) 考虑负载均衡与磁盘效率的空间数据存储组织方法及系统
CN106294772A (zh) 分布式内存列式数据库的缓存管理方法
CN103744913A (zh) 一种基于搜索引擎技术的数据库检索方法
CN107451233A (zh) 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法
CN109783441A (zh) 基于Bloom Filter的海量数据查询方法
CN109213760B (zh) 非关系数据存储的高负载业务存储及检索方法
CN110888861A (zh) 一种新型大数据存储方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180824

Address after: 100044 B sixteen, No. 22 building, South Road, Haidian District, Beijing.

Patentee after: Guoxin electronic bill Platform Information Service Co., Ltd.

Address before: 100190 South Road, Zhongguancun Science Academy, Haidian District, Beijing 6

Patentee before: Institute of Computing Technology, Chinese Academy of Sciences

TR01 Transfer of patent right