CN111221851A - 一种基于Lucene的海量数据查询、存储的方法和装置 - Google Patents

一种基于Lucene的海量数据查询、存储的方法和装置 Download PDF

Info

Publication number
CN111221851A
CN111221851A CN201811425868.0A CN201811425868A CN111221851A CN 111221851 A CN111221851 A CN 111221851A CN 201811425868 A CN201811425868 A CN 201811425868A CN 111221851 A CN111221851 A CN 111221851A
Authority
CN
China
Prior art keywords
data
target
storage
lucene
data block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811425868.0A
Other languages
English (en)
Inventor
吕惠银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201811425868.0A priority Critical patent/CN111221851A/zh
Publication of CN111221851A publication Critical patent/CN111221851A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Lucene的海量数据查询、存储的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:解析SQL查询语句,以确定待查询数据;根据存储的数据与数据块的映射关系,确定待查询数据所在的多个目标数据块;根据存储的数据块与存储节点的映射关系,确定所述多个目标数据块所在的多个目标存储节点;通过Lucene的接口,获取所述多个目标存储节点中的目标数据,以及合并获取的所述目标数据。该方法能够基于Lucene,直接从目标存储节点中获取到目标数据,不用遍历存储节点中的所有数据,大大提高了查询效率。而且,可以很好的支持关联数据的查询。

Description

一种基于Lucene的海量数据查询、存储的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于Lucene的海量数据查询、存储的方法和装置。
背景技术
现有技术中,关于海量基础数据的存储,是通过基础数据与汇总数据的嵌套形式存储,进而在查询明细数据时,需要遍历某一汇总数据下的所有明细数据,然后找到需要的基础数据。对于海量数据的查询,该查询方式不仅效率低,而且当多个关联数据存储时,嵌套的结构显得臃肿。目前,只能通过嵌套的方式支持单一方向的关联数据查询,查询时需要获取全部关联数据的字符串,需要解析后再进行处理,比较繁杂,不能很好的支持多个基础数据主体和多向的基础数据主体的关联查询。
发明内容
有鉴于此,本发明实施例提供一种基于Lucene的海量数据查询、存储的方法和装置,能够基于Lucene,直接从目标存储节点中获取到目标数据,不用遍历存储节点中的所有数据,大大提高了查询效率。而且,可以很好的支持关联数据的查询。
为实现上述目的,根据本发明实施例的一个方面,提供了一种基于Lucene的海量数据查询的方法。
本发明实施例的基于Lucene的海量数据查询的方法包括:解析SQL查询语句,以确定待查询数据;根据存储的数据与数据块的映射关系,确定待查询数据所在的多个目标数据块;根据存储的数据块与存储节点的映射关系,确定所述多个目标数据块所在的多个目标存储节点;通过Lucene的接口,获取所述多个目标存储节点中的目标数据,以及合并获取的所述目标数据。
可选地,根据存储的数据与数据块之间的映射关系,确定待查询数据所在的多个目标数据块的步骤包括:获取待查询数据的数据主键;基于存储的数据主键与数据块ID的映射,根据所述待查询数据的数据主键,确定所述待查询数据所在的目标数据块。
可选地,对于每个数据块,该数据块的数据块ID根据时间戳生成;其中,所述时间戳为切分该数据块的时间戳。
可选地,通过Lucene的接口,获取所述多个目标存储节点中的目标数据,以及合并获取的所述目标数据的步骤包括:确定包括所述多个目标存储节点的节点列表;将所述节点列表分解为一个以上的子列表;对于每个子列表,调用Lucene的接口,从该子列表的目标存储节点中获取目标数据;将获取的目标数据进行合并。
为实现上述目的,根据本发明实施例的一个方面,提供了一种基于Lucene的海量数据存储的方法。
本发明实施例的基于Lucene的海量数据存储的方法包括:将待存储数据切分为多个数据块;对于每个数据块,生成其数据块ID,并且存储该数据块与该数据块ID的映射关系;通过Lucene的存储接口,确定可用的存储节点,并将所述多个数据块存储在所述可用的存储节点;以及,记录数据块与存储该数据块的存储节点的映射关系。
可选地,通过Lucene的存储接口,确定可用的存储节点之前,还包括:通过状态监听接口,监听集群中所有存储节点的状态信息。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种基于Lucene的海量数据查询的装置。
本发明实施例的基于Lucene的海量数据查询的装置包括:
解析模块,用于解析SQL查询语句,以确定待查询数据;
映射关系存储模块,用于存储数据与数据块的映射关系,以及数据块与存储节点的映射关系;
目标数据块确定模块,用于根据所述映射关系存储模块存储的数据与数据块的映射关系,确定待查询数据所在的多个目标数据块;
目标存储节点确定模块,用于根据所述映射关系存储模块存储的数据块与存储节点的映射关系,确定所述多个目标数据块所在的多个目标存储节点;
数据获取模块,用于通过Lucene的接口,获取所述多个目标存储节点中的目标数据,以及合并获取的所述目标数据。
可选地,所述目标数据块确定模块还用于,获取待查询数据的数据主键;基于存储的数据主键与数据块ID的映射,根据所述待查询数据的数据主键,确定所述待查询数据所在的多个目标数据块。
可选地,对于每个数据块,该数据块的数据块ID根据时间戳生成;其中,所述时间戳为切分该数据块的时间戳。
可选地,所述数据获取模块还用于,确定包括所述多个目标存储节点的节点列表;将所述节点列表分解为一个以上的子列表;对于每个子列表,调用Lucene的接口,从该子列表的目标存储节点中获取目标数据;将获取的目标数据进行合并。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种基于Lucene的海量数据存储的装置。
本发明实施例的基于Lucene的海量数据存储的装置包括:数据切分模块,用于将待存储数据切分为多个数据块;
数据块ID生成模块,用于对于每个数据块,生成其数据块ID,并且将该数据块与该数据块ID的映射关系存储在映射关系存储模块;
数据写入模块,用于通过Lucene的存储接口,确定可用的存储节点,并将所述多个数据块存储在所述可用的存储节点;以及,将数据块与存储该数据块的存储节点的映射关系存储在映射关系存储模块。
可选地,本发明实施例的基于Lucene的海量数据存储的装置还包括节点状态监听模块,用于通过状态监听接口,监听集群中所有存储节点的状态信息。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项的基于Lucene的海量数据查询、存储的方法。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述任一项的基于Lucene的海量数据查询、存储的方法。
上述发明中的一个实施例具有如下优点或有益效果:在数据存储时,将数据切分为多个数据块,然后将数据块存储在各个存储节点中,并且将数据与数据块的映射关系、数据块与存储节点的映射关系进行存储。进而,在查询的时候,可直接基于数据与数据块的映射关系、数据块与存储节点的映射关系,调用Lucene的接口,实现直接从目标存储节点中获取目标数据,大大提高了海量数据查询的效率。以及,由于存储时,是直接对基础数据进行分块存储,不用考虑其嵌套关系,则可直接根据存储的映射关系找到对应的目标数据,将找到的目标数据合并后,即为要查询的关联数据。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的基于Lucene的海量数据查询的方法的主要流程的示意图;
图2是根据本发明实施例的解析SQL查询语句形成逻辑解析tree的示意图;
图3是根据本发明实施例的基于Lucene的海量数据存储的方法的主要流程的示意图;
图4是根据本发明实施例的基于Lucene的海量数据查询的装置的主要模块的示意图;
图5是根据本发明实施例的基于Lucene的海量数据存储的装置的主要模块的示意图;
图6是根据本发明实施例的基于Lucene的海量数据存储查询的系统的示意图;
图7是本发明实施例可以应用于其中的示例性系统架构图;
图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的基于Lucene的海量数据查询的方法的主要流程的示意图;图2是根据本发明实施例的解析SQL查询语句形成逻辑解析tree的示意图。
如图1所示,本发明实施例的基于Lucene的海量数据查询的方法主要包括:
步骤S101:解析SQL查询语句,以确定待查询数据。对于SQL查询语句,一般包含三个部分,分别为select部分,from数据源部分,where限制条件部分。解析的过程中,把SQL查询语句进行分割,则将project,DataSource和Filter三个部分解析出来从而形成一个逻辑解析tree,如图2所示。在解析的过程中,还会检查SQL查询语句是否有错误,比如缺少指标字段、数据库中不包含这张数据表等错误时,立即停止解析,并报错。
步骤S102:根据存储的数据与数据块的映射关系,确定待查询数据所在的多个目标数据块。具体的,获取待查询数据的数据主键。然后,基于存储的数据主键与数据块ID的映射,根据待查询数据的数据主键,确定待查询数据所在的目标数据块。对于每个数据块,该数据块的数据块ID根据时间戳生成;其中,时间戳为切分该数据块的时间戳。以及,目标数据块是指,包含有待查询数据的数据块。
在数据写入Lucene集群时,将该数据切分为多个数据块,其中每个数据块中包括一条以上的明细数据(基础数据),其中每条明细数据由其数据主键唯一标识。明细数据即基础数据,与其相对应的是汇总数据。比如对于某个电商平台,每个用户每次的购买操作都会有一条购买记录,该购买记录就是基础数据(明细)。如果需要统计某一类用户的购买记录,就需要按照类别进行分组,汇总出的数据就是汇总数据。
将海量的基础数据切分为很多数据块之后,对于切分的数据块,可基于该切分操作的时间戳或者通用唯一识别码UUID(UniversallyUnique Identifier)生成数据块ID。对于每个数据块,将该数据块的数据块ID与该数据块中包括的每条明细数据的映射关系进行保存,通过该映射关系,可确定哪条明细数据存放在哪个数据块中。
步骤S103:根据存储的数据块与存储节点的映射关系,确定多个目标数据块所在的多个目标存储节点。其中,存储节点是指Lucene集群中计算机、服务器等存储数据或处理数据的设备节点。目标存储节点是指,存储待查询数据的存储节点。在将数据写入Lucene集群中时,将数据切分为多个数据块之后,通过Lucene的状态监听接口,确定每个存储节点的状态,尤其是其存储空间信息。通过对存储节点的监听,确定可用的存储节点(有存储空间可用),则将该多个数据块分配存储在该可用的存储节点中。同时,记录数据块与存储该数据块的存储节点的映射关系。其中,数据块与存储节点之间不一定是一对一的映射关系,可能一个存储节点中存储了一个或者一个以上的数据块。进而,通过该映射关系,可确定每个存储节点中存储了哪些数据块中的基础数据。
基于上述存储的数据块与存储节点的映射关系,在进行数据查询时,根据步骤S102确定出的目标数据块之后,则可确定每个目标数据块所对应的目标存储节点,即每个目标数据块存储分别存储在哪些目标存储节点中。
步骤S104:通过Lucene的接口,获取多个目标存储节点中的目标数据,以及合并获取的目标数据。具体的,确定包括所有目标存储节点的节点列表;将节点列表分解为一个以上的子列表;对于每个子列表,调用Lucene的接口,从该子列表的目标存储节点中获取目标数据;将获取的目标数据进行合并。通过数据块ID和存储节点的映射关系,找到对应的节点列表,该节点类别中包括所有的目标存储节点。可将该节点列表分解成多个固定大小的子列表,以多线程的方式调用Lucene的API,通过API获取对应的Lucene集群中的数据,并将数据合并,返回给调用端。
待查询的数据可能存储在多个存储节点的多个数据块中,从每个的存储节点的数据块中获取到的目标数据,只是待查询数据的一部分。所以,在从所有的目标存储节点中获取到目标数据之后,将获取的所有目标节点进行合并,则合并之后的数据为待查询数据。
Lucene是apache软件基金会4jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。
本发明实施例,在数据存储时,将数据切分为多个数据块,然后将数据块存储在各个存储节点中,并且将数据与数据块的映射关系、数据块与存储节点的映射关系进行存储。进而,在查询的时候,可直接基于数据与数据块的映射关系、数据块与存储节点的映射关系,调用Lucene的接口,实现直接从目标存储节点中获取目标数据,大大提高了海量数据查询的效率。以及,由于存储时,是直接对基础数据进行分块存储,不用考虑其嵌套关系,则可直接根据存储的映射关系找到对应的目标数据,将找到的目标数据合并后,即为要查询的关联数据。
图3是根据本发明实施例的基于Lucene的海量数据存储的方法的主要流程的示意图;如图3所示,本发明实施例的基于Lucene的海量数据存储的方法主要包括:
步骤S301:将待存储数据切分为多个数据块。在本发明实施例中,可将待存储数据切分为固定大小的数据块,其中,切分的数据的大小可根据业务需求设定。也可根据待存储数据的数量和存储节点的个数确定,例如:数据块大小=ceil(数据总量/节点数量),其中,ceil表示向上取整。
步骤S302:对于每个数据块,生成其数据块ID,并且存储该数据块与该数据块ID的映射关系。对于切分的数据块,可基于该切分操作的时间戳或者通用唯一识别码UUID(Universally Unique Identifier)生成数据块ID。对于每个数据块,将该数据块的数据块ID与该数据块中包括的每条明细数据的映射关系进行保存,则通过该映射关系,可确定哪条明细数据存放在哪个数据块中。
步骤S303:通过Lucene的存储接口,确定可用的存储节点,并将多个数据块存储在可用的存储节点;以及,记录数据块与存储该数据块的存储节点的映射关系。通过Lucene的存储接口,确定可用的存储节点之前,通过状态监听接口,监听集群中所有存储节点的状态信息。在将数据写入Lucene集群中时,将数据切分为多个数据块之后,通过Lucene的状态监听接口,确定每个存储节点的状态,尤其是其存储空间信息。通过对存储节点的监听,确定可用的存储节点(有存储空间可用),则将该多个数据库分配存储在该可用的存储节点中。同时,记录数据块与存储该数据块的存储节点的映射关系。进而,通过该映射关系,可确定每个存储节点中存储了哪些数据块中的基础数据。
当Lucene集群的存储节点有变化(增加存储节点或减少存储节点)时,可及时调整数据块ID与存储节点的映射关系,以便于集群的横向扩展与负载均衡。
图4是根据本发明实施例基于Lucene的海量数据查询的装置的主要模块的示意图,如图4所示,本发明实施例的基于Lucene的海量数据查询的装置400包括解析模块401、映射关系存储模块402、目标数据块确定模块403、目标存储节点确定模块404和数据获取模块405。
解析模块401用于,解析SQL查询语句,以确定待查询数据。
映射关系存储模块402用于,存储数据与数据块的映射关系,以及数据块与存储节点的映射关系。
目标数据块确定模块403用于,根据映射关系存储模块存储的数据与数据块的映射关系,确定待查询数据所在的多个目标数据块。目标数据块确定模块还用于,获取待查询数据的数据主键;基于存储的数据主键与数据块ID的映射,根据待查询数据的数据主键,确定待查询数据所在的目标数据块。对于每个数据块,该数据块的数据块ID根据时间戳生成;其中,时间戳为切分该数据块的时间戳。
目标存储节点确定模块404用于,根据映射关系存储模块存储的数据块与存储节点的映射关系,确定多个目标数据块所在的多个目标存储节点。
数据获取模块405用于,通过Lucene的接口,获取多个目标存储节点中的目标数据,以及合并获取的目标数据。数据获取模块还用于,确定包括所有目标存储节点的节点列表;将节点列表分解为一个以上的子列表;对于每个子列表,调用Lucene的接口,从该子列表的目标存储节点中获取目标数据;将获取的目标数据进行合并。
本发明实施例,在数据存储时,将数据切分为多个数据块,然后将数据块存储在各个存储节点中,并且将数据与数据块的映射关系、数据块与存储节点的映射关系进行存储。进而,在查询的时候,可直接基于数据与数据块的映射关系、数据块与存储节点的映射关系,调用Lucene的接口,实现直接从目标存储节点中获取目标数据,大大提高了海量数据查询的效率。以及,由于存储时,是直接对基础数据进行分块存储,不用考虑其嵌套关系,则可直接根据存储的映射关系找到对应的目标数据,将找到的目标数据合并后,即为要查询的关联数据。
图5是根据本发明实施例的基于Lucene的海量数据存储的装置的主要模块的示意图,如图5所示,本发明实施例的基于Lucene的海量数据查询的装置500包括数据切分模块501、数据块ID生成模块502、数据写入模块503和映射关系存储模块504。
数据切分模块501用于,将待存储数据切分为多个数据块
数据块ID生成模块502用于,对于每个数据块,生成其数据块ID,并且将该数据块与该数据块ID的映射关系存储在映射关系存储模块
数据写入模块503用于,通过Lucene的存储接口,确定可用的存储节点,并将多个数据块存储在可用的存储节点;以及,将数据块与存储该数据块的存储节点的映射关系存储在映射关系存储模块
映射关系存储模块504用于,存储数据与数据块的映射关系,以及数据块与存储节点的映射关系。
本发明实施例的基于Lucene的海量数据查询的装置还包括节点状态监听模块,用于通过状态监听接口,监听集群中所有存储节点的状态信息。调用Lucene集群状态的API,监听集群的存储节点的状态。当集群有存储节点崩溃或新增存储节点时,则可通过该监听模块得知。以及,还通过该监听模块可监听各个模块是否运作正常,如发现模块出现崩溃,可发信息给对应的备用模块,也便于集群的横向扩展。
图6是根据本发明实施例的基于Lucene的海量数据存储查询的系统的示意图。
当前主流的关系型数据库有Oracle、DB2、Microsoft SQL Server、MicrosoftAccess、MySQL等。数据量和请求量比较大时,经常用主从复制,读写分离的机制。即为了确保数据库产品的稳定性,让主数据库(master)处理事务性增、改、删操作(INSERT、UPDATE、DELETE),而从数据库(slave)处理SELECT查询操作。目前,一些数据库代理服务器,比如mycat是一个开源的分布式数据库系统,是一个实现了MySQL协议的服务器,前端用户可以把它看作是一个数据库代理,用MySQL客户端工具和命令行访问,而其后端可以用MySQL原生协议与多个MySQL服务器通信,也可以用JDBC协议与大多数主流数据库服务器通信,其核心功能是分表分库,即将一个大表水平分割为N个小表,存储在后端MySQL服务器里或者其他数据库里。
对于关系型数据来说,读写集中在一个数据库上让数据库不堪重负,大部分网站已使用主从复制技术实现读写分离,以提高读写性能和读库的可扩展性。所以在进行大量数据操作时,会使用数据库主从模式。数据的写入由主数据库负责,数据的读取由从数据库负责,可以比较简单地通过增加从数据库来实现规模化,但是数据的写入却完全没有简单的方法来解决规模化问题。分布式部署多台数据库服务器也比较麻烦,不易于维护,数据库集群的横向扩展比较艰难。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive提供一个在HDFS上的基于表的抽象,简化了结构化数据的加载。与HBase相比,Hive只能运行MapReduce job进行批量数据分析。Hive作为数据仓库,对sql的支持比较好,同时支持表之间的关联查询。但由于hive会将sql转换成MapReduce来执行,尤其对于复杂的超大规模的数据查询会比较耗时。使用spark sql连接hive数据可以有效提高查询效率,但是对于超大规模的数据查询仍然需要秒级甚至是分钟级别的等待时间。
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。它能在亚秒内查询巨大的Hive表。Kylin主要使用预计算的思想,将基础数据按照维度汇总起来,只能提供汇总维度的数据,不能提供超大规模的基础数据的快速查询。
Mycat中的路由结果是通过分片字段和分片方法来确定的,即通过某种特定的条件,将存放在同一个数据库中的数据分散存放到多个数据库(主机)上面,以达到分散单台设备负载的效果。但是,如果查询条件中没有分片字段条件,此时Mycat无法计算路由,便发送到所有节点上执行,如果集群节点比较多时,该查询会极大消耗Mycat和MySQL数据库资源。
Nosql数据库基于键值对,不需要sql层的解析,所以性能比较高。但是由于不支持sql,各个数据库的API不相同,需要一定的学习成本。难以用于数据分析与数据挖掘等方面。
如图6所示,本发明实施例的基于Lucene的海量数据存储查询的系统包括:SQL解析组件、数据映射组件和监控组件。组件是能够完成某种功能并且向外提供若干个使用这个功能的接口的可重用的代码集。组个内部由多个类来协同实现指定的功能,同时组件对外暴露一个或多个接口,供外界调用。插件、框架等都属于组件的范畴。
SQL解析组件主要负责SQL语句的解析,并基于数据映射组件存储的数据与数据块ID的映射关系、数据块与存储节点的映射关系,转换成执行计划,进一步数据映射组件根据该执行计划,调用Lucene接口获取对应的数据。对于查询语句,一般包含三个部分,select部分,from数据源部分,where限制条件部分,这三部分的内容在sql中有专门的名称。解析的过程是将SQL查询语句进行分割,把project,DataSource和Filter三个部分解析出来从而形成一个逻辑解析tree,在解析的过程中还会检查我们的sql语法是否有错误,比如缺少指标字段、数据库中不包含这张数据表等。当发现有错误时立即停止解析,并报错。当顺利完成解析时,会进入到Bind过程,就是把Parse过程后形成的逻辑解析tree,与数据字典绑定的过程,从而形成逻辑解析tree。提供几个查询执行计划,并且给出了查询执行计划的一些统计信息,根据这些执行计划的统计信息选择一个最优的执行计划。查询优化的统计信息是二进制大型对象(BLOB),这些对象包含与值在表或索引视图的一列或多列中的分布有关的统计信息。查询优化器使用这些统计信息来估计查询结果中的基数或行数。通过这些基数估计,查询优化器可以创建高质量的查询计划。例如,根据谓词,查询优化器可以使用基数估计选择索引查找运算符而不是耗费更多资源的索引扫描运算符,从而提高查询性能。将优化后的逻辑计划,按照operation->DataSource->Result顺序执行,并将需要的result的列表发送给数据映射组件,该result的列表即为包含目标存储节点的节点列表。
数据映射组件接收到SQL解析组件发送的节点列表后,则调用Lucene接口,直接从相应的节点中获取所需的数据,不需要遍历所有的存储节点,进而可大大提升查询效率。以及,当有数据需要写入Lucene集群时,按照固定大小将数据切分成数据块,并生成数据块ID。而且,记录每条基础数据与数据块ID的映射关系,通过该映射关系,可确定每个数据块中存储了哪些基础数据。将数据切分成数据块,并生成数据块ID后,数据映射组件还负责调用Lucene的接口,确定可用的存储节点,并将数据块分别存储在可用的存储节点中。以及,记录数据块和存储节点的映射关系,通过该映射关系,可确定每个存储节点中存储了哪些数据块。
数据映射组件可以使用高可用的内存分布式文件系统,比如tachyon,保证数据映射数据的高可用。Tachyon是一个高性能、高容错、基于内存的开源分布式存储系统,并具有类Java的文件API、插件式的底层文件系统、兼容Hadoop MapReduce和Apache Spark等特征。Tachyon能够为集群框架(如Spark、MapReduce等)提供内存级速度的跨集群文件共享服务。监控组件通过配置的方式,向SQL解析组件和数据映射组件的监听队列中增加监听者,当SQL解析组件或数据映射组件崩溃时,监听者及时发送消息给监控组件,监控组件收到消息后,将对应的消息解析、封装后发送给切换组件。
监控组件可以使用观察者模式开发监听各个组件。观察者模式是软件设计模式的一种,有时又被称为发布(publish)-订阅(Subscribe)模式、模型-视图(View)模式、源-收听者(Listener)模式或从属者模式。在此种模式中,一个目标物件管理所有相依于它的观察者物件,并且在它本身的状态改变时主动发出通知。这通常透过呼叫各观察者所提供的方法来实现。此种模式通常被用来实现事件处理系统。SQL解析组件和数据映射组件放入被监听者列表中,监听被监听者列表中的组件是否运行正常,在SQL解析组件或数据映射组件组件崩溃时,发送消息给切换成备用组件。监控组件还可调用Lucene集群状态的API,监听集群节点的状态。当集群有节点崩溃或新增节点时,及时告知数据映射组件。当Lucene集群的存储节点有变化时,监控组件发送调整调整命令给数据映射组件,则数据映射组件及时调整数据块ID与存储节点的映射关系,以便于集群的横向扩展与负载均衡。
本发明实施例,通过Lucene集群和数据映射组件,达到关系型数据快速查询,满足不断增长的数据存储和查询请求,解决了常见的关系型数据库配置复杂,不便于横向扩展的问题。本发明实施例的系统,可以在Lucene集群的基础上,提供海量基础关联数据的快速查询。该系统的SQL解析模块负责将sql解析成逻辑计划,进而解析成可执行的物理计划;数据映射组件负责数据、数据块、节点的映射关系维护,并在集群节点调整时,及时调整映射关系;监控组件负责监控sql解析组件和映射组件的状态,在被监控组件列表中组件崩溃时,切换到备用组件,调用Lucene集群API,监控集群节点状态,有节点调整时,及时告知数据映射组件,调整对应的映射关系。
图7示出了可以应用本发明实施例的基于Lucene的海量数据查询、存储的方法或基于Lucene的海量数据查询、存储的装置的示例性系统架构700。
如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本发明实施例所提供的基于Lucene的海量数据查询、存储的方法一般由服务器705执行,相应地,基于Lucene的海量数据查询、存储的装置一般设置于服务器705中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图8,其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取解析模块、映射关系存储模块、目标数据块确定模块、目标存储节点确定模块和数据获取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,解析模块还可以被描述为“解析SQL查询语句,以确定待查询数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:解析SQL查询语句,以确定待查询数据;根据存储的数据与数据块的映射关系,确定待查询数据所在的多个目标数据块;根据存储的数据块与存储节点的映射关系,确定多个目标数据块所在的多个目标存储节点;通过Lucene的接口,获取多个目标存储节点中的目标数据,以及合并获取的目标数据。
本发明实施例,在数据存储时,将数据切分为多个数据块,然后将数据块存储在各个存储节点中,并且将数据与数据块的映射关系、数据块与存储节点的映射关系进行存储。进而,在查询的时候,可直接基于数据与数据块的映射关系、数据块与存储节点的映射关系,调用Lucene的接口,实现直接从目标存储节点中获取目标数据,大大提高了海量数据查询的效率。以及,由于存储时,是直接对基础数据进行分块存储,不用考虑其嵌套关系,则可直接根据存储的映射关系找到对应的目标数据,将找到的目标数据合并后,即为要查询的关联数据。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种基于Lucene的海量数据查询的方法,其特征在于,包括:
解析SQL查询语句,以确定待查询数据;
根据存储的数据与数据块的映射关系,确定待查询数据所在的多个目标数据块;
根据存储的数据块与存储节点的映射关系,确定所述多个目标数据块所在的多个目标存储节点;
通过Lucene的接口,获取所述多个目标存储节点中的目标数据,以及合并获取的所述目标数据。
2.根据权利要求1所述的方法,其特征在于,根据存储的数据与数据块之间的映射关系,确定待查询数据所在的多个目标数据块的步骤包括:
获取待查询数据的数据主键;
基于存储的数据主键与数据块ID的映射,根据所述待查询数据的数据主键,确定所述待查询数据所在的多个目标数据块。
3.根据权利要求2所述的方法,其特征在于,对于每个数据块,该数据块的数据块ID根据时间戳生成;其中,所述时间戳为切分该数据块的时间戳。
4.根据权利要求1所述的方法,其特征在于,通过Lucene的接口,获取所述多个目标存储节点中的目标数据,以及合并获取的所述目标数据的步骤包括:
确定包括所述多个目标存储节点的节点列表;
将所述节点列表分解为一个以上的子列表;
对于每个子列表,调用Lucene的接口,从该子列表的目标存储节点中获取目标数据;
将获取的目标数据进行合并。
5.一种基于Lucene的海量数据存储的方法,其特征在于,包括:
将待存储数据切分为多个数据块;
对于每个数据块,生成其数据块ID,并且存储该数据块与该数据块ID的映射关系;
通过Lucene的存储接口,确定可用的存储节点,并将所述多个数据块存储在所述可用的存储节点;以及,记录数据块与存储该数据块的存储节点的映射关系。
6.根据权利要求5所述的方法,其特征在于,通过Lucene的存储接口,确定可用的存储节点之前,还包括:
通过状态监听接口,监听集群中所有存储节点的状态信息。
7.一种基于Lucene的海量数据查询的装置,其特征在于,包括:
解析模块,用于解析SQL查询语句,以确定待查询数据;
映射关系存储模块,用于存储数据与数据块的映射关系,以及数据块与存储节点的映射关系;
目标数据块确定模块,用于根据所述映射关系存储模块存储的数据与数据块的映射关系,确定待查询数据所在的多个目标数据块;
目标存储节点确定模块,用于根据所述映射关系存储模块存储的数据块与存储节点的映射关系,确定所述多个目标数据块所在的多个目标存储节点;
数据获取模块,用于通过Lucene的接口,获取所述多个目标存储节点中的目标数据,以及合并获取的所述目标数据。
8.根据权利要求7所述的装置,其特征在于,所述目标数据块确定模块还用于,获取待查询数据的数据主键;基于存储的数据主键与数据块ID的映射,根据所述待查询数据的数据主键,确定所述待查询数据所在的多个目标数据块。
9.根据权利要求8所述的装置,其特征在于,对于每个数据块,该数据块的数据块ID根据时间戳生成;其中,所述时间戳为切分该数据块的时间戳。
10.根据权利要求7所述的装置,其特征在于,所述数据获取模块还用于,确定包括所述多个目标存储节点的节点列表;将所述节点列表分解为一个以上的子列表;对于每个子列表,调用Lucene的接口,从该子列表的目标存储节点中获取目标数据;将获取的目标数据进行合并。
11.一种基于Lucene的海量数据存储的装置,其特征在于,包括:
数据切分模块,用于将待存储数据切分为多个数据块;
数据块ID生成模块,用于对于每个数据块,生成其数据块ID,并且将该数据块与该数据块ID的映射关系存储在映射关系存储模块;
数据写入模块,用于通过Lucene的存储接口,确定可用的存储节点,并将所述多个数据块存储在所述可用的存储节点;以及,将数据块与存储该数据块的存储节点的映射关系存储在映射关系存储模块。
12.根据权利要求11所述的装置,其特征在于,还包括节点状态监听模块,用于通过状态监听接口,监听集群中所有存储节点的状态信息。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4或5-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4或5-6中任一所述的方法。
CN201811425868.0A 2018-11-27 2018-11-27 一种基于Lucene的海量数据查询、存储的方法和装置 Pending CN111221851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811425868.0A CN111221851A (zh) 2018-11-27 2018-11-27 一种基于Lucene的海量数据查询、存储的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811425868.0A CN111221851A (zh) 2018-11-27 2018-11-27 一种基于Lucene的海量数据查询、存储的方法和装置

Publications (1)

Publication Number Publication Date
CN111221851A true CN111221851A (zh) 2020-06-02

Family

ID=70809340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811425868.0A Pending CN111221851A (zh) 2018-11-27 2018-11-27 一种基于Lucene的海量数据查询、存储的方法和装置

Country Status (1)

Country Link
CN (1) CN111221851A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984684A (zh) * 2020-08-20 2020-11-24 北京捷报金峰数据技术有限公司 数据处理方法及装置
CN112631833A (zh) * 2020-12-25 2021-04-09 苏州浪潮智能科技有限公司 一种数据归档查询方法、系统、存储介质及设备
CN114647559A (zh) * 2022-03-21 2022-06-21 北京百度网讯科技有限公司 一种存储使用量的统计方法、装置、电子设备及存储介质
CN114860763A (zh) * 2022-04-19 2022-08-05 北京明略昭辉科技有限公司 基于Lucene的查询方法、装置、电子设备及存储介质
US11797557B2 (en) 2020-12-03 2023-10-24 Boe Technology Group Co., Ltd. Data management platform, intelligent defect analysis system, intelligent defect analysis method, computer-program product, and method for defect analysis
CN117290343A (zh) * 2023-11-24 2023-12-26 航天宏图信息技术股份有限公司 基于数据湖的智慧林业大数据系统、方法、服务器及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375853A (zh) * 2010-08-24 2012-03-14 中国移动通信集团公司 分布式数据库系统、在其中建立索引的方法和查询方法
CN103544261A (zh) * 2013-10-16 2014-01-29 国家计算机网络与信息安全管理中心 一种海量结构化日志数据全局索引管理方法及装置
CN103927331A (zh) * 2014-03-21 2014-07-16 珠海多玩信息技术有限公司 数据查询方法、装置及系统
CN107122443A (zh) * 2017-04-24 2017-09-01 中国科学院软件研究所 一种基于Spark SQL的分布式全文检索系统及方法
US20180268000A1 (en) * 2017-03-20 2018-09-20 Datameer, Inc. Apparatus and Method for Distributed Query Processing Utilizing Dynamically Generated In-Memory Term Maps

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375853A (zh) * 2010-08-24 2012-03-14 中国移动通信集团公司 分布式数据库系统、在其中建立索引的方法和查询方法
CN103544261A (zh) * 2013-10-16 2014-01-29 国家计算机网络与信息安全管理中心 一种海量结构化日志数据全局索引管理方法及装置
CN103927331A (zh) * 2014-03-21 2014-07-16 珠海多玩信息技术有限公司 数据查询方法、装置及系统
US20180268000A1 (en) * 2017-03-20 2018-09-20 Datameer, Inc. Apparatus and Method for Distributed Query Processing Utilizing Dynamically Generated In-Memory Term Maps
CN107122443A (zh) * 2017-04-24 2017-09-01 中国科学院软件研究所 一种基于Spark SQL的分布式全文检索系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984684A (zh) * 2020-08-20 2020-11-24 北京捷报金峰数据技术有限公司 数据处理方法及装置
US11797557B2 (en) 2020-12-03 2023-10-24 Boe Technology Group Co., Ltd. Data management platform, intelligent defect analysis system, intelligent defect analysis method, computer-program product, and method for defect analysis
CN112631833A (zh) * 2020-12-25 2021-04-09 苏州浪潮智能科技有限公司 一种数据归档查询方法、系统、存储介质及设备
CN114647559A (zh) * 2022-03-21 2022-06-21 北京百度网讯科技有限公司 一种存储使用量的统计方法、装置、电子设备及存储介质
CN114860763A (zh) * 2022-04-19 2022-08-05 北京明略昭辉科技有限公司 基于Lucene的查询方法、装置、电子设备及存储介质
CN117290343A (zh) * 2023-11-24 2023-12-26 航天宏图信息技术股份有限公司 基于数据湖的智慧林业大数据系统、方法、服务器及介质

Similar Documents

Publication Publication Date Title
US10719510B2 (en) Tiering with pluggable storage system for parallel query engines
CN111221851A (zh) 一种基于Lucene的海量数据查询、存储的方法和装置
US9720992B2 (en) DML replication with logical log shipping
US9229961B2 (en) Database management delete efficiency
US10445316B2 (en) Dynamic generation of database queries in query builders
US10866960B2 (en) Dynamic execution of ETL jobs without metadata repository
US20180349455A1 (en) Methods, systems, and computer readable mediums for performing a free-form query
US9734176B2 (en) Index merge ordering
CN112416991A (zh) 一种数据处理方法、装置以及存储介质
CN111241189B (zh) 一种同步数据的方法和装置
CN111858760A (zh) 一种异构数据库的数据处理方法及装置
US11704327B2 (en) Querying distributed databases
CN112100168A (zh) 一种确定数据关联关系的方法和装置
CN113760966A (zh) 基于异构数据库系统的数据处理方法和装置
CN111984686A (zh) 一种数据处理的方法和装置
CN111352963A (zh) 一种数据统计方法及装置
CN114064729B (zh) 一种数据检索方法、装置、设备及存储介质
US11727022B2 (en) Generating a global delta in distributed databases
CN115292313A (zh) 一种伪列实现方法、装置、电子设备及存储介质
Koschel et al. Evaluating time series database management systems for insurance company
CN113656469A (zh) 大数据处理方法及装置
CN113760890A (zh) 关系型数据库管理的方法和装置
CN112988857A (zh) 一种业务数据的处理方法和装置
CN113448957A (zh) 一种数据查询方法和装置
US11550793B1 (en) Systems and methods for spilling data for hash joins

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination