CN114138812A - 一种查询方法、装置、电子设备及存储介质 - Google Patents

一种查询方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114138812A
CN114138812A CN202111435080.XA CN202111435080A CN114138812A CN 114138812 A CN114138812 A CN 114138812A CN 202111435080 A CN202111435080 A CN 202111435080A CN 114138812 A CN114138812 A CN 114138812A
Authority
CN
China
Prior art keywords
query
query request
module
condition
under
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111435080.XA
Other languages
English (en)
Inventor
王卓
艾智远
陈康柳
李汶钢
易乐天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202111435080.XA priority Critical patent/CN114138812A/zh
Publication of CN114138812A publication Critical patent/CN114138812A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种查询方法、装置、电子设备及存储介质,其中,所述方法包括:确定查询请求的类型;在所述查询请求为非第一类型的情况下,利用第一模块查询与所述查询请求对应的目标数据;其中,所述第一类型为SELECT类型;在所述查询请求为第一类型的情况下,利用第二模块查询与所述查询请求对应的目标数据。

Description

一种查询方法、装置、电子设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种查询方法、装置、电子设备及存储介质。
背景技术
近年来,基于分布式文件系统(HDFS,Hadoop Distributed File System)的查询引擎产品层出不穷,每个查询引擎面向不同业务场景提供独具特色的服务,以满足特定行业特定客户特定场景的需求。然而,查询引擎的差异性使得业务开发人员仍面临诸多难题:(1)业务开发进度无法保障。开发人员可能同时面临多种不同的业务,为了满足不同业务需求,需要使用不同查询引擎的接口,导致业务开发缓慢。(2)理解和使用查询引擎难度高。当开发综合性业务时,开发人员需要深刻理解每个查询引擎支持的功能列表以及针对特定结构化查询语言(SQL,Structured Query Language)语句能取得的性能,这使得产品性能优化困难重重。
发明内容
为解决上述技术问题,本申请实施例提供了一种查询方法、装置、电子设备及存储介质。
本申请实施例提供了一种查询方法,其特征在于,所述方法包括:
确定查询请求的类型;
在所述查询请求为非第一类型的情况下,利用第一模块查询与所述查询请求对应的目标数据;其中,所述第一类型为SELECT类型;
在所述查询请求为第一类型的情况下,利用第二模块查询与所述查询请求对应的目标数据。
本申请一可选实施方式中,所述第一模块对应的查询引擎为Hive组件,所述利用第一模块查询与所述查询请求对应的目标数据,包括:
利用Hive组件查询与非SELECT类型的所述查询请求对应的目标数据。
本申请一可选实施方式中,所述利用第二模块查询与所述查询请求对应的目标数据,包括:
利用第二模块确定是否存在满足所述查询请求的索引数据;在不存在满足所述查询请求的索引数据的情况下,利用第三模块对应的查询引擎查询与所述查询请求对应的目标数据。
本申请一可选实施方式中,所述利用第三模块对应的查询引擎查询与所述查询请求对应的目标数据,包括:
利用第三模块确定处理所述查询请求所要处理的原始数据的规模;基于所述原始数据的规模确定处理所述查询请求所需耗费的资源;在确定所述资源满足第一条件的情况下,利用第一引擎执行与所述查询请求对应的查询操作;在所述资源满足第二条件的情况下,利用第二引擎执行与所述查询请求对应的查询操作;其中,所述资源满足第一条件的情况下对应的资源量大于所述资源满足第二条件的情况下对应的资源量。
本申请一可选实施方式中,所述利用第二模块查询与所述查询请求对应的目标数据,包括:
利用第二模块确定是否存在满足所述查询请求的索引数据;在存在满足所述查询请求的索引数据的情况下,进一步确定缓存模块中是否存在与所述查询请求对应的缓存结果;
在确定缓存模块中不存在与所述查询请求对应的缓存结果的情况下,利用第四模块对应的查询引擎查询与所述查询请求对应的目标数据;
在确定缓存模块中存在与所述查询请求对应的缓存结果的情况下,利用缓存模块调取与所述查询请求对应的目标数据。
本申请一可选实施方式中,所述利用第四模块对应的查询引擎查询与所述查询请求对应的目标数据,包括:
利用第四模块确定处理所述查询请求所要处理的索引数据的规模;基于所述索引数据的规模确定处理所述查询请求所需耗费的资源;在确定所述资源满足第一条件的情况下,利用第一引擎执行与所述查询请求对应的查询操作;在所述资源满足第二条件的情况下,利用第二引擎执行与所述查询请求对应的查询操作;其中,所述资源满足第一条件的情况下对应的资源量大于所述资源满足第二条件的情况下对应的资源量。
本申请一可选实施方式中,所述方法还包括:
在利用第四模块对应的查询引擎查询到与所述查询请求对应的目标数据的情况下,将所述目标数据存储至所述缓存模块,以利用所述模块记录所述查询请求及所述目标数据。
本申请实施例还提供了一种查询装置,所述装置包括:
确定单元,用于确定查询请求的类型;
第一查询单元,用于在所述查询请求为非第一类型的情况下,利用第一模块查询与所述查询请求对应的目标数据;其中,所述第一类型为SELECT类型;
第二查询单元,用于在所述查询请求为第一类型的情况下,利用第二模块查询与所述查询请求对应的目标数据。
本申请一可选实施方式中,所述第一模块对应的查询引擎为Hive组件,所述第一查询单元具体用于:利用Hive组件查询与非SELECT类型的所述查询请求对应的目标数据。
本申请一可选实施方式中,所述第二查询单元,具体用于:利用第二模块确定是否存在满足所述查询请求的索引数据;在不存在满足所述查询请求的索引数据的情况下,利用第三模块对应的查询引擎查询与所述查询请求对应的目标数据。
本申请一可选实施方式中,所述第二查询单元,还具体用于:利用第三模块确定处理所述查询请求所要处理的原始数据的规模;基于所述原始数据的规模确定处理所述查询请求所需耗费的资源;在确定所述资源满足第一条件的情况下,利用第一引擎执行与所述查询请求对应的查询操作;在所述资源满足第二条件的情况下,利用第二引擎执行与所述查询请求对应的查询操作;其中,所述资源满足第一条件的情况下对应的资源量大于所述资源满足第二条件的情况下对应的资源量。
本申请一可选实施方式中,所述第二查询单元,具体用于:
利用第二模块确定是否存在满足所述查询请求的索引数据;在存在满足所述查询请求的索引数据的情况下,进一步确定缓存模块中是否存在与所述查询请求对应的缓存结果;
在确定缓存模块中不存在与所述查询请求对应的缓存结果的情况下,利用第四模块对应的查询引擎查询与所述查询请求对应的目标数据;
在确定缓存模块中存在与所述查询请求对应的缓存结果的情况下,利用缓存模块调取与所述查询请求对应的目标数据。
本申请一可选实施方式中,所述第二查询单元,还具体用于:利用第四模块确定处理所述查询请求所要处理的索引数据的规模;基于所述索引数据的规模确定处理所述查询请求所需耗费的资源;在确定所述资源满足第一条件的情况下,利用第一引擎执行与所述查询请求对应的查询操作;在所述资源满足第二条件的情况下,利用第二引擎执行与所述查询请求对应的查询操作;其中,所述资源满足第一条件的情况下对应的资源量大于所述资源满足第二条件的情况下对应的资源量。
本申请一可选实施方式中,所述查询装置还包括:
存储单元,用于在利用第四模块对应的查询引擎查询到与所述查询请求对应的目标数据的情况下,将所述目标数据存储至所述缓存模块,以利用所述模块记录所述查询请求及所述目标数据。
本申请实施例还提供了一种电子设备,所述电子设备包括:存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时可实现上述实施例所述的方法。
本申请实施例还提供了一种计算机存储介质,所述存储介质上存储有可执行指令,该可执行指令被处理器执行时实现上述实施例所述的方法。
本申请实施例的技术方案,通过确定查询请求的类型;在所述查询请求为非第一类型的情况下,利用第一模块查询与所述查询请求对应的目标数据;其中,所述第一类型为SELECT类型;在所述查询请求为第一类型的情况下,利用第二模块查询与所述查询请求对应的目标数据。本申请实施例的技术方案能够为不同类型的查询请求提供统一的查询语句入口,对不同类型的查询请求采用不同的模块进行处理,使得开发人员能够通过一套接口对接多种业务,加快业务开发进度。
附图说明
图1为本申请实施例提供的一种查询方法的流程示意图;
图2为本申请实施例提供的实现本申请实施例的查询方法所需的模块组成图一;
图3为本申请实施例提供的实现本申请实施例的查询方法所需的模块组成图二;
图4为本申请实施例提供的查询方法处理流程示意图;
图5为本申请实施例提供的一种查询装置的结构组成示意图;
图6为本申请实施例提供的一种电子设备的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
本申请实施例中,查询请求是为了实现对数据的查询而构造的查询语句,查询语句具体为SQL语句,查询语句中涉及所要查询的内容。
作为一种可选的方案,可以采用开源产品Kylin实现对SQL查询语句的查询。开源产品Kylin是一套基于索引数据研发的查询引擎,利用该引擎能够对SQL查询语句进行解析,该方案中,在能够使用索引数据响应SQL查询语句的情况下,可以利用Spark进行索引数据的计算并返回;在不能够使用索引数据响应SQL查询语句的情况下,可以将查询转发至提供Java数据库连接(JDBC,Java Database Connectivity)的引擎处理查询语句(下推引擎)。该方案一定程度上具备了查询路由的功能,然而,该方案还存在以下局限性:
(1)查询请求对应的查询语句不支持非select语句操作,如create table,insert等SQL查询语句,Kylin均不能支持对相应的SQL查询语句的查询。
(2)索引数据查询引擎单一,仅能支持基于Spark的索引数据计算。
(3)下推引擎单一,运行时只能支持一种查询引擎。
基于以上方案的局限性,目前利用Kylin对SQL查询语句进行查询时,Kylin支持的SQL查询语句的语义功能不全面,依然需要业务人员面向不同系统使用多个接口,使得业务开发进度受阻;并且,该方案使得开发人员只能选择单一的查询引擎处理数据,无法利用不同查询引擎间的差异性优化查询效果。
基于上述方案存在的局限性,提出以下本申请实施例的技术方案,本申请实施例的技术方案能够为不同类型的查询请求提供统一的查询语句入口,利用同一的查询语句入口确定出查询语句的类型,进一步对不同类型的查询请求采用不同的模块进行处理,使得开发人员能够通过一套接口对接多种业务,加快业务开发进度。
图1为本申请实施例提供的一种查询方法的流程示意图,如图1所示,所述方法包括如下步骤:
步骤101:确定查询请求的类型。
本申请实施例中,查询请求的类型,具体为查询请求包括的查询语句的类型,具体的,查询语句的类型可以分为SELECT类型和非SELECT类型这两种类型的语句,对于非SELECT类型的查询语句,具体可以为数据操纵语言(DML,Data Manipulation Language),数据定义语言(DDL,Data Definition Language),数据控制语言(DCL,Data ControlLanguage),事务控制语言(Transaction control Language)等几种类型的语句。
对于SELECT类型的查询语句,具体是指以select开头的SQL语句,具体列举如下:
select*from A;
select sum(revenue)from A group by area。
对于非SELECT类型的查询语句,具体是指以非select开头的SQL语句,具体列举如下:
delete from A;
create table A(string id,string name);
insert into A values(‘123’,‘sangfor’)。
本申请实施例中,通过查询语句的形式即可确定出查询语句的类型是否为SELECT类型。
步骤102:在所述查询请求为非第一类型的情况下,利用第一模块查询与所述查询请求对应的目标数据;其中,所述第一类型为SELECT类型。
本申请实施例中,确定查询请求非第一类型,即确定查询请求对应的查询语句为非SELECT类型,在这种情况下,需要利用第一模块处理该非SELECT类型的查询请求,这里,第一模块可以被称之为非SELECT处理模块。
本申请一可选实施方式中,所述第一模块对应的查询引擎为Hive组件,对于上述步骤102,具体包括如下步骤:
利用Hive组件查询与非SELECT类型的所述查询请求对应的目标数据。
具体的,本申请实施例中,第一模块集成了Hive组件,Hive组件在批处理方面处理性能优越,并且能够执行元数据操作,第一模块能够将非SELECT类型的SQL查询语句均转发至Hive组件进行处理。
步骤103:在所述查询请求为第一类型的情况下,利用第二模块查询与所述查询请求对应的目标数据。
本申请实施例中,查询请求为第一类型,即查询请求对应的查询语句为SELECT类型。本申请实施例中,在利用第二模块查询与SELECT类型的查询语句对应的目标数据时,需要由第二模块进一步确定是否存在能够满足SELECT类型的查询语句的索引数据,根据已有的或用户自建的数据仓库中是否存在能够满足SELECT类型的查询语句的索引数据由第二模块进一步将查询请求路由至不同的模块执行针对查询语句的查询操作。
本申请实施例中,索引数据,又称之为聚合索引数据。例如,对于select sum(a),avg(b)from A join B on A.m=B.n[where e=‘xxx’]group by c,d这种形式的查询语句,或者查询语句中包含这样的子查询片段,都可以使用索引数据加速。
索引数据是用户设置的,设置索引时,需要设置的内容包括:
1、统计指标,如sum(a),avg(b);
2、数据表连接方式,A join B on A.m=B.n;
3.过滤条件字段和分组字段(维度),e,c,d;
设置好这些内容,数据仓库就能够自动构建索引,可用于加速对下述查询语句的查询:select sum(a),avg(b)from A join B on A.m=B.n[where e=‘xxx’]group by c,d。
第二模块生成的索引数据类似于数据表,具体形式为:字段名称为:e,c,d,sum(a),avg(b);字段内容与select e,c,d,sum(a),avg(b)from A join B on A.m=B.ngroup by e,c,d内容一致。
一般情况下,用户可选的统计指标包括但不限于以下几种:
count、sum、min、max、count distinct、order by(topn)。
表连接方式可以支持的连接类型包括但不限于以下几种:left join和innerjoin;此外,用户可以设置多个表连接的形式,例如:A join B on A.b=B.b;join C onA.c=C.c。
本申请实施例中,存在能够满足查询语句的索引数据,又可以称之为查询语句能够命中索引,具体是指查询语句或子查询语句能够直接使用索引数据获得查询结果。
一般情况下,能够命中索引的查询语句,具备以下特征:
1、查询语句中的映射字段是统计指标的子集以及维度字段的子集;
2、查询语句中数据表的连接方式与索引中设置的数据表连接方式一致;
3、查询语句中的Where字段,分组字段以及排序字段是维度字段的子集;
4、查询语句中至少包含一个分组字段或者一个统计指标。
在查询语句不能满足以上几个特征的情况下,查询语句不能命中索引。
下面,对查询语句能够命中索引数据的情况进行举例。
若用户设置了如下索引:
1、统计指标,如sum(a),avg(b);
2、数据表连接方式,A join B on A.m=B.n;
3、过滤条件字段和分组字段(维度),e,c,d。
此时,若用户写入如下查询语句:Select sum(a),e from A join B on A.m=B.ngroup by e,c,该查询语句能够命中索引:
1、统计指标sum(a)是sum(a),avg(b)的子集;
2、A join B on A.m=B.n与数据表连接方式一致;
3、分组字段e,c是e,c,d的子集。
若用户写入如下查询语句:Select min(a),e,m from A join B on A.m=B.ngroup by e,c,该查询语句无法命中索引:
1、设置的统计指标里没有min(a);
2、映射字段m不在维度字段中。
本申请一可选实施方式中,上述步骤103具体包括如下步骤:
步骤1-1):利用第二模块确定是否存在满足所述查询请求的索引数据;在不存在满足所述查询请求的索引数据的情况下,利用第三模块对应的查询引擎查询与所述查询请求对应的目标数据。
具体的,本申请实施例中,第三模块可以被称之为下推处理模块,用于处理查询语句不能够命中索引数据的情况的数据查询。
本申请一可选实施方式中,上述步骤1-1)具体包括如下步骤
步骤1-1-1):利用第三模块确定处理所述查询请求所要处理的原始数据的规模;基于所述原始数据的规模确定处理所述查询请求所需耗费的资源;在确定所述资源满足第一条件的情况下,利用第一引擎执行与所述查询请求对应的查询操作;在所述资源满足第二条件的情况下,利用第二引擎执行与所述查询请求对应的查询操作;其中,所述资源满足第一条件的情况下对应的资源量大于所述资源满足第二条件的情况下对应的资源量。
具体的,在查询语句不能命中索引数据的情况下,第三模块基于查询语句处理查询请求。具体的,第三模块利用原始数据响应查询请求,通过收集需要处理的原始数据的规模,预估对查询语句进行查询需要使用的内存资源和计算资源,在预估完成查询需要消耗的内存资源或者计算资源较多的情况下,将查询语句发送至第一引擎,由第一引擎执行对查询语句的查询操作;否则,则将查询语句发送至第二引擎,由第二引擎执行对查询语句的查询操作。
本申请实施例中,原始数据是指存储在已有的或用户自建的数据仓库的业务数据,例如,可以为存储在HDFS上的业务数据,可以利用如Spark,Hive和Presto等一种或多种查询引擎进行查询和处理。原始数据规模通过计算原始数据的大小获得,并每隔一段时间更新。原始数据存储在HDFS上时,是按照文件的形式存储,通过累加所有文件实际占用存储空间的大小,即可获得原始数据的规模。
本申请一可选实施方式中,第一引擎可以具体为分布式内存计算引擎Spark,第二引擎可以具体为基于分布式文件系统的大规模并行处理(MPP,Massively ParallelProcessing)内存计算查询引擎Presto。在利用Spark查询引擎执行对查询语句的查询操作时,采用Spark on Yarn(Yarn为通用的资源管理系统,提供统一的资源管理和调度)的方式能够保证查询操作的稳定性;而利用Presto查询引擎能够获取优越的查询性能。
具体的,采用Spark on Yarn的方式能够保证查询操作的稳定运行,在内存资源或者计算资源消耗较多的情况下,代表无法短时间内返回查询结果,可以将查询以Spark任务的方式提交至yarn上执行,仅执行SQL查询语句,获得查询结果后返回给用户。在这个过程中,能够指定好执行查询操作过程中能够使用的内存和核数,从而保证该查询操作在经历计算后能够返回结果,又不会因为资源消耗过多影响其他的查询业务。
在使用Presto查询的情况下,说明数据规模适中或者不大,会将查询语句下发至Presto执行查询操作,此时不会限制内存和核数,允许Presto使用尽可能多的资源,尽可能快速地获取结果。
本申请一可选实施方式中,上述步骤103具体包括如下步骤:
步骤2-1):利用第二模块确定是否存在满足所述查询请求的索引数据;在存在满足所述查询请求的索引数据的情况下,进一步确定缓存模块中是否存在与所述查询请求对应的缓存结果;
步骤2-2):在确定缓存模块中不存在与所述查询请求对应的缓存结果的情况下,利用第四模块对应的查询引擎查询与所述查询请求对应的目标数据;
步骤2-3):在确定缓存模块中存在与所述查询请求对应的缓存结果的情况下,利用缓存模块调取与所述查询请求对应的目标数据。
具体的,本申请实施例中,第二模块在确定查询语句能够命中索引数据的情况下,会进一步判断缓存模块中是否存在与查询语句对应的缓存结果,若缓存模块中存在与查询语句对应的缓存结果,则利用缓存模块响应查询语句,即从缓存模块中调用缓存结果作为查询结果。这里,缓存模块中存储的是历史查询操作的查询结果,通过利用缓存模块对历史查询操作的查询结果进行存储,能够在后续接收到相同的查询请求时,直接从缓存模块中调用缓存结果,不再利用查询引擎重复执行查询操作。
缓存模块对于查询结果进行存储时,采用设定的内存存储结构进行查询数据的存储,例如,内存存储结构具体可以为类似于map<key,value>的形式,其中,其中key是查询语句,value是与该查询语句对应的查询结果。用户将查询语句发送至缓存模块,缓存模块会查询该key是否有对应的查询语句,如果有,则将value直接获得,作为查询结果返回。
本申请实施例中,第四模块可以被称之为索引处理模块,用于处理查询语句能够命中索引数据且缓存模块中不存在缓存结果的情况的数据查询。
本申请一可选实施方式中,上述步骤2-2)具体包括如下步骤:
利用第四模块确定处理所述查询请求所要处理的索引数据的规模;基于所述索引数据的规模确定处理所述查询请求所需耗费的资源;在确定所述资源满足第一条件的情况下,利用第一引擎执行与所述查询请求对应的查询操作;在所述资源满足第二条件的情况下,利用第二引擎执行与所述查询请求对应的查询操作;其中,所述资源满足第一条件的情况下对应的资源量大于所述资源满足第二条件的情况下对应的资源量。
具体的,在查询语句能够命中索引数据且缓存模块中不存在缓存结果的情况下,由第四模块基于查询语句利用索引数据响应查询请求。具体的,第四模块会收集需要处理的索引数据规模,预估完成对查询语句的查询需要使用的内存资源和计算资源,在预估完成查询需要消耗的内存资源或者计算资源较多的情况下,将查询语句发送至第一引擎,由第一引擎执行对查询语句的查询操作;否则,则将查询语句发送至第二引擎,由第二引擎执行对查询语句的查询操作。
本申请一可选实施方式中,第一引擎可以具体为Spark,第二引擎可以具体为Presto。在利用Spark查询引擎执行对查询语句的查询操作时,采用Spark on Yarn的方式能够保证查询操作的稳定性;而利用Presto查询引擎能够获取优越的查询性能。
本申请一可选实施方式中,在执行上述步骤2-2)之后,还可以进一步执行如下步骤:
步骤3-1):在利用第四模块对应的查询引擎查询到与所述查询请求对应的目标数据的情况下,将所述目标数据存储至所述缓存模块,以利用所述模块记录所述查询请求及所述目标数据。
具体的,在利用第四模块完成查询操作获得与查询语句所要查询的目标数据的情况下,可以将查询结果存储至缓存模块,利用缓存模块对查询结果进行缓存能够在后续接收到相同的查询请求时,直接从缓存模块中调用缓存结果,不再利用查询引擎重复执行查询操作,避免下次查询产生冗余的计算开销。
图2和图3为实现本申请实施例提供的查询方法所需要利用模块的示意图。图2中,由第一模块处理非SELECT类型的查询语句,其中,第一模块集成了Hive组件,第一模块能够将非SELECT类型的查询语句均转发至Hive组件进行处理。由第二模块处理SELECT类型的查询语句,其中,第二模块能够进一步确定是否存在能够满足SELECT类型的查询语句的索引数据,根据是否存在能够满足SELECT类型的查询语句的索引数据由第二模块进一步将查询请求路由至不同的模块(第三模块、第四模块或缓存模块)执行目标数据的查询操作。其中,第三模块用于处理查询语句不能够命中索引数据的情况的数据查询,具体可以利用原始数据响应查询请求,通过确定需要处理的原始数据的规模,基于原始数据的规模选择第一引擎或者第二引擎执行查询操作;另外,第二模块还能够在确定查询语句能够命中索引数据的情况下,进一步判断缓存模块中是否存在与查询语句对应的缓存结果,若缓存模块中存在与查询语句对应的缓存结果,则利用缓存模块响应查询语句;第四模块用于处理查询语句能够命中索引数据且缓存模块中不存在缓存结果的情况的数据查询,具体会收集需要处理的索引数据规模,根据所要处理的索引数据的规模选择第一引擎或者第二引擎执行查询操作。
图3中,对于智能处理模块,其中的非SELECT处理模块的作用等同于本申请的第一模块;下推处理模块的作用等同于本申请的第三模块;索引处理模块的作用等同于本申请的第四模块;缓存处理模块的作用等同于本申请的第四模块。需要补充说明的是,图3中的语句分类模块用于辨别查询请求中查询语句的类型,主要包括非SELECT语句路由模块和SELECT语句路由模块,作为一种可选的实施方式,查询请求可以从非SELECT语句路由模块进入,即将非SELECT语句路由模块作为查询请求输入接口,由非SELECT类型的查询语句路由模块通过对查询请求进行判断,确定查询请求包括的查询语句为非SELECT类型的查询语句还是SELECT类型的查询语句,将非SELECT类型的查询语句发送至智能处理模块中的非SELECT处理模块进行处理,将SELECT类型的查询语句发送至SELECT语句路由模块进行进一步的判断,可以理解的是,SELECT语句路由模块的作用即相当于本申请实施例所述的第二模块。
图4为本申请实施例提供的查询方法的查询流程图,图4中,将非SELECT语句路由模块作为查询请求输入接口,由非SELECT类型的查询语句路由模块通过对查询请求进行判断,确定查询请求包括的查询语句为非SELECT类型的查询语句还是SELECT类型的查询语句,将非SELECT类型的查询语句发送至智能处理模块中的非SELECT处理模块进行处理,将SELECT类型的查询语句发送至SELECT语句路由模块进行进一步的判断。其中,在确定SELECT类型的查询语句未命中索引数据的情况下,由下推处理模块通过收集需要处理的原始数据的规模,预估对查询语句进行查询需要使用的内存资源和计算资源,基于完成查询需要使用的内存资源和计算资源选择使用第一引擎或第二引擎执行查询操作;在确定查询语句能够命中索引数据且缓存处理模块中不存在与查询语句对应的缓存结果的情况下,由索引处理模块收集需要处理的索引数据规模,预估完成对查询语句的查询需要使用的内存资源和计算资源,基于完成查询需要使用的内存资源和计算资源选择使用第一引擎或第二引擎执行查询操作;在确定查询语句能够命中索引数据且缓存处理模块中存在与查询语句对应的缓存结果的情况下,由缓存处理模块直接从缓存模块中调用缓存结果,不再利用查询引擎重复执行查询操作。
本申请实施例的技术方案,通过确定查询请求的类型;在所述查询请求为非第一类型的情况下,利用第一模块查询与所述查询请求对应的目标数据;其中,所述第一类型为SELECT类型;在所述查询请求为第一类型的情况下,利用第二模块查询与所述查询请求对应的目标数据。本申请实施例的技术方案能够为不同类型的查询请求提供统一的查询语句入口,对不同类型的查询请求采用不同的模块进行处理,使得开发人员能够通过一套接口对接多种业务,加快业务开发进度。另外,本申请对于select查询语句,支持索引数据加速,查询引擎选择等功能,尽可能为用户在查询引擎模式下,选择最优路径获得最佳查询性能。
图5为本申请实施例提供的一种查询装置的结构组成示意图,如图5所示,所述装置包括:
确定单元501,用于确定查询请求的类型;
第一查询单元502,用于在所述查询请求为非第一类型的情况下,利用第一模块查询与所述查询请求对应的目标数据;其中,所述第一类型为SELECT类型;
第二查询单元503,用于在所述查询请求为第一类型的情况下,利用第二模块查询与所述查询请求对应的目标数据。
本申请一可选实施方式中,所述第一模块对应的查询引擎为Hive组件,所述第一查询单元502具体用于:利用Hive组件查询与非SELECT类型的所述查询请求对应的目标数据。
本申请一可选实施方式中,所述第二查询单元503,具体用于:利用第二模块确定是否存在满足所述查询请求的索引数据;在不存在满足所述查询请求的索引数据的情况下,利用第三模块对应的查询引擎查询与所述查询请求对应的目标数据。
本申请一可选实施方式中,所述第二查询单元503,还具体用于:利用第三模块确定处理所述查询请求所要处理的原始数据的规模;基于所述原始数据的规模确定处理所述查询请求所需耗费的资源;在确定所述资源满足第一条件的情况下,利用第一引擎执行与所述查询请求对应的查询操作;在所述资源满足第二条件的情况下,利用第二引擎执行与所述查询请求对应的查询操作;其中,所述资源满足第一条件的情况下对应的资源量大于所述资源满足第二条件的情况下对应的资源量。
本申请一可选实施方式中,所述第二查询单元503,具体用于:
利用第二模块确定是否存在满足所述查询请求的索引数据;在存在满足所述查询请求的索引数据的情况下,进一步确定缓存模块中是否存在与所述查询请求对应的缓存结果;
在确定缓存模块中不存在与所述查询请求对应的缓存结果的情况下,利用第四模块对应的查询引擎查询与所述查询请求对应的目标数据;
在确定缓存模块中存在与所述查询请求对应的缓存结果的情况下,利用缓存模块调取与所述查询请求对应的目标数据。
本申请一可选实施方式中,所述第二查询单元503,还具体用于:利用第四模块确定处理所述查询请求所要处理的索引数据的规模;基于所述索引数据的规模确定处理所述查询请求所需耗费的资源;在确定所述资源满足第一条件的情况下,利用第一引擎执行与所述查询请求对应的查询操作;在所述资源满足第二条件的情况下,利用第二引擎执行与所述查询请求对应的查询操作;其中,所述资源满足第一条件的情况下对应的资源量大于所述资源满足第二条件的情况下对应的资源量。
本申请一可选实施方式中,所述查询装置还包括:
存储单元504,用于在利用第四模块对应的查询引擎查询到与所述查询请求对应的目标数据的情况下,将所述目标数据存储至所述缓存模块,以利用所述模块记录所述查询请求及所述目标数据。
本领域技术人员应当理解,图5所示的查询装置中的各单元的实现功能可参照前述查询方法的相关描述而理解。图5所示的查询装置中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本申请实施例还提供了一种电子设备。图6为本申请实施例的电子设备的硬件结构示意图,如图6所示,电子设备包括:用于进行数据传输的通信组件603、至少一个处理器601和用于存储能够在处理器601上运行的计算机程序的存储器602。终端中的各个组件通过总线系统604耦合在一起。可理解,总线系统604用于实现这些组件之间的连接通信。总线系统604除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统604。
其中,所述处理器601执行所述计算机程序时至少执行图1所示的方法的步骤。
可以理解,存储器602可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器601中,或者由处理器601实现。处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器601可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述的通话录音方法。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时至少用于执行图1所示方法的步骤。所述计算机可读存储介质具体可以为存储器。所述存储器可以为如图6所示的存储器602。
本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种查询方法,其特征在于,所述方法包括:
确定查询请求的类型;
在所述查询请求为非第一类型的情况下,利用第一模块查询与所述查询请求对应的目标数据;其中,所述第一类型为SELECT类型;
在所述查询请求为第一类型的情况下,利用第二模块查询与所述查询请求对应的目标数据。
2.根据权利要求1所述的方法,其特征在于,所述第一模块对应的查询引擎为Hive组件,所述利用第一模块查询与所述查询请求对应的目标数据,包括:
利用Hive组件查询与非SELECT类型的所述查询请求对应的目标数据。
3.根据权利要求1所述的方法,其特征在于,所述利用第二模块查询与所述查询请求对应的目标数据,包括:
利用第二模块确定是否存在满足所述查询请求的索引数据;在不存在满足所述查询请求的索引数据的情况下,利用第三模块对应的查询引擎查询与所述查询请求对应的目标数据。
4.根据权利要求3所述的方法,其特征在于,所述利用第三模块对应的查询引擎查询与所述查询请求对应的目标数据,包括:
利用第三模块确定处理所述查询请求所要处理的原始数据的规模;基于所述原始数据的规模确定处理所述查询请求所需耗费的资源;在确定所述资源满足第一条件的情况下,利用第一引擎执行与所述查询请求对应的查询操作;在所述资源满足第二条件的情况下,利用第二引擎执行与所述查询请求对应的查询操作;其中,所述资源满足第一条件的情况下对应的资源量大于所述资源满足第二条件的情况下对应的资源量。
5.根据权利要求1所述的方法,其特征在于,所述利用第二模块查询与所述查询请求对应的目标数据,包括:
利用第二模块确定是否存在满足所述查询请求的索引数据;在存在满足所述查询请求的索引数据的情况下,进一步确定缓存模块中是否存在与所述查询请求对应的缓存结果;
在确定缓存模块中不存在与所述查询请求对应的缓存结果的情况下,利用第四模块对应的查询引擎查询与所述查询请求对应的目标数据;
在确定缓存模块中存在与所述查询请求对应的缓存结果的情况下,利用缓存模块调取与所述查询请求对应的目标数据。
6.根据权利要求5所述的方法,其特征在于,所述利用第四模块对应的查询引擎查询与所述查询请求对应的目标数据,包括:
利用第四模块确定处理所述查询请求所要处理的索引数据的规模;基于所述索引数据的规模确定处理所述查询请求所需耗费的资源;在确定所述资源满足第一条件的情况下,利用第一引擎执行与所述查询请求对应的查询操作;在所述资源满足第二条件的情况下,利用第二引擎执行与所述查询请求对应的查询操作;其中,所述资源满足第一条件的情况下对应的资源量大于所述资源满足第二条件的情况下对应的资源量。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在利用第四模块对应的查询引擎查询到与所述查询请求对应的目标数据的情况下,将所述目标数据存储至所述缓存模块,以利用所述模块记录所述查询请求及所述目标数据。
8.一种查询装置,其特征在于,所述装置包括:
确定单元,用于确定查询请求的类型;
第一查询单元,用于在所述查询请求为非第一类型的情况下,利用第一模块查询与所述查询请求对应的目标数据;其中,所述第一类型为SELECT类型;
第二查询单元,用于在所述查询请求为第一类型的情况下,利用第二模块查询与所述查询请求对应的目标数据。
9.一种电子设备,其特征在于,所述电子设备包括:存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时可实现权利要求1至7中任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述存储介质上存储有可执行指令,该可执行指令被处理器执行时实现权利要求1至7中任一项所述的方法。
CN202111435080.XA 2021-11-29 2021-11-29 一种查询方法、装置、电子设备及存储介质 Pending CN114138812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111435080.XA CN114138812A (zh) 2021-11-29 2021-11-29 一种查询方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111435080.XA CN114138812A (zh) 2021-11-29 2021-11-29 一种查询方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114138812A true CN114138812A (zh) 2022-03-04

Family

ID=80389570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111435080.XA Pending CN114138812A (zh) 2021-11-29 2021-11-29 一种查询方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114138812A (zh)

Similar Documents

Publication Publication Date Title
CN107622091B (zh) 一种数据库查询方法和装置
US10152513B2 (en) Managing record location lookup caching in a relational database
WO2018177060A1 (zh) 查询优化方法及相关装置
WO2018149271A1 (zh) 数据查询方法、装置及计算设备
CN107783985B (zh) 一种分布式数据库查询方法、装置及管理系统
EP2637111A1 (en) Data management system and method using database middleware
US11030196B2 (en) Method and apparatus for processing join query
US20120203797A1 (en) Enhanced control to users to populate a cache in a database system
US20220075774A1 (en) Executing conditions with negation operators in analytical databases
CN112015820A (zh) 分布式图数据库实现的方法、系统、电子装置和存储介质
US11080207B2 (en) Caching framework for big-data engines in the cloud
CN113553339B (zh) 数据查询方法、中间件、电子装置和存储介质
CN111752945B (zh) 一种基于容器和层次模型的时序数据库数据交互方法和系统
CN114328468A (zh) 时序实时数据库数据存储和处理的方法、系统及电子设备
CN114490527A (zh) 元数据检索方法、系统、终端及存储介质
US8396858B2 (en) Adding entries to an index based on use of the index
CN112306957A (zh) 获取索引节点号的方法、装置、计算设备和存储介质
CN108932258B (zh) 数据索引处理方法及装置
CN114138812A (zh) 一种查询方法、装置、电子设备及存储介质
CN110825732A (zh) 数据查询方法、装置、计算机设备和可读存储介质
CN113268483B (zh) 请求处理方法和装置、电子设备和存储介质
CN112015742B (zh) 基于行列共存的htap数据库的数据处理方法及装置
CN114064729A (zh) 一种数据检索方法、装置、设备及存储介质
CN112835873A (zh) 电网调控异构系统服务化访问方法、系统、设备及介质
CN115543993A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination