CN113204571A - 涉及写入操作的sql执行方法、装置及存储介质 - Google Patents
涉及写入操作的sql执行方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113204571A CN113204571A CN202110439615.4A CN202110439615A CN113204571A CN 113204571 A CN113204571 A CN 113204571A CN 202110439615 A CN202110439615 A CN 202110439615A CN 113204571 A CN113204571 A CN 113204571A
- Authority
- CN
- China
- Prior art keywords
- hudi
- sql
- sql statement
- tree
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2443—Stored procedures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种涉及写入操作的SQL执行方法、装置及存储介质,用于解决Hudi表不支持SQL执行引擎执行涉及写入操作的SQL语句的技术问题。本公开对SQL语句的语义解析阶段、逻辑计划阶段、物理计划阶段进行了改进,将根据SQL语句生成的原始AST统一重构为Insert AST并在Hudi参数对象中记录SQL语句类型,在逻辑计划阶段在操作树中剔除Hudi表的内置字段,在物理计划阶段使用SpartTask任务替换MoveTask任务,根据所记录的SQL语句类型执行相应操作。本公开实现了基于hive数据仓库的Hudi存储格式,提供统一SQL支持,减少用户的繁琐代码、配置等工作,使用更加快捷、易用、灵活。
Description
技术领域
本公开涉及大数据技术领域,尤其涉及一种涉及写入操作的SQL执行方法、装置及存储介质。
背景技术
Hive是建立在Hadoop上的数据仓库框架,提供一种类SQL的语言HQL(Hive QueryLanguage),对结构化和半结构化数据进行批量分析,完成数据计算。
HQL具有对海量数据处理的能力,将执行的HQL语句转换为分布式计算任务,从而完成海量数据的查询和分析工作。同时,为了满足不同场景的需求,HQL能通过实现用户自定义函数(User Defined Function,UDF)、用户自定义聚合函数(User-DefinedAggregation Function,UDAF)以及用户自定义表函数(User-Defined Table-GeneratingFunctions,DTF)对其进行扩展。
Hive SQL执行SQL语句的过程通常需要经历词法语法解析、语义解析、生成逻辑执行计划、优化逻辑执行计划、生成物理计划、优化物理计划这几个阶段。
在词法语法解析阶段会对SQL语句进行词法和语法解析,生成抽象语法树(Abstract Syntax Tree,AST)。在语义解析阶段遍历AST,抽象出查询的基本组成单元QueryBlock。
在生成逻辑执行计划阶段会遍历QueryBlock,构造一颗父子关系操作树OperatorTree。操作树通常包含TableScanOperator、SelectOperator、FileSinkOperator、MoveOperator四类操作,FileSinkOperator是把select语句的查询结果输入到临时文件。在优化逻辑执行计划阶段会通过逻辑层优化器进行操作树OperatorTree的变换,合并Operator,达到减少MR Job,减少数据传输及shuffle数据量的目的。生成逻辑执行计划阶段和优化逻辑执行计划阶段统称为逻辑计划阶段。
在生成物理执行计划阶段遍历OperatorTree,将OperatorTree翻译为MapReduce/Tez/Spark任务。在优化物理执行计划阶段使用物理层优化器进行物理计划的变换,生成最终的执行计划。生成和优化物理执行计划阶段统称为物理计划阶段,其主要任务是把操作树构造成work链条,然后在对work进行编排构造成task任务链,一个task任务由一个work树组成,一个work由一个操作树组成。
Apache Hudi用于基于分布式文件系统(HDFS或云存储)接收和管理大型分析数据集的存储,是一个数据湖Data Lakes的开源方案。Hudi将DFS上的数据集组织到基本路径下的目录结构中。数据集分为多个分区,这些分区是包含该分区的数据文件的文件夹,这与Hive表非常相似。Hudi可提供类似于时序数据库的功能,每次提交都有一个时间,可以查询每个时间点的数据,也可以根据提交时间查询一段时间内的增量。Hudi可提供从不同时间点出发得到不同的视图下的数据集。主要特性是支持增量读取和更新插入。
Hudi提供两种存储类型,分别为写时复制和读时合并。写时复制存储类型仅使用列文件格式(例如parquet)存储数据,通过在写入过程中执行同步合并以更新版本并重写文件。读时合并存储类型使用列式(例如parquet)+基于行(例如avro)的文件格式组合来存储数据,更新记录到增量文件中,然后进行同步或异步压缩以生成列文件的新版本。
Hudi可以通过Hive SQL或Spark SQL执行引擎(统称为SQL执行引擎)进行全量和增量查询,但是写入操作只能通过Spark Datasource API执行引擎进行操作,然后通过同步的方式,把表属性信息和分区信息同步到Hive表中,但是Hudi表内置了一些字段,例如以“_hoodie”开头的字段是hudi表内置的字段,这些字段在Hive SQL执行涉及写入操作的SQL语句(例如insert、update、delete)时,无法正常得到处理,即Hudi表还不支持SQL执行引擎执行涉及写入操作的SQL语句。
发明内容
有鉴于此,本公开提供一种涉及写入操作的SQL执行方法、装置及存储介质,用于解决Hudi表不支持SQL执行引擎执行涉及写入操作的SQL语句的技术问题。
本公开的目的是基于数据仓库实现针对Hudi表的涉及写入操作的SQL语句的执行。本公开技术方案对SQL语句的语义解析阶段、逻辑计划阶段、物理计划阶段进行了改进,使其支持Hudi表的插入(Insert)、更新(Update)、删除(Delete/Truncate)操作。
图1为本公开提供的涉及写入操作的SQL执行方法步骤流程图,该方法应用于安装有Hadoop分布式系统基础架构、Hive数据仓库框架及Spark SQL执行引擎的集群环境中,该方法包括:
步骤S101.对接收到的SQL语句进行词法和语法解析,生成抽象语法树AST,并获取元数据;所述SQL语句包括针对Hudi表的类型为插入类、更新类或删除类的SQL语句;
步骤S102.在语义解析阶段,在生成所述SQL语句的抽象语法树AST后,构造Hudi参数对象;其中,所述Hudi参数至少包括表元数据信息、临时文件地址、Hudi标识、SQL语句类型;所述Hudi标识用于标识是否为针对Hudi表的操作;
步骤S103.在逻辑计划阶段,根据Hudi参数对象判定所处理的表为Hudi表时,修改操作树中用于将中间结果数据写入临时文件的操作符对应的对象,使所述对象将Hudi表内置字段剔除;
步骤S104.在物理计划阶段,将原始生成的任务树中移动类任务替换为SpartTask任务,所述SparkTask任务用于读取存放中间结果的临时文件并直接调用SparkDataSource API接口对Hudi表执行与Hudi对象中SQL语句类型相对应的操作。
进一步地,在所述构造Hudi参数对象之前,所述方法还包括:
根据所述抽象语法树,判断所述SQL语句是否是针对Hudi表的操作;
如果是针对Hudi表的操作,则执行构造Hudi参数对象的步骤,然后遍历所述抽象语法树,生成查询块;
如果不是针对Hudi表的操作,直接执行遍历所述抽象语法树,生成查询块的步骤;
所述查询块用于在逻辑计划阶段生成操作树。
进一步地,在判定是针对Hudi表的操作之后,在构造Hudi参数对象之前,所述方法还包括:
判断所述SQL语句的类型是否为更新类或删除类的SQL语句,若判定为更新类或删除类的SQL语句,则将所生成的抽象语法树重构为针对Hudi表的插入类SQL语句的抽象语法树,即根据原始生成的抽象语法树及表元数据信息新建一颗针对Hudi表的Insert AST,剔除Insert AST中的Hudi表内置字段,并以新的Insert AST替换掉原始生成的抽象语法树。
进一步地,所述SQL执行引擎为Hive SQL执行引擎或Spark SQL执行引擎。
进一步地,根据所述元数据中的表属性inputformat是否为“org.apache.hudi.hadoop.HoodieParquetInputFormat”来判断是否是针对Hudi表的SQL语句。
图2为本公开提供的一种涉及写入操作的SQL执行装置结构示意图,该装置200中的各功能模块可以采用软件、硬件或软硬件相结合的方式实现。当多个硬件设备共同实施本公开的技术方案时,由于各硬件设备之间相互协作的目的是共同实现本发明目的,一方的动作和处理结果确定了另一方的动作执行的时机及可能获得的结果,因此,可视为各执行主体之间具有相互协作关系,各执行主体之间具有相互指挥和控制关系。本公开所提供的装置200包括:
词法语法解析模块210,用于对接收到的SQL语句进行词法和语法解析,生成抽象语法树AST,并获取元数据;所述SQL语句包括针对Hudi表的类型为插入类、更新类或删除类的SQL语句;
语义解析模块211,用于所述SQL语句进行语义解析,在生成所述SQL语句的抽象语法树AST后,构造Hudi参数对象;其中,所述Hudi参数至少包括表元数据信息、临时文件地址、Hudi标识、SQL语句类型;所述Hudi标识用于标识是否为针对Hudi表的操作;
逻辑计划模块212,用于所述SQL语句的逻辑执行计划的生成和优化,根据Hudi参数对象判定所处理的表为Hudi表时,修改操作树中用于将中间结果数据写入临时文件的操作符对应的对象,使所述对象将Hudi表内置字段剔除;
物理计划模块213,用于所述SQL语句的物理执行计划的生成和优化,将原始生成的任务树中移动类任务替换为SpartTask任务,所述SparkTask任务用于读取存放中间结果的临时文件并直接调用Spark DataSource API接口对Hudi表执行与Hudi对象中SQL语句类型相对应的操作。
进一步地,所述语义解析模块211在构造Hudi参数对象之前,还用于根据所述抽象语法树,判断所述SQL语句是否是针对Hudi表的操作;
如果是针对Hudi表的操作,则执行构造Hudi参数对象的步骤,然后遍历所述抽象语法树,生成查询块;
如果不是针对Hudi表的操作,直接执行遍历所述抽象语法树,生成查询块的步骤;
所述查询块用于在逻辑计划阶段生成操作树。
进一步地,所述语义解析模块211在判定是针对Hudi表的操作之后,在构造Hudi参数对象之前,还用于判断所述SQL语句的类型是否为更新类或删除类的SQL语句,若判定为更新类或删除类的SQL语句,则将所生成的抽象语法树重构为针对Hudi表的插入类SQL语句的抽象语法树即Insert AST,并剔除其中的Hudi表内置字段。
本公开对SQL语句的语义解析阶段、逻辑计划阶段、物理计划阶段进行了改进,将根据SQL语句生成的原始AST统一重构为Insert AST并在Hudi参数对象中记录SQL语句类型,在逻辑计划阶段在操作树中剔除Hudi表的内置字段,在物理计划阶段使用SpartTask任务替换MoveTask任务,根据所记录的SQL语句类型执行相应操作。本公开实现了基于hive数据仓库的Hudi存储格式,提供统一SQL支持,减少用户的繁琐代码、配置等工作,使用更加快捷、易用、灵活。
附图说明
为了更加清楚地说明本公开实施例或者现有技术中的技术方案,下面将对本公开实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本公开实施例的这些附图获得其他的附图。
图1为本公开提供的涉及写入操作的SQL执行方法步骤流程图;
图2为本公开提供的一种涉及写入操作的SQL执行装置结构示意图;
图3为本公开一实施例提供的一种针对Hudi表涉及写入操作的SQL语句的执行方法的步骤流程示意图;
图4A为本公开一实施例中更新类Update语句抽象语法树的示例;
图4B为本公开一实施例中将更新类Update语句的AST重构为插入类Insert语句的AST的示意图;
图5A为本公开一实施例中删除类Delete语句抽象语法树的示例;
图5B为本公开一实施例中将删除类Delete语句的AST重构为插入类Insert语句的AST的示意图;
图6为本公开一实施例提供的一种实施本公开提供的方法的电子设备结构示意图。
具体实施方式
在本公开实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本公开实施例。本公开实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。本公开中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开技术方案的目的是实现Hive SQL或Spark SQL等SQL执行引擎支持执行有关Hudi表的涉及写入操作的SQL语句。本公开所述的涉及写入操作的SQL语句是指会引起向Hudi物理存储空间执行物理写入或更新操作的语句,这种写入操作可能是因为向Hudi表中新增记录、删除记录、修改记录或清空表中的记录等任何一种操作所引起。
为实现上述目的,本公开技术方案对上述涉及写入操作的SQL语句的语义解析阶段、逻辑计划阶段、物理计划阶段进行了改进。
图3为本公开一实施例提供的一种针对Hudi表涉及写入操作的SQL语句的执行方法的步骤流程示意图。为简化流程,该附图以SQL执行引擎接收到有关Hudi表涉及写入操作的SQL语句的处理过程为例,给出SQL语句处理步骤。其中,深色线框内的步骤为本公开技术方案对现有技术做出改进的部分。该实施例以安装有Hadoop分布式系统基础架构、Hive数据仓库框架及Spark SQL执行引擎的集群环境为例对本公开提供的方法进行详细描述。
步骤301.对接收到的SQL语句进行词法和语法解析,生成抽象语法树AST;
该实施例设定的应用场景为所接收到的SQL语句为针对Hudi表涉及写入操作的SQL语句,例如这些语句可以为结构化查询语言(Structure Query Language,SQL)中的插入Insert语句、更新Update语句、删除Delete语句、清空Truncate语句中的任何一种。对于不涉及写入操作的SQL语句只需要按SQL执行引擎现有处理方式处理即可,本公开不做过多赘述。
SQL语句的执行过程需要经过词法语法解析阶段、语义解析阶段、逻辑计划阶段和物理计划阶段,在完成上述四个阶段后,SQL执行引擎才能实际的完成相应的操作任务。
词法语法解析阶段的作用是将SQL语句的“字符串”变换为一个描述这个字符串的“结构体”,让计算机可以更容易的理解用户输入的字符串是什么意义。这个阶段包含三个过程,分别是词法解析过程、语法解析过程、输出抽象语法树AST过程,经过上述三个过程后最终将SQL语句转化成抽象语法树(Abstract Syntax Tree,AST)。抽象语法树AST是SQL语句的树形结构的表现形式,树上的每一个节点都是一个单词,树的结构体现了语法。抽象语法树是随着语法解析的过程构造的,当语法解析正常结束后,语法解析器就会输出一个抽象语法树。
步骤302.获取元数据,所述元数据信息包括表属性;
在语法解析阶段,SQL执行引擎会基于AST树获取SQL语句中涉及到的表的元数据信息,对SQL语句所涉及到的元数据信息进行验证,例如验证AST树中的Hudi表、表中的字段等是否存在,名称是否正确,所执行的操作是否违反相关表或字段的约束条件等。以Hive为例,Hive所有的表结构信息都存储在元数据服务metastore中,表数据都存储在HDFS之上,想要获得表结构信息,就需要从元数据服务中读取。
步骤303.根据SQL语句的类型,对SQL语句进行语义解析生成对应的抽象语法树AST;
由于SQL执行引擎针对不同类型的SQL语句,解析的规则和方式不同,因此需要在语义解析之前区分SQL语句的类型,然后再根据SQL语句的类型分别进行解析。以标准SQL语句为例,SQL语句的类型可分为插入类语句(insert)、更新类语句(Update)、删除类语句(Delete/Truncate)等,因此该步骤中会根据SQL语句的类型对应地会生成Insert AST、Update AST或Delete AST。
对于插入类SQL语句在语义解析过程中直接执行步骤305,对于更新类或删除类语句在语义解析过程中需要首先执行步骤304然后再执行步骤305。
需要说明的是,步骤304和步骤305是针对Hudi表才需要执行的步骤,因此在执行步骤304或步骤305之前,需要根据所获取的元数据中的表属性判断是否是Hudi格式的表,若为非Hudi格式的表,则按执行引擎原有流程直接执行步骤306即可。
判断是否为Hudi格式的表的方式可以为:根据获取的元数据中表属性inputformat判断是否为“org.apache.hudi.hadoop.HoodieParquetInputFormat”来判断对应的表是否为Hudi格式的表,如果判定是上述格式,则标记Hudi标识为指示该表为Hudi表的标识符。
步骤304.将更新/删除类SQL语句的AST树重构为插入类SQL语句的AST树;
Hudi表支持插入模式更新,即当表中不存在Insert语句中的记录时,执行插入操作,当表中存在Insert语句中的记录时,直接以新字段更新原有字段值。因此本公开的思路是将标准SQL中的更新类(Update)和删除类(Delete/Truncate)SQL语句的AST树都统一先重构为Hudi表支持的Insert AST树,同时通过Hudi参数对象记录重构的Insert AST树所对应的SQL语句的类型,在最终将存储于临时文件位置的中间结果写入Hudi表时,根据Hudi参数对象中记录的SQL语句类型执行与SQL语句类型向对应的操作。
图4A和图4B以SQL语句“update hudi_trips_cow set rider='test'where uuid='25'”为例,示例了根据原始生成的Update AST树及表元数据信息,将Update AST树重构为Insert AST树的方式。该步骤中根据前述步骤已经生成的Update AST以及根据AST获取的元数据新构造出一颗针对Hudi表的Insert AST树,与该重构出来的Insert AST对应的insert SQL语句示例为:“insert into hudi_trips_cow select_hoodie_commit_id,uuid,rider from hudi_trips_cow where uuid=’25’”,然后还需要在重构的Insert AST中删除掉Hudi表内置字段(例如hoodie_commit_id等字段),此外还需要将待更新字段的值直接替换为新值,例如将rider字段值直接替换为前述Update语句中的更新值’test’。
图5A和图5B以SQL语句“Delete delete from hudi_trips_cow where uuid='25'”为例,示例了根据原始生成的Delete AST树及表元数据信息,将Delete AST树重构为Insert AST树的方式。该步骤中根据前述步骤中已经生成的Delete AST树及表元数据信息新构造出一颗针对Hudi表的Insert AST树,与重构出来的的Insert AST对应的insert SQL语句示例为:“insert into hudi_trips_cow select_hoodie_commit_id,uuid,riderfrom hudi_trips_cow where uuid=’25’”,然后还需要在重构的Insert AST中删除掉Hudi表内置字段(例如hoodie_commit_id等字段)。对于删除类SQL语句,重构后的InertAST树仅起到定位记录的作用,在MoveTask任务执行时会实际执行删除对应记录的操作。
步骤305.构造Hudi参数对象,所述Hudi参数至少包括表元数据信息、临时文件地址、Hudi标识、SQL语句类型;
该步骤构造一个自定义的Hudi对象,该对象用来存储hive表元数据信息、临时文件地址、Hudi标识、SQL语句类型等。其中,临时文件地址为中间结果存放在分布式文件系统HDFS上的临时地址;Hudi标识用于标识是否是对Hudi表的操作;SQL语句类型字段用于记录原始AST树对应的SQL语句的类型,主要分为新增(Insert)类型、更新(Update)类型、删除(Delete/Truncate)类型三种。例如,当原AST树为Insert AST树时,Hudi对象中的SQL语句类型字段值为新增类型标识,当原AST树为Update AST树时,Hudi对象中的SQL语句类型字段值为更新类型标识,当原AST树为Delete AST树时,Hudi对象中的SQL语句类型字段值为删除类型标识,依次类推。
步骤306.遍历AST,生成查询的基本组成单元即查询块QueryBlock;
步骤307.遍历查询块QueryBlock,生成操作树OperatorTree;
在逻辑计划阶段,首先会遍历QueryBlock,构造生成一颗父子关系操作树OperatorTree。操作树通常包括用于扫描表数据的操作符TableScanOperator、用于选择输出列的操作符SelectOperator、用于将查询结果数据输出至临时文件的操作符FileSinkOperator和用于将存储中间结果的文件移动到hive相应的表目录下的操作符MoveOperator。
本公开在逻辑计划阶段,对操作树中的FileSinkOperator操作符对应的处理步骤做了改进,当根据Hudi参数对象判定所处理的表为Hudi表时,修改操作树中用于将中间结果数据写入临时文件的操作符对应的对象,使所述对象将Hudi表内置字段剔除。例如,当根据Hudi参数对象判断到所处理的表为Hudi表时,将FileSinkOperator操作符对象所包括的FileSinkDesc对象中的Hudi表内置字段(以“_hood ie”开头的字段)剔除,使FileSinkOperator操作符按照hudi表字段顺序的把中间结果输出到临时文件中。
步骤308.优化操作树;
在逻辑计划阶段,在生成操作树OperatorTree之后,需要对所生成的操作树进行优化。在优化时,会通过逻辑层优化器进行操作树OperatorTree的变换,合并操作符Operator,达到减少MapReduce作业量,减少数据传输及洗牌shuffle数据量的目的。
步骤309.遍历操作树,生成原始任务树;
在物理计划阶段,会遍历逻辑计划阶段生成和优化后的操作树OperatorTree,将OperatorTree翻译生成与所使用的大规模数据处理引擎(例如MapReduce/Tez/Spark等)类型相对应的任务树即Task树。本公开将根据优化后的操作树初始生成的任务树命名为原始任务树,将原始任务树中的任务区分为两类,一类是为获得最终结果而执行的获取结果类任务,另一类为将位于临时文件位置的最终的处理结果移动到分布式数据库中的表目录下的移动类任务。获取结果类任务可包括与扫描表数据的操作符TableScanOperator、选择输出列的操作符SelectOperator、将查询结果数据输出至临时文件的操作符FileSinkOperator等一种或多种操作符相对应的任务,移动类任务为与MoveOperator操作符对应的任务。
步骤310.重构原始任务Task树,将原始任务树中MoveTask任务替换为SparkTask任务,所述SparkTask任务用于读取临时文件并直接调用Spark DataSource API接口对Hudi表进行与Hudi对象中SQL语句类型相对应的操作。
物理计划阶段,原MoveTask是把临时文件移动到分布式数据库的表目录下,但是在前述步骤中生成的临时文件,不满足Hudi表存储结构要求,故需要对生成的任务树进行重构,将其中的MoveTask任务替换为本公开新构造的SparkTask任务。SparkTask任务会读取临时文件,并根据前面步骤获得的自定义的Hudi对象中的信息,对Hudi表直接调用SparkDataSource API接口进行与Hudi对象中SQL语句类型相对应的操作,如hudi表为分区表,还需要更新分区元数据。
例如,当Hudi对象中SQL语句类型为插入Insert类型时,使SQL执行引擎在执行任务时,直接调用Spark DataSource API接口对Hudi表进行新增(Insert)操作。当Hudi对象中SQL语句类型为更新Update类型时,使SQL执行引擎在执行任务时,直接调用SparkDataSource API接口对Hudi表插入更新(UpSert)操作。当Hudi对象中SQL语句类型为删除(Delete/Truncte)类型时,使SQL执行引擎在执行任务时,直接调用Spark DataSource API接口对Hudi表进行相应的删除(Delete/Truncte)操作。
步骤311.执行所生成的任务;
至此,完成了针对Hudi表涉及写入操作的SQL语句的执行。
通过本公开提供的技术方案,能够实现基于hive数据仓库的hudi存储格式,提供统一SQL支持,减少用户的繁琐代码、配置等工作,使用更加快捷、易用、灵活。
图6为本公开一实施例提供的一种实施本公开提供的方法的电子设备结构示意图,该设备600包括:诸如中央处理单元(CPU)的处理器610、通信总线620、通信接口640以及存储介质630。其中,处理器610与存储介质630可以通过通信总线620相互通信。存储介质630内存储有计算机程序,当该计算机程序被处理器610执行时即可实现本公开提供的方法的各步骤。
其中,存储介质可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。另外,存储介质还可以是至少一个位于远离前述处理器的存储装置。处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
应当认识到,本公开的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术,包括配置有计算机程序的非暂时性存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。此外,可按任何合适的顺序来执行本公开描述的过程的操作,除非本公开另外指示或以其他方式明显地与上下文矛盾。本公开描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本公开的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本公开所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本公开所述的方法和技术编程时,本公开还包括计算机本身。
以上所述仅为本公开的实施例而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种涉及写入操作的SQL执行方法,其特征在于,所述方法包括:
对接收到的SQL语句进行词法和语法解析,生成抽象语法树AST,并获取元数据;所述SQL语句包括针对Hudi表的类型为插入类、更新类或删除类的SQL语句;
在语义解析阶段,在生成所述SQL语句的抽象语法树AST后,构造Hudi参数对象;其中,所述Hudi参数至少包括表元数据信息、临时文件地址、Hudi标识、SQL语句类型;所述Hudi标识用于标识是否为针对Hudi表的操作;
在逻辑计划阶段,根据Hudi参数对象判定所处理的表为Hudi表时,修改操作树中用于将中间结果数据写入临时文件的操作符对应的对象,使所述对象将Hudi表内置字段剔除;
在物理计划阶段,将原始生成的任务树中移动类任务替换为SpartTask任务,所述SparkTask任务用于读取存放中间结果的临时文件并直接调用Spark DataSource API接口对Hudi表执行与Hudi对象中SQL语句类型相对应的操作。
2.根据权利要求1所述的方法,其特征在于,在所述构造Hudi参数对象之前,所述方法还包括:
根据所述抽象语法树,判断所述SQL语句是否是针对Hudi表的操作;
如果是针对Hudi表的操作,则执行构造Hudi参数对象的步骤,然后遍历所述抽象语法树,生成查询块;
如果不是针对Hudi表的操作,直接执行遍历所述抽象语法树,生成查询块的步骤;
所述查询块用于在逻辑计划阶段生成操作树。
3.根据权利要求2所述的方法,其特征在于,在判定是针对Hudi表的操作之后,在构造Hudi参数对象之前,所述方法还包括:
判断所述SQL语句的类型是否为更新类或删除类的SQL语句,若判定为更新类或删除类的SQL语句,则将所生成的抽象语法树重构为针对Hudi表的插入类SQL语句的抽象语法树即Insert AST,并剔除其中的Hudi表内置字段。
4.根据权利要求1所述的方法,其特征在于,
所述SQL执行引擎为Hive SQL执行引擎或Spark SQL执行引擎。
5.根据权利要求1所述的方法,其特征在于,根据所述元数据中的表属性inputformat是否为“org.apache.hudi.hadoop.HoodieParquetInputFormat”来判断是否是针对Hudi表的SQL语句。
6.一种涉及写入操作的SQL执行装置,其特征在于,该装置包括:
词法语法解析模块,用于对接收到的SQL语句进行词法和语法解析,生成抽象语法树AST,并获取元数据;所述SQL语句包括针对Hudi表的类型为插入类、更新类或删除类的SQL语句;
语义解析模块,用于所述SQL语句进行语义解析,在生成所述SQL语句的抽象语法树AST后,构造Hudi参数对象;其中,所述Hudi参数至少包括表元数据信息、临时文件地址、Hudi标识、SQL语句类型;所述Hudi标识用于标识是否为针对Hudi表的操作;
逻辑计划模块,用于所述SQL语句的逻辑执行计划的生成和优化,根据Hudi参数对象判定所处理的表为Hudi表时,修改操作树中用于将中间结果数据写入临时文件的操作符对应的对象,使所述对象将Hudi表内置字段剔除;
物理计划模块,用于所述SQL语句的物理执行计划的生成和优化,将原始生成的任务树中移动类任务替换为SpartTask任务,所述SparkTask任务用于读取存放中间结果的临时文件并直接调用Spark DataSource API接口对Hudi表执行与Hudi对象中SQL语句类型相对应的操作。
7.根据权利要求6所述的装置,其特征在于,
所述语义解析模块在构造Hudi参数对象之前,还用于根据所述抽象语法树,判断所述SQL语句是否是针对Hudi表的操作;
如果是针对Hudi表的操作,则执行构造Hudi参数对象的步骤,然后遍历所述抽象语法树,生成查询块;
如果不是针对Hudi表的操作,直接执行遍历所述抽象语法树,生成查询块的步骤;
所述查询块用于在逻辑计划阶段生成操作树。
8.根据权利要求7所述的装置,其特征在于,
所述语义解析模块在判定是针对Hudi表的操作之后,在构造Hudi参数对象之前,还用于判断所述SQL语句的类型是否为更新类或删除类的SQL语句,若判定为更新类或删除类的SQL语句,则将所生成的抽象语法树重构为针对Hudi表的插入类SQL语句的抽象语法树即Insert AST,并剔除其中的Hudi表内置字段。
9.根据权利要求6所述的装置,其特征在于,
所述SQL执行引擎为Hive SQL执行引擎或Spark SQL执行引擎。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序当被处理器执行时实施如权利要求1至5中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110439615.4A CN113204571B (zh) | 2021-04-23 | 2021-04-23 | 涉及写入操作的sql执行方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110439615.4A CN113204571B (zh) | 2021-04-23 | 2021-04-23 | 涉及写入操作的sql执行方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113204571A true CN113204571A (zh) | 2021-08-03 |
CN113204571B CN113204571B (zh) | 2022-08-30 |
Family
ID=77028062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110439615.4A Active CN113204571B (zh) | 2021-04-23 | 2021-04-23 | 涉及写入操作的sql执行方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204571B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036107A (zh) * | 2021-11-08 | 2022-02-11 | 上海柯林布瑞信息技术有限公司 | 基于hudi快照的医疗数据查询方法及装置 |
CN114442940A (zh) * | 2022-01-04 | 2022-05-06 | 网易(杭州)网络有限公司 | 一种数据处理方法、装置、介质和电子设备 |
CN115563150A (zh) * | 2022-12-02 | 2023-01-03 | 浙江大华技术股份有限公司 | Hive SQL与执行引擎DAG的映射方法、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000031626A1 (en) * | 1998-11-19 | 2000-06-02 | Netron Inc. | Method of identifying recurring code constructs |
CN101000615A (zh) * | 2006-12-31 | 2007-07-18 | 华为技术有限公司 | 一种基于数据库的业务处理方法及装置 |
CN110309196A (zh) * | 2019-05-22 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 区块链数据存储和查询方法、装置、设备及存储介质 |
CN112000703A (zh) * | 2020-10-27 | 2020-11-27 | 港胜技术服务(深圳)有限公司 | 数据入库处理方法、装置、计算机设备和存储介质 |
US20210027170A1 (en) * | 2018-10-17 | 2021-01-28 | Wangsu Science & Technology Co., Ltd. | Training method and apparatus for service quality evaluation models |
CN112307122A (zh) * | 2020-10-30 | 2021-02-02 | 杭州海康威视数字技术股份有限公司 | 一种基于数据湖的数据管理系统及方法 |
-
2021
- 2021-04-23 CN CN202110439615.4A patent/CN113204571B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000031626A1 (en) * | 1998-11-19 | 2000-06-02 | Netron Inc. | Method of identifying recurring code constructs |
CN101000615A (zh) * | 2006-12-31 | 2007-07-18 | 华为技术有限公司 | 一种基于数据库的业务处理方法及装置 |
US20210027170A1 (en) * | 2018-10-17 | 2021-01-28 | Wangsu Science & Technology Co., Ltd. | Training method and apparatus for service quality evaluation models |
CN110309196A (zh) * | 2019-05-22 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 区块链数据存储和查询方法、装置、设备及存储介质 |
CN112000703A (zh) * | 2020-10-27 | 2020-11-27 | 港胜技术服务(深圳)有限公司 | 数据入库处理方法、装置、计算机设备和存储介质 |
CN112307122A (zh) * | 2020-10-30 | 2021-02-02 | 杭州海康威视数字技术股份有限公司 | 一种基于数据湖的数据管理系统及方法 |
Non-Patent Citations (3)
Title |
---|
MAN ZHANG; FANG LIU; YUTONG LU; ZHIGUANG CHEN: ""Workload Driven Comparison and Optimization of Hive and Spark SQL"", 《IEEE》 * |
欧义发: "试析Oracle数据库SQL语句的性能优化", 《电脑编程技巧与维护》 * |
陈慧等: "大数据分析与Apache-Kylin应用", 《江西通信科技》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036107A (zh) * | 2021-11-08 | 2022-02-11 | 上海柯林布瑞信息技术有限公司 | 基于hudi快照的医疗数据查询方法及装置 |
CN114442940A (zh) * | 2022-01-04 | 2022-05-06 | 网易(杭州)网络有限公司 | 一种数据处理方法、装置、介质和电子设备 |
CN115563150A (zh) * | 2022-12-02 | 2023-01-03 | 浙江大华技术股份有限公司 | Hive SQL与执行引擎DAG的映射方法、设备及存储介质 |
CN115563150B (zh) * | 2022-12-02 | 2023-04-18 | 浙江大华技术股份有限公司 | Hive SQL与执行引擎DAG的映射方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113204571B (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113204571B (zh) | 涉及写入操作的sql执行方法、装置及存储介质 | |
CN113032423B (zh) | 基于多数据引擎动态装载的查询方法和系统 | |
CN113297320A (zh) | 分布式数据库系统及数据处理方法 | |
CN115543402B (zh) | 一种基于代码提交的软件知识图谱增量更新方法 | |
CN111367893A (zh) | 数据库版本迭代的方法及装置 | |
CN112988782A (zh) | Hive支持交互式查询的方法、装置及存储介质 | |
CN110083617B (zh) | 一种ddl语句的处理方法、装置、电子设备和介质 | |
CN112970011A (zh) | 记录查询优化中的谱系 | |
CN114443015A (zh) | 一种基于数据库元数据的增删改查服务接口生成方法 | |
CN116569161A (zh) | 受版本控制的关系数据集管理 | |
CN116821098A (zh) | 数据仓库管理方法、服务系统和存储介质 | |
CN111125129A (zh) | 数据处理方法和装置、存储介质及处理器 | |
CN116955393A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN114461454A (zh) | 数据恢复方法、装置、存储介质及电子设备 | |
CN113792026A (zh) | 数据库脚本的部署方法、装置及计算机可读存储介质 | |
CN111723104A (zh) | 一种数据处理系统中语法分析的方法、装置及系统 | |
CN117093597B (zh) | 数据处理方法及装置 | |
CN116737113B (zh) | 面向海量科学数据的元数据目录管理系统及方法 | |
CN116627390B (zh) | 航空软件开发中icd文件的替代方法及装置 | |
JP2000347910A (ja) | データベース処理システム,アクセス方法,sql変換方法および記憶媒体 | |
CN117555925B (zh) | 数据库访问代码转换方法、装置及电子设备 | |
CN112463886B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN111626585B (zh) | 脚本数据提取方法、装置、计算机设备和存储介质 | |
CN113704289A (zh) | 一种基于dbio接口的方法、系统、设备及介质 | |
CN117407391A (zh) | 数据库的全文索引方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |