CN107169033A

CN107169033A - 基于数据模式转换和并行框架的关系数据查询优化方法

Info

Publication number: CN107169033A
Application number: CN201710249567.6A
Authority: CN
Inventors: 聂铁铮; 申德荣; 寇月; 于戈; 高晶; 房俊; 杨冬菊
Original assignee: North China University of Technology; Northeastern University China
Current assignee: North China University of Technology; Northeastern University China
Priority date: 2017-04-17
Filing date: 2017-04-17
Publication date: 2017-09-15
Anticipated expiration: 2037-04-17
Also published as: CN107169033B

Abstract

本发明提供一种基于数据模式转换和并行框架的关系数据查询优化方法，涉及计算机数据库技术领域。该方法通过对关系模型数据上复杂查询语句进行结构分析，构建新的数据存储结构，实现在数据存储上的转换处理，将关系模型数据库中存储的数据转存到新的数据模式存储系统中，针对数据模式的变化进行相应查询语句的转换，基于SPARK SQL查询生成SPARK任务并执行该任务。本发明提供的关系数据查询优化方法能够将关系数据库中的数据针对查询的特征准确地转换到SPARK并行查询处理框架之上，从而有效提高对关系数据库上部分频繁执行的复杂查询的处理效率。

Description

基于数据模式转换和并行框架的关系数据查询优化方法

技术领域

本发明涉及计算机数据库技术领域，尤其涉及一种基于数据模式转换和并行框架的关系数据查询优化方法。

背景技术

随着各类应用中数据的规模不断增加，这导致了在集中式的关系数据库上的对大规模数据查询操作执行响应时间增加，影响了应用系统在查询处理实时性上的需求，如何提高海量数据上查询处理的性能已经成为数据库应用领域一个重要需求；针对海量数据的存储和访问，现有数据管理系统采用分布式存储和并行查询处理的方式来提高查询处理的性能；将集中式关系数据库上的查询进行分解，将需要并行处理部分合理地转移到并行处理框架下运行，将能够极大地提高查询处理的性能，满足实际应用在实时性上的需求；

造成当前关系数据库系统在一些复杂查询上性能低下的主要原因在于关系模型针对的是通用型数据库，在模式设计上主要面向减少数据冗余的思想，这样的结果就是在实际的查询执行时需要对多个关系表进行连接操作，而连接操作在关系数据库中属于执行代价较高的操作，数据库管理系统自身的查询优化器并不一定能够生产最优的执行策略；关系数据库系统在并行查询处理上的能力较弱，现有的关系数据库管理系统虽然支持多处理器的并行方式，但是并不支持多主机的并行处理，这样在数据规模变大的情况下，很难通过水平扩展的方式保证查询处理的执行性能；采用关系模型存储的数据在实现一些特助应用中的业务逻辑时会收到关系代数操作符的限制，从而不得不以较复杂的查询方式实现，这导致了查询执行性能的进一步下降；

现在，针对一些特殊数据查询应用已经提出了新的数据模型，如键值模型，同时基于这些数据模型也有相应的并行计算框架以支撑对海量数据信息的并行查询处理。然而，目前缺少一种有效的方法将关系数据库中的数据针对查询的特征准确地转换到SPARK并行查询处理框架之上以提高各类复杂查询处理的执行效率。

发明内容

针对现有技术的缺陷，本发明提供一种基于数据模式转换和并行框架的关系数据查询优化方法，能够将关系数据库中的数据针对查询的特征准确地转换到SPARK并行查询处理框架之上，从而有效提高对关系数据库上部分频繁执行的复杂查询的处理效率。

一种基于数据模式转换和并行框架的关系数据查询优化方法，包括以下步骤：

步骤1：对关系模型数据上复杂查询语句进行结构分析；

首先对执行性能较低的关系数据库上的结构化查询语句，即SQL查询语句，转化为SQL语法解析树结构，以进行下一步分析，找出关系数据库上的SQL查询语句中能够通过转换为新的数据模式存储数据和并行查询方式进行优化以提高查询效率的查询语句结构，以用于在下一个步骤中生成数据的键值模型存储结构；要找出的能进行优化的查询语句结构包括基于关系表关键字作为连接属性的多表连接查询结构、能聚合文本属性值的嵌套查询结构、能并行执行的嵌套查询结构和查询谓词中包含的编码属性匹配查询；

步骤2：构建新的数据存储结构；

基于对数据模式上的SQL查询语句的分析，结合查询所涉及关系表的关系模式结构，进一步构建新的数据模式存储结构，以实现通过新的数据模式的数据存储提高查询执行效率，新的数据模式为关系模型或键值模型；

步骤3：基于步骤2中所生成的新的数据模式存储结构，实现在数据存储上的转换处理，将关系模型数据库中存储的数据转存到新的数据模式存储系统中；

步骤4：进行查询语句的转换，由于SPARK SQL能够直接支持SQL查询语句，因此查询语句的转换仅针对数据模式的变化做出相应修改；

步骤5：基于SPARK SQL查询生成SPARK任务并执行该任务，SPARK SQL查询任务的生成基于查询语句转换的结果进行，基于步骤4的转换结果进行判断，如果没有生成不相关子查询的独立任务，则整体执行转换后的查询语句，直接将转换后的查询语句作为查询任务提交给SPARK SQL引擎执行查询操作，执行后结果数据以SchemaRDD形式返回，如果生成了不相关子查询的独立任务，则基于SPARK SQL查询的构建并执行查询处理任务。

进一步地，所述步骤1中找出基于关系表关键字作为连接属性的多表连接查询结构的方法为：对关系模式数据上的SQL查询语句构建关系代数形式的查询树，在关系代数查询树上通过关系运算操作符的等价变换，找出多个关系表的连接查询结构，其中关系表表示为T1＝{K1，A1}，T2＝{K2，A2}，...，Tn＝{Kn，An}，Ti表示一个关系表，Ki表示关系表Ti的连接属性集合且为表Ti的主键，Ai表示关系表Ti的非连接属性集合，i＝1，2，...，n，即Qs＝T1∞T2∞...∞Tn，记录这个基于关系表关键字作为连接属性的多表连接查询结构Qs；

所述步骤1中找出可聚合文本属性值的嵌套查询结构的方法为：查找SQL查询语句中在关系表文本属性上的文本模糊匹配查询，判断这个文本模糊匹配查询是否在一个exists操作符的嵌套相关子查询结构中，如果该子查询结构中符合查询结构“SELECT*FROMT WHERET.Ak＝U.A and Ct”，其中T表示子查询关系表，U表示父查询关系表，Ak表示相关子查询连接属性，Ct表示在文本属性At上的文本模糊匹配查询谓词，则标记该子查询为可聚合文本属性值的查询结构；

所述步骤1中找出能并行执行的嵌套查询结构中，在查询语句中发现并标记不相关子查询，先执行不相关子查询，同时将父查询的中间结果数据进行分片，然后将子查询结果发送到各个中间结果数据；

所述步骤1中找出查询谓词中包含的编码属性匹配查询的方法为：在SQL查询语句中，如果一个查询谓词的查询属性A为基于一个代码表Rc的属性，即该属性上A的属性值W依赖于代码表Rc中的有限个编码值，属性值W为单个编码值或由多个编码值和分隔符拼接而成的文本，同时查询条件为基于一个或多个编码值的“逻辑或”匹配方式，即假设属性值为“a1，a2，...，an”，查询谓词中待匹配值为“b1，b2，...，bm”，如果存在ai＝bj，i∈1，2，...，n，j∈1，2，...，m，则记录该查询谓词的查询属性；所述代码表指一个记录数量固定且表示一种编码规则的关系表，关系表中包含编码属性和语义属性。

进一步地，所述步骤2构建新的数据存储结构的具体步骤包括：

步骤2-1：合并关系表以生成新的数据模式结构；

对于在找出基于关系表关键字作为连接属性的多表连接查询结构的过程中标记出的SQL查询语句中所包含的关键字作为连接属性的多表连接查询结构，将其中的多个关系表涉及的关系表集合{T1，T2，...，Tn}合并为新的数据模式结构，表示为Ts(Key，V)，其中Key为关键字，其结构由关系表中的连接属性{K1，K2，...，Kn}中所包含的属性构成，V为新关系表中的非主属性集合，对应关系表集合中的非主属性集合{A1，A2，...，An}；

步骤2-2：使用位向量编码方式优化基于代码表存储的属性；

对于在找出查询谓词中包含的编码属性匹配查询过程中找出的查询谓词涉及的编码属性，基于代码表中的编码顺序将属性值基于位向量形式进行重新编码，生成新的编码属性Ac；编码方式为，对于一个记录在找出的查询谓词涉及的编码属性上的属性值构建一个与代码表中记录数量相同长度的二进制位向量，如果在原属性值中包含对应二进制位上的编码值，则该位上标记为1，否则标记为0；转换后数据模式中位向量编码的属性值以二进制位向量或整型存储；

步骤2-3：生成具有聚合文本属性值的模式结构；

对于在找出能聚合文本属性值的嵌套查询结构过程中找出的聚合文本属性值的嵌套查询结构，生成相关属性的符合结构属性，通过聚合同一个查找键值下多个记录的多个文本属性值，实现在查询执行过程中一次访问全部文本属性值内容并进行模糊匹配，从而提高查询效率；新的具有聚合文本属性值的模式结构的构建方式为，对于相关子查询“SELECT*FROM T WHERE T.Ak＝U.A and Ct”中的关系表T，文本属性At为文本匹配查询谓词Ct所包含的查询属性，创建新的关系表T′，T′中使用属性Ak作为主关键字，对于关系表T中属性Ak上具有相同取值的多个记录，使用指定分隔符将多个记录中文本属性At的属性值进行拼接，生成新关系表T′中新文本属性At′的对应属性值。

进一步地，所述步骤2中构建的新的数据模式为关系模型时，步骤3中数据存储上的转换处理方式为：

(1)执行合并关系表数据模式的数据转换，基于合并后的关系表创建新表T′，新表数据从合并前的关系表导入；(2)对于关系模式中进行位向量编码转换的属性，对于一个记录中属性值的编码转换方式是为该属性值构建一个与代码表中记录数量相同长度的二进制位向量Bv，如果在原属性值中包含对应二进制位上的编码值，则该位上标记为1否则标记为0，再将该位向量按照64位长度整数进行分割和补位生成有一个或多个整数表示的位向量值，如果用多个整数表示，则转换后可生成多个位向量属性；(3)对于具有聚合文本属性值的数据模式的数据存储转换，在新的关系表T′中增加属性At′，子查询中关系表的文本属性为At，属性At′的属性值由其对应的主键在子查询关系表中对应记录分组在属性At上的值集合使用分隔符进行拼接生成；(4)其它不涉及模式转换的关系表保持原结构不变；

所述步骤2中构建的新的数据模式为键值模型时，步骤3中数据存储上的转换处理方式为：

(1)对于合并关系表所生成的新的表结构创建列族CF(Colunm Family)，如果作为连接属性的主键为单属性主键，则主键Ak(Ak表示主键属性)作为行键(Row Key)，行键取值为主键属性值；如果连接属性的主键为属性组，则属性组组合作为行键，行键取值为主键属性结合连接符的拼接文本，同时主键中包含的每个属性转换为一个列；原始关系表中的每个普通属性转换为列族CF中的一个列，数据由原关系表导入；(2)对于位向量编码方式属性的数据转换，如果底层存储引擎支持整型数据类型的定义，则采用与关系模型存储转换中相同的方法对属性值进行编码转换，如果底层存储引擎只支持文本属性存储，则不进行属性编码的转换；(3)对于具有聚合文本属性值的数据模式的数据存储转换，在列族CF(Colunm Family)中增加一个文本数据列Rt(即Colunm)，Rt列上的值同样由具有多个相关子查询连接属性Ak的属性值记录的文本属性At的属性值拼接生成；(4)对于其它关系表都将转换为列族，将关系表的主关键字(即主键)转换为行键，关系表的其它属性和属性值转换为对应的列和列值。

进一步地，所述步骤4查询语句转换的具体方法如下：

步骤4-1：如果查询语句中涉及到对位向量方式重新编码后的属性的查询，则转换对位向量编码属性上的查询，以生成基于位向量属性值的查询谓词，假设查询谓词中对于属性值查询条件的待匹配值集合为{b1，b2，...，bm}，则将该待匹配值集合按照代码表生成相应的位向量Qc；将原查询语句中原文本属性上的“like”查询或“in”查询语句替换为新编码属性Ac上基于“逻辑与”的位运算，即Ac&Qc，如果有匹配的值，则位运算结果为正数，否则位运算结果为0，即判断为假；

步骤4-2：使用具有聚合文本属性列的查询谓词替换嵌套相关子查询的关系表；

步骤4-3：替换多表连接查询；

对于原SQL查询中的基于关系表关键字作为连接属性的多表连接子查询，Qs＝T1∞T2∞...∞Tn，使用在新的数据模式结构Ts或列簇CF上的查询代替；

步骤4-4：抽取不相关子查询语句作为独立任务；

对于查询语句分析中发现的不相关子查询的嵌套查询，如果该不相关子查询的父查询是不包含连接操作的最上层查询，则将该不相关子查询分离出来作为一个独立的SPARK SQL的SQL查询任务。

进一步地，所述步骤5中基于SPARK SQL查询的构建并执行查询处理任务，具体方法为：

将查询语句分为主查询和子查询，每个查询都生成相应的SPARK SQL引擎上的SQL查询任务，主查询执行后生成相应的SchemaRDD结果集，子查询执行后生成相应的FilterRDD结果集；基于子查询在主查询中查询谓词的相应属性，利用SPARK引擎中的过滤活动在主查询的SchemaRDD结果集中使用子查询的FilterRDD结果集作为过滤条件得到最后的查询处理结果；如果原始查询中包含排序操作，则还需要调用SPARK引擎的排序活动对最终的查询结果进行排序，生成最终排序的查询结果集合。

由上述技术方案可知，本发明的有益效果在于：本发明提供的一种基于数据模式转换和并行框架的关系数据查询优化方法，能够将关系数据库中的数据针对查询的特征准确地转换到SPARK并行查询处理框架之上，从而有效提高对关系数据库上部分频繁执行的复杂查询的处理效率。本发明能够提高特定复杂查询下数据的存储效率和查询处理的执行效率，减少查询执行时间；本发明具有较高的通用性，对于转换后的数据模式既可以依然使用关系模型进行存储，也可以使用面向海量数据访问而提出的键值模型进行存储；本发明很好的利用了高效的SPARK并行处理框架，将关系数据上的结构化查询以最佳的并行方式和内存处理方式执行，从而提高查询性能；本发明能够应用于改善针对更新不频繁的的海量关系数据上的复杂查询处理性能，提高查询的执行效率。

附图说明

图1为本发明实施例提供的基于数据模型转换和并行框架的关系数据查询优化方法的处理框架示意图；

图2为本发明实施例提供的SQL查询语法解析树结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例的软硬件环境为：服务器集群，其中单个服务器主机硬件为2Ghz处理器，内存4G，软件为LINUX操作系统REDHAT LINUX，安装HDFS、HBase和Apache SPARK框架。

本实施例中提供如下文章评审关系数据库模式：

专家表：E(专家号，专家姓名，证件号码，职称，所属单位)，其中“专家号”为主键，“职称”属性为指向TCODE的外键，如表1所示；

表1专家表E数据表

专家号	专家姓名	证件号码	职称	所属单位
					1	王一	110001	教授	高校1
2	李二	120001	副教授	高校2
					3	张三	110031	教授	高校3
4	李四	320001	研究员	高校2
					5	赵一	300401	副教授	高校1
6	孙二	120021	高级工程师	高校4
					7	张一	113034	副研究员	高校5
8	王二	330041	高级工程师	高校6
					9	赵三	130451	中级及以下	高校3
10	李二	656001	副教授	高校6
					11	张四	110867	教授	高校7
12	孙一	120441	无	高校6

专家所属行业领域：ED(专家号，行业领域)，其中“专家号”为主键，如表2所示；

表2专家行业领域表ED数据表

专家学术头衔：EH(专家号，学术头衔)，其中“专家号”为外键，如表3所示；

表3专家学术头衔表EH数据表

专家号	学术头衔
		1	工程院院士
1	973首席专家
		3	863领域专家
4	科学院院士
		5	万人计划
7	千人计划
		10	万人计划
10	863领域专家
		11	长江学者
11	973首席专家

待评审文章信息：P(文章编号，标题，文章作者，作者单位)，其中“文章编号”为外键；

专家职称代码表：TCODE(职称名称)职称名称为主键。

要为待评审文章选择一组专家进行评审，有如下查询要求：

1.专家“职称”属性的值可以为以下取值其中之一：“教授”、“副教授”、“研究员”和“副研究员”；

2.专家的“学术头衔”包含文本其中之一：“院士”和“首席专家”；

3.专家所属行业领域的“行业领域”属性的值为“数据库”；

4.要求文章作者所在单位的专家不能参与评审文章，即专家的“所属单位”属性值不能与任何一篇待评审文章中作者单位相同；

5.查询符合以上条件的专家的相关信息。

针对以上查询要求，生成在关系数据库上的结构化查询为：

SELECT E.专家号，E.专家姓名，E.证件号码，E.所属单位

FROM E，ED

WHERE E.专家号＝ED.专家号AND ED.行业领域＝“数据库”

AND E.职称IN(″教授″，″副教授″，″研究员″，″副研究员″)

AND EXISTS(SELECT 1 FROM EH

WHERE E.专家号＝EH.专家号

AND(EH.学术头衔LIKE″％院士％″OR EH.学术头衔LIKE″％首席专家％″)

AND E.所属单位NOT IN(SELECT DISTINCT P.作者单位FROM P)

下面基于数据模式转换和并行框架的关系数据查询优化方法将查询转换为分布式处理结构，如图1所示，为本实施例方法的处理框架示意图，具体方法步骤如下。

步骤1：对关系模型数据上复杂查询语句进行结构分析，针对查询构建基于SQL语句的查询解析树，并从中发现可以用于优化的查询结构。具体方法为：

步骤1-1：对该复杂查询语句转换成关系代数所表达的解析树结构，以进行下一步分析，转换后的SQL语法解析树如图2所示，其中查询语句采用语法解析树结构进行表示，<Query>表示查询或子查询结构，<SFW>表示SQL的select-from-where查询结构，<SELECT_List>表示SQL的Select子句，<FROM_List>表示SQL的From子句，<WHERE_Condition>表示SQL的Where子句，<AttrName>表示关系的属性名，<AttrList>表示关系的属性列表，<RelName>表示关系名，<RelList>表示关系列表，<Condition>表示查询条件结构，<Pattern>表示查询要匹配的模式内容；

步骤1-2：在查询语句中找出基于关系表关键字作为连接属性的多表连接查询结构；在本实施例中，图2中所标识出的Q1部分的查询结构可以转换为关系表E和关系表ED基于“专家号”属性的连接操作，而“专家号”属性在两个关系表中都是关键字，即查询中包含Qs＝E∞ED查询结构符合基于关系表关键字作为连接属性的多表连接查询结构；

步骤1-3：在查询语句中找出可聚合文本属性值的嵌套查询结构；在本实施例中，如图2中所标识出的Q3部分所示，其中包含一个exists操作符的嵌套相关子查询结构，即查询条件中的“EXISTS(SELECT 1 FROM EH WHERE E.专家号＝EH.专家号AND(EH.学术头衔LIKE″％院士％″OR EH.学术头衔LIKE″％首席专家％″)”部分，其中子查询关系表为EH，父查询关系表为E，连接属性为“E.专家号”和“EH.专家号”，进行文本匹配的属性为“EH.学术头衔”，对应的匹配谓词为“EH.学术头衔LIKE″％院士％″OR EH.学术头衔LIKE″％首席专家％″”，因此该结构为可聚合文本属性值的查询结构；

步骤1-4：在查询语句中找出能并行执行的嵌套查询结构；在关系数据库的查询语句中，嵌套查询中不相关子查询的执行过程是由内向外的，即先执行子查询的执行，在利用子查询的执行结果作为父查询中查询谓词的执行条件，比如SQL中IN，NOT IN语句构成的不相关子查询结构；因此可以先执行不相关子查询，同时将父查询的中间结果数据进行分片，然后将子查询结果发送到各个中间结果数据；在本步骤中，在查询语句中发现并标记不相关子查询；

在本实施例中，如图2中所标识出的Q4部分所示，其为“NOT IN”语句构成的查询条件，对应的子查询为“SELECT DISTINCT P.作者单位FROM P”，该查询为不相关子查询，因此可以先执行这个不相关子查询，将结果存储后发送到分布式的多个节点上执行并行查询处理；标记该查询结构；

步骤1-5：在查询语句中找出查询谓词中包含的编码属性匹配查询；在本实施例中，如图2中所标识出的Q2部分所示，查询条件“E.职称IN(″教授″，″副教授″，″研究员″，″副研究员″)”中查询属性为“E.职称”，代码表为专家职称代码表TCODE，其“E.职称”的属性值为TCODE表中“职称名称”的单一取值，该查询条件中匹配方式等价于“逻辑或”的匹配方式，要匹配的多个编码值为{″教授″，″副教授″，″研究员″，″副研究员″}，将该查询结构标记为编码属性匹配查询。本步骤主要目的是找出编码属性上的查询，以便基于转换编码的方式对查询处理进行优化。

以上找出可进行优化的查询语句结构的步骤顺序可以随意调整，在这些步骤中发现的各类查询结构将在保证查询语义不变的前提下用于后续优化步骤之中。

步骤2：基于以上对SQL查询语句的分析，将现有数据模式转换为新的适合于分布式查询的数据存储结构。具体方法为：

步骤2-1：合并关系表以生成新的数据模式结构；

对于在步骤1-2中标记出的SQL查询语句中使用两个表的关键字作为连接属性的多表连接查询结构Q1部分，将其中的关系表集合{E，ED}合并为新模式结构，表示为新专家表E′(“专家号”，{“专家姓名”，“证件号码”，“职称”，“所属单位”，“行业领域”})，其中“专家号”为关键字，对应关系表集合中的非主属性集合为{“专家姓名”，“证件号码”，“职称”，“所属单位”，“行业领域”}，如表4所示；在本实施例中，采用HBase存储新专家表E′数据，因此使用列族数据(Column Family)模型存储；

表4转换后新专家表E′数据表

步骤2-2：使用位向量编码方式优化基于代码表存储的属性；在本实施例中，“E.职称”为基于代码表的属性，对其属性值基于代码表TCODE进行位向量编码，其中代码表中“职称名称”的各属性值对应的位向量编码如表5所示，生成新属性“E.职称B”用32位整型值存储，如表4中的职称B所示；

表5职称代码表TCODE数据表

步骤2-3：为专家表生成具有聚合文本属性值的模式结构；

对于步骤1-3中找出的聚合文本属性值的嵌套查询结构Q3部分，在本步骤中生成相关属性的符合结构属性，聚合专家学术头衔表EH中同一个“专家号”属性值下多个记录的“学术头衔”属性值，在新专家表E’中增加“学术头衔”属性，其属性值为每个“专家号”在对应的专家学术头衔表EH中，相同“专家号”对应的多个“学术头衔”属性值使用逗号分隔符拼接的文本字符串。

步骤3：将关系数据库中存储的各关系表数据转存HBase存储系统或关系数据库中的对应的表中；

在本实施例中用HBase存储系统时，该存储系统采用的是基于键值模型的列族模型数据存储，根据采用键值模型时的数据转换方法：(1)首先基于合并关系表后生成的新专家表E′，创建存储新专家表E′的列族Experts，其中行键设置为“专家号”，列包括{“专家姓名”，“证件号码”，“职称”，“所属单位”，“行业领域”}，对于行键值和行键值对应各列的值从关系数据库的专家表E和专家所属行业领域表ED中的数据导入；(2)对于可以进行位向量编码方式的属性“职称”，因为HBase只支持文本属性值存储，因此不进行属性编码的转换，使用原专家表E的“职称”属性的属性值作为列族Experts中“职称”列的值；(3)专家学术头衔表EH中的“学术头衔”属性可以作为新专家表E’的复合结构属性，因此在列族Experts中创建“学术头衔”列，列值为多个属性值文本拼接后的取值，如表4中新专家表E’中“专家号”属性值为“1”的记录对应的“学术头衔”属性值为“工程院院士、973首席专家”；(4)创建查询涉及其它关系表的列族，对于待评审文章信息表P创建列族Papers，其中行键为“文章编号”，列集合为{“标题”，“文章作者”，“作者单位”}；

存储转换后，表4中新专家表E′的第一条记录转换到专家信息列族Experts中存储的结构如表6所示。

表6专家信息列族Experts数据表

在本实施例中用关系数据库存储时，与HBase存储数据的区别在于能使用位向量编码方式存储“职称”属性值。表4中新专家表E′的第一条记录的“职称”属性转换为位向量编码方式后使用整型值“128”作为属性值。

步骤4：进行查询语句的转换。

在对数据模式进行了重新构建并进行了数据存储转换之后，就可以支持查询处理了，但在将查询提交给SPARK框架进行处理之前，还需要针对模式上的改变进行查询语句转换，由于SPARK SQL能够直接支持SQL查询语句，因此查询语句的转换可以仅针对数据模式的变化做出相应修改。

本实施例中，针对在HBase上的数据存储模式，将在关系数据库上的SQL查询转换为在SPARK框架上SPARK SQL组件所支持的查询结构，查询语句转换的步骤如下：

步骤4-1：转换对位向量编码属性上的查询；

在本实施例中，在HBase存储系统中未对属性值进行编码转换，因此该步骤省略；

步骤4-2：替换嵌套相关子查询的关系表；

本实施例中，使用具有聚合文本属性列“学术头衔”的查询谓词“学术头衔LIKE″％院士％″OR学术头衔LIKE″％首席专家％″”替换原相关子查询

“EXISTS(SELECT1 FROM EH

WHERE E.专家号＝EH.专家号

AND E.所属单位NOT IN(SELECT DISTINCT P.作者单位FROM P)”.

步骤4-3：替换多表连接查询；

对于原SQL查询语句中的专家表和专家所属领域表的连接查询，使用在列族Experts上的查询谓词“行业领域＝″数据库″”代替；

步骤4-4：抽取不相关子查询语句作为独立任务；

在原SQL查询语句中，不相关子查询及相关谓词为：“E.所属单位NOT IN(SELECTDISTINCT P.作者单位FROM P)”，因此将不相关子查询“SELECT DISTINCT P.作者单位FROMP”分离出来，转换为一个在对应HBase列族上独立执行的SPARK SQL语句“SELECT DISTINCT作者单位FROM Papers”；

在步骤4之后，本实施例将生成两个SPARK SQL查询语句，分别是：

子查询SPARK SQL语句：SELECT DISTINCT作者单位FROM Papers；

主查询SPARK SQL语句：

SELECT专家号，专家姓名，证件号码，所属单位

FROM Experts

WHERE行业领域＝“数据库”

AND学术头衔LIKE″％院士％″OR EH.学术头衔LIKE″％首席专家％″。

步骤5：基于SPARK SQL查询生成SPARK任务并执行该任务。

本步骤的任务是生成SPARK引擎上的查询任务，并提交查询以获得最终查询结果；这里采用SPARK引擎的主要原因包括其采用了基于RDD的内存数据处理模式，避免内存与硬盘之间频繁的I/O操作；支持SQL92标准的SQL查询语句，能够实现与关系数据上原有查询的无缝集成；对底层数据存储的良好兼容，支持Hbase等多种数据存储引擎；具有较强的并行处理能力和可扩展性。

SPARK SQL查询任务的生成主要基于查询语句转换的结果进行，基于步骤4-4的转换结果进行判断，如果没有生成不相关子查询的独立任务，则整体执行转换后的查询语句，直接将转换后的查询语句作为查询任务提交给SPARK SQL引擎执行查询操作，执行后结果数据以SchemaRDD形式返回，如果生成了不相关子查询的独立任务，则基于SPARK SQL查询的构建并执行查询处理任务。

在本实施例中，基于步骤4-4的转换结果，其中生成了不相关子查询的独立SPARKSQL查询任务，因此基于SPARK SQL查询的构建并执行查询处理任务。构建基于RDD操作的SPARK处理任务；首先执行子查询，并将结果缓存在RDD中，假设RDD命名为“avoidAFF”，再执行主查询语句得到候选专家集合，同样缓存在RDD中，假设该RDD命名为“CExperts”；由于在原SQL语句中主查询和子查询是通过“NOT IN”谓词构建的查询关系，因此这里使用SPARK的Filter操作将“CExperts”RDD中专家的“所属单位”在“avoidAFF”RDD中的记录过滤，并将结果作为最终结果输出；

待评审文章信息表P中数据如表7所示，在执行以上查询任务后，最终将输出符合条件的评审专家为(11，张四，110867，高校7)。

表7待评审文章信息表P数据表

文章编号	标题	文章作者	作者单位
				1	文章1	作者1	高校1
1	文章2	作者2	高校2

本实施例提供的一种基于数据模式转换和并行框架的关系数据查询优化方法能够有效提高对关系数据库上部分频繁执行的复杂查询的处理效率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于数据模式转换和并行框架的关系数据查询优化方法，其特征在于：包括以下步骤：

步骤1：对关系模型数据上复杂查询语句进行结构分析；

步骤2：构建新的数据存储结构；

2.根据权利要求1所述的基于数据模式转换和并行框架的关系数据查询优化方法，其特征在于：所述步骤1中找出基于关系表关键字作为连接属性的多表连接查询结构的方法为：对关系模式数据上的SQL查询语句构建关系代数形式的查询树，在关系代数查询树上通过关系运算操作符的等价变换，找出多个关系表的连接查询结构，其中关系表表示为T1＝{K1，A1}，T2＝{K2，A2}，...，Tn＝{Kn，An}，Ti表示一个关系表，Ki表示关系表Ti的连接属性集合且为表Ti的主键，Ai表示关系表Ti的非连接属性集合，i＝1，2，...，n，即Qs＝T1∞T2∞...∞Tn，记录这个基于关系表关键字作为连接属性的多表连接查询结构Qs；

所述步骤1中找出可聚合文本属性值的嵌套查询结构的方法为：查找SQL查询语句中在关系表文本属性上的文本模糊匹配查询，判断这个文本模糊匹配查询是否在一个exists操作符的嵌套相关子查询结构中，如果该子查询结构中符合查询结构“SELECT*FROM TWHERET.Ak＝U.A and Ct”，其中T表示子查询关系表，U表示父查询关系表，Ak表示相关子查询连接属性，Ct表示在文本属性At上的文本模糊匹配查询谓词，则标记该子查询为可聚合文本属性值的查询结构；

3.根据权利要求2所述的基于数据模式转换和并行框架的关系数据查询优化方法，其特征在于：所述步骤2构建新的数据存储结构的具体步骤包括：

步骤2-1：合并关系表以生成新的数据模式结构；

步骤2-2：使用位向量编码方式优化基于代码表存储的属性；

步骤2-3：生成具有聚合文本属性值的模式结构；

对于在找出能聚合文本属性值的嵌套查询结构过程中找出的聚合文本属性值的嵌套查询结构，生成相关属性的符合结构属性，通过聚合同一个查找键值下多个记录的多个文本属性值，实现在查询执行过程中一次访问全部文本属性值内容并进行模糊匹配，从而提高查询效率；新的具有聚合文本属性值的模式结构的构建方式为，对于相关子查询“SELECT*FROM TWHERE T.Ak＝U.A and Ct”中的关系表T，文本属性At为文本匹配查询谓词Ct所包含的查询属性，创建新的关系表T′，T′中使用属性Ak作为主关键字，对于关系表T中属性Ak上具有相同取值的多个记录，使用指定分隔符将多个记录中文本属性At的属性值进行拼接，生成新关系表T′中新文本属性At′的对应属性值。

4.根据权利要求3所述的基于数据模式转换和并行框架的关系数据查询优化方法，其特征在于：所述步骤2中构建的新的数据模式为关系模型时，步骤3中数据存储上的转换处理方式为：

(1)对于合并关系表所生成的新的表结构创建列族CF(Colunm Family)，如果作为连接属性的主键为单属性主键，则主键Ak作为行键(Row Key)，行键取值为主键属性值；如果连接属性的主键为属性组，则属性组组合作为行键，行键取值为主键属性结合连接符的拼接文本，同时主键中包含的每个属性转换为一个列；原始关系表中的每个普通属性转换为列族CF中的一个列，数据由原关系表导入；(2)对于位向量编码方式属性的数据转换，如果底层存储引擎支持整型数据类型的定义，则采用与关系模型存储转换中相同的方法对属性值进行编码转换，如果底层存储引擎只支持文本属性存储，则不进行属性编码的转换；(3)对于具有聚合文本属性值的数据模式的数据存储转换，在列族CF(Colunm Family)中增加一个文本数据列Rt(即Colunm)，Rt列上的值同样由具有多个相关子查询连接属性Ak的属性值记录的文本属性At的属性值拼接生成；(4)对于其它关系表都将转换为列族，将关系表的主键转换为行键，关系表的其它属性和属性值转换为对应的列和列值。

5.根据权利要求4所述的基于数据模式转换和并行框架的关系数据查询优化方法，其特征在于：所述步骤4查询语句转换的具体方法如下：

步骤4-3：替换多表连接查询；

步骤4-4：抽取不相关子查询语句作为独立任务；

对于查询语句分析中发现的不相关子查询的嵌套查询，如果该不相关子查询的父查询是不包含连接操作的最上层查询，则将该不相关子查询分离出来作为一个独立的SPARKSQL的SQL查询任务。

6.根据权利要求5所述的基于数据模式转换和并行框架的关系数据查询优化方法，其特征在于：所述步骤5中基于SPARK SQL查询的构建并执行查询处理任务，具体方法为：