CN115114327B

CN115114327B - 一种减少重复计算的数据库查询关系建模方法

Info

Publication number: CN115114327B
Application number: CN202210896603.9A
Authority: CN
Inventors: 游进国; 何培蕾; 徐静文; 柳大格; 王宇轩; 贾连印
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2024-05-28
Anticipated expiration: 2042-07-28
Also published as: CN115114327A

Abstract

本发明提出一种减少重复计算的数据库查询关系建模方法，属于数据库技术领域，包括如下步骤：在历史查询负载中，依据查询、子查询或算子间的包含或等价且结果相等的关系形成等价查询集，通过等价查询集的特点：其具有凸集性质；包含上、下界视图或查询；上下界视图或查询结果相等，来快速响应用户提交的新查询。理论上证明，该建模方法可以发现更多等价或包含的数据库查询，从而减少更多重复计算。

Description

一种减少重复计算的数据库查询关系建模方法

技术领域

本发明涉及数据库技术领域，具体涉及一种减少重复计算的数据库查询关系建模方法。

背景技术

随着新型互联网浪潮的来临，数据规模呈爆炸式增长，传统的集中式数据库难以满足庞大的业务需求，新型的分布式数据库架构便应运而生，其本质还是解决数据库的扩展性问题。为了提升数据查询的效率，数据库界对物化视图(Materialized View)、多查询优化(Multi-query optimization)和子表达式重用(Subexpression reuse)进行了广泛的研究。尽管提法不同，但其本质均为计算重用，即减少重复的计算以提升查询速率和效率。

物化视图选择问题(简称MVS)被证明为NP-hard问题，Harinaryan(<ImplementingData Cubes Efficiently>,1996:205-216.)提出了采用包含级联的多维复合依赖格结构，给出了基于格的查询代价和物化收益的线性成本模型。Thomas(<Achieving Scalabilityin OLAP Materialized View Selection>,2002:28-34.)等人把整个物化视图选择过程分为提名阶段和选择阶段，在提名阶段，只考虑格中有希望的部分，大大减少选择阶段需要处理的节点数。Kotidis(<ADynamic View Management System for Data Warehouses>,InProceedings of SIGMOD’99,ACMPress,371-382.)等人把物化视图选择问题当作类似Cache中内存管理问题，提出了DynaMat的动态方法，利用一个统一的框架综合考虑了视图维护和视图选择问题，可通过用户实际负载的变化自动调整实例化的视图。蔡磊(<面向区块链的高效物化视图维护和可信查询>,2020,31(03):680-694.)等人提出一种面向区块链的高效物化视图机制，使用字典树加快以区块为单位的多物化视图维护进程，通过默克尔验证的方式确保查询结果可信。

微软(<Selecting Subexpressions to Materialize at Datacenter Scale>,2018:800–812.)提出了BIGSUBS算法，将子表达式选择映射为一个二部图标记问题，并分解成两个子问题，采用迭代的方法，最终在SCOPE上分布式的进行了大规模工作负载下的实现。郭欣彤(<大规模知识图谱的多查询优化问题研究>,2021，11(09):119-122.)等人研究了大规模知识图谱的多查询优化问题，利用特征集合快速过滤没必要优化的查询，在剩下来的查询中精确、高效地查找公共子表达式。

张正凡(<商立方体分布式查询研究>,2018,17(11):37-39+44.)在商立方体的研究基础上，提出等价区间概念，利用等价区间点查询命中的特性，保证查询有效的情况下，在Spark集群上实现并行查询。

尽管大量的研究被投入到物化视图技术、多查询优化技术和分布式数据库技术与系统等领域，也取得了较多的成果。但依然存在一个问题：现有的物化视图或多查询优化的视图/查询关系匹配方法主要是从SQL文本上进行判断SQL查询的等价或包含关系，然而不满足等价或包含关系的SQL语句的结果可能也是等价或包含的，却未被发现是重复计算。

发明内容

本发明的目的在于提供一种减少重复计算的数据库查询关系建模方法，旨在解决现有的物化视图或多查询优化的视图或查询关系匹配方法主要是从SQL文本或等价上进行判断SQL查询的等价或包含关系，但不满足等价或包含关系的SQL语句的结果可能也是等价或包含的，因此造成重复计算的技术问题。

为了实现上述目的，本发明采用如下技术方案：本发明提出了一种减少重复计算的数据库查询关系建模方法，包括如下步骤：

step1、根据用户的历史查询负载找出查询、子查询或算子间具有等价或包含关系且结果相等的查询，依据偏序关系，确定上界视图或上界查询、下界视图或下界查询，形成等价查询集；

step2、用户提交新查询后，分析用户提交的新查询，依据等价查询集的凸集性质核查用户提交的新查询是否在等价查询集的上界视图或上界查询和下界视图或下界查询之间；如果在，则该等价查询集能完全回答新查询，执行step3；否则执行step4；

step3、用等价查询集的结果返回用户提交的新查询的查询结果；对于两条查询语句不等价但结果相等的查询，只要它们都在上界视图或上界查询和下界视图或下界查询之间，则仍能推导它们等价，用相应的等价查询集结果返回；

step4、判断等价查询集能否部分回答用户提交的新查询，如果能部分回答，则将新查询分为可回答查询和剩余查询，即可以用等价查询集回答的查询和等价查询集回答不了的查询，执行step6；如果不能，则该等价查询集完全不能回答新查询，执行step7；

step6、将可回答查询的查询结果用等价查询集的结果返回；

step7、将剩余查询或完全不能回答查询提交给数据库去查询；

step8、将可回答查询的查询结果和剩余查询的查询结果合并，返回给用户；将完全不能回答查询的查询结果返回给用户；同时，动态更新等价查询集。

优选地，step1所述等价查询集的形成为：历史查询负载中多个视图或查询中包含或等价且结果相等的视图或查询构成。

优选地，step1中所述等价查询集的建立为：

EQ＝<Q_u，Q_l，Res，Stat>

其中，EQ称为等价查询集，Q_u称为上界视图或查询、Q_l称为下界视图或查询、Res为查询结果集，Stat为结果集Res的统计信息，Q_u≡Q_l，Q_l有多个下界视图或查询，即

优选地，所述的等价查询集具有凸集的性质，即给定查询Q，等价查询集EQ，满足则Q≡Q_u≡Q_l。

综上所述，相比于现有技术，本发明的优点在于：

本发明基于代数格、集合论等理论和查询优化等技术，研究和实现数据库查询的关系建模，通过对视图或查询关系进行建模，充分挖掘视图或查询的特征，发现更多的包含关系或等价关系，从而减少更多的重复计算，节省大量存储空间。

附图说明

图1为本发明的流程图；

图2为本发明视图或查询间根据选择操作的偏序关系构成的格结构；

图3为本发明视图或查询间根据选择操作的偏序关系构成的精简格结。

具体实施方式

以下实施例旨在进一步说明本发明。

实施例1

由于现有的物化视图或多查询优化的视图或查询关系匹配方法主要是从SQL文本或等价上进行判断SQL查询的等价或包含关系，但是不满足等价或包含关系的SQL语句的结果可能也是等价或包含的，因此造成重复计算。针对这一问题，本具体实施方式提供了本发明提出了一种减少重复计算的数据库查询关系建模方法，包括如下步骤：

step2、用户提交新查询后，分析用户提交的新查询，依据等价查询集的凸集性质核查用户提交的新查询是否在等价查询集的上界视图或上界查询、下界视图或下界查询之间；如果在，则该等价查询集能完全回答新查询，执行step3；否则执行step4；

step6、将可回答查询的查询结果用等价查询集的结果返回；

stepl中等价查询集的建立为：

给定数据库实例D，视图或查询Q和Q′(为方便阐述，在不混淆的情况下，视图和查询交替使用)。视图或查询Q和Q′的包含关系(包括等价关系)实质为偏序关系，通过偏序关系多个视图/查询构成了代数格(Lattice)结构，表示为<L，≤>。

因此对具有等价关系的查询集建模为：

EQ＝<Q_u，Q_l，Res，Stat>

查询Q_u是查询Q_l的一个更精简的表示，查询Q_l可以规约到Q_u，即从查询表达上看，查询范围缩小了。从流形学习角度看，可以将如上节点投影到欧式空间，我们所能观察到的数据实际上是由一个低维流形映射到高维空间上的，因此一些高维中的数据会产生维度上的冗余，实际上只需要比较低的维度就能唯一地表示。因此目的是将某些高维数据其映射回低维空间中，揭示其本质。

下面用凸集的性质来证明本发明的建模方法：

证明等价查询集具有凸集性质，即给定查询Q，等价查询集EQ，满足则Q≡Q_u≡Q_l，简要证明如下：

1)又Q_u≡Q_l，可推导/>

2)又所以Q≡Q_u，

3)如上可得Q≡Q_u≡Q_l

等价查询集具有的凸集性质表明，如果一个查询Q包含上界视图Q_u，且被下界视图Q_l包含，则Q与Q_u或Q_l匹配或等价。

而等价查询集保留Q_l，是为了更好地回答查询或匹配，并且具有自包含性(self-contained)，即不需要其它信息即可回答查询。在分布式计算场景，当等价查询集分发到各个节点上时，可通过等价查询集上界视图和下界视图即可回答查询，而不需要与其它进行节点通讯和数据交换。

实施例2

一个查询可能包含不同的等价查询集，即它的等价查询集可能不唯一。也就是，一个查询Q可能包含多个不同的等价查询集，即

Q＝{EQ₁，EQ₂，...，EQ_k}

通过研究Group By，Join，Outer join，Project，Union，Subquery等不同关系运算，不同逻辑运算符下，视图或查询的关系建模，即等价查询集EQ的表达。下面对Group By和Where的EQ表达进行了初步论证。论证时同时考虑1)非聚集查询(Non-aggregatequeries)，其基于集合Set(不包含重复元素)的关系运算；2)聚集查询(Aggregatequeries)，其基于Bag(可包含重复元素)，聚集查询的结果不能去除重复元组，因为会影响聚集结果。在这两种情况下，基于代数格和集合论对视图/查询的等价关系和包含关系建模。

表1所示基本关系表R包含四个元组：(S1，P1，T1)，(S1，P2，T1)，(S2，P1，T2)和(S3，P3，T2)。

ID	S(tore)	P(roduct)	T(ime)
				1	Sl	P1	Tl
2	Sl	P2	Tl
				3	S2	Pl	T2
4	S3	P3	T2

表1

(1)选择算子(Selection)——Where

基于基本表R的Where选择条件下的一些查询如下，其查询结果相同，均为基本表R的元组{S3，P3，T2}。

Q₀＝Select*From R Where S＝S3，P＝P3 and T＝T2；

Q₁＝Select*From R Where S＝S3 and T＝T2；

Q₂＝Select*From R Where P＝P3 and T＝T2；

Q₃＝Select*From R Where S＝S3 and P＝P3；

Q₄＝Select*From R Where P＝P3；

Q₅＝Select*From R Where S＝S3；

(2)分组聚集算子——Group By

基于基本表R的分组聚集Group By条件下的查询如下，其查询结果均来自于对基本表R中元组{{S1，P1，T1}，{S1，P2，T1}，{S2，P1，T2}，{S3，P3，T2}}的分组汇总，结果是相同的。

Q₆＝Select S，P，count(*)From R Group By S，P；

Q₇＝Select T，P，count(*)From R Group By T，P；

Q₈＝Select S，T，P，count(*)From R Group By S，T，P；

图2为表1的基本表R上主要的一些选择查询操作通过包含关系形成的代数格结构。浅灰色圈中的为不同SQL查询结果相等，形成一个等价类，称为等价查询集。以上(1)、(2)中所示的查询均分别为一个等价查询集。

图3为图2进行等价类或等价查询集划分后形成的精简格结构，每个等价查询集均由1个上界视图(upper bound view，图中浅灰色圆点)和多个下界视图(low bound view，图中深灰色圆点)组成。等价查询集内部的黑色线表示查询间的等价关系，等价查询集间的蓝色线表示查询间的包含关系。

图2所示，尽管查询Q₁＝σ_{S＝S3 and T＝T2}(R)，Q₂＝σ_{P＝P3 and T＝T2}(R)，Q₃＝σ_{S＝S3 and P＝P3}(R)不形成包含关系，以往的查询或视图匹配方法，会判断其不等价，但它们的结果实际是相等的。本发明通过等价查询集EQ₄的凸集性质，发现查询Q₁，Q₂，Q₃夹在EQ₄的上界视图Q_u＝σ_{S＝S3 and P＝P3 and T＝T2}(R)和下界视图之间，因此判断查询Q₁，Q₂，Q₃等价，而且不存储或物化这些中间查询的结果。

此外，上界视图和下界视图、或上界查询和下界查询都基于相同的基本元组集生成；在数据查询过程中，等价查询集是动态生成的；利用数学集合论中凸集性质和格理论，通过等价查询集的上界和下界的特点能推导出更多等价的查询；利用等价查询集来提升数据集合论库查询的效率。若新的查询能找到它所匹配的等价查询集，则直接返回查询结果；否则，在原始数据库中进行查询后返回结果，同时更新等价查询集。在用户的历史查询数据中找到符合等价查询集定义的数据，并依照等价查询集建模的定义，用这种形式进行存储，保存其上下界、结果集和统计信息；当有新的查询进来时，首先在等价查询集中去匹配，看新的查询和等价查询集上下界的关系，如果满足包含或等价关系，则证明在这个等价结果集中，就可以直接用已经存的结果集去返回新查询的结果。这样，解决了存在SQL查询不等价但结果相等的问题，从而能回答更多查询；解决查询是否存在真包含关系的问题；节省大量存储空间。本发明基于代数格、集合论等理论和查询优化等技术，研究和实现数据库查询的关系建模，在历史查询负载中，依据查询、子查询或算子间的包含或等价且结果相等的关系形成等价查询集，通过等价查询集的特点：其具有凸集性质；包含上、下界视图或查询；上下界视图或查询结果相等，来快速响应用户提交的新查询。理论上证明，该建模方法可以发现更多等价或包含的数据库查询，从而减少更多重复计算。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种减少重复计算的数据库查询关系建模方法，其特征在于，包括如下步骤：

step6、将可回答查询的查询结果用等价查询集的结果返回；

step8、将可回答查询的查询结果和剩余查询的查询结果合并，返回给用户；将完全不能回答查询的查询结果返回给用户；同时，动态更新等价查询集；

step1所述等价查询集的形成为：历史查询负载中多个视图或查询中包含或等价且结果相等的视图或查询构成；

step1中所述等价查询集的建立为：

EQ＝<Q_u,Q_l,Res,Stat>

所述的等价查询集具有凸集的性质，即给定查询Q，等价查询集EQ，满足则Q≡Q_u≡Q_l。