CN109710700A

CN109710700A - 一种olap语义缓存方法

Info

Publication number: CN109710700A
Application number: CN201811395559.3A
Authority: CN
Inventors: 游进国; 易振睿
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-05-03
Anticipated expiration: 2038-11-22
Also published as: CN109710700B

Abstract

本发明提出了一种OLAP语义缓存方法，属于数据挖掘和数据分析领域。本发明步骤包括：通过用户提交的查询数据分析用户查询模式；数据先在具有语义的缓存中查询结果，如果不命中则在底层的数据库中查询结果；利用在数据库中查询到的结果动态生成缓存项；在缓存项生成的同时还对其进行分析，以期推导出潜在的数据单元；依据缓存项的响应能力，设置合理的缓存替换策略，保留一定数量的缓存项在内存中；设置合理的索引以提高检索速度。本发明能够在保留语义的前提下压缩缓存项中的数据，并且能动态地更新缓存项，结合用户的查询模式和缓存项的响应能力为缓存替换策略提供事实依据，能有效改善响应时间并提高命中率。

Description

一种OLAP语义缓存方法

技术领域

本发明涉及一种OLAP语义缓存方法，是一种计算机数据缓存技术，属于数据挖掘和数据分析领域。

背景技术

随着信息技术的发展和移动通信的普及，产生的数据呈指数级增长。如何处理、分析、利用这些数据成为信息科学领域的热门话题。

OLAP(联机分析处理)技术是解决这一问题的一种方式，它包括数据清理、数据集成、数据变换。OLAP工具能对不同粒度的多维数据进行交互分析，进而泛化数据和分析数据。常见的关联、分类、预测和聚类等数据分析手段都能和OLAP操作相结合。数据立方体是OLAP技术中的一种重要的数据模型，不同于关系型数据库的二维表，数据立方体能表达多维数据之间的关系。在“大数据”的背景下，操作和分析数据立方体都面临着许多挑战。为了更加高效的操作和分析数据立方体，学术界已经提出了一系列诸如冰山立方体、封闭立方体、商立方体等数据立方体的压缩以及物化模型。

一个设计良好的OLAP系统需要考虑很多方面，其中缓存的设计是关键的环节。按照缓存对象的不同可分为：页面缓存、元组缓存、语义缓存。页面缓存管理的对象是页面，数据粒度比较大。S.Dar等(Semantic Data Caching and Replacement,Proc.VLDB Conf.,pp.330-341,1996.)指出页面缓存是基于缺页的，丢失的页面不是预先确定的，而是在查询处理过程中从服务器请求它们。因此，频繁地在客户端和服务器之间传输页面会带来较大通信开销。元组缓存管理的数据粒度小，但会导致较大内存开销。语义缓存的客户端不仅会保存查询结果，还会维护查询结果对应的SQL谓词的语义关系，因此，只需要比较缓存项与查询数据对应的SQL谓词的连接词的析取就能判断是否能被命中。Q Ren等(Semanticcaching and query processing[J].IEEE Trans on Knowledge and Data Engineering,2003,15(1):192–210.)提出了基于SQL语句中Where子句的语义缓存模型，它通过分析缓存项与查询数据的SQL谓词的关系来确定缓存是否能部分回答、完全回答或不能回答查询数据。但该方法忽视OLAP环境下适应性，以及缓存系统应当具有数据压缩的功能。

发明内容

为解决上述问题，本发明提供一种OLAP语义缓存方法，在大批量查询数据时改善缓存系统的命中率和响应时间。

本发明采用的技术方案是：一种OLAP语义缓存方法，包括如下步骤：

Step1加载用户提交的查询数据集并分析用户的查询模式，具体为计算查询数据集中每条查询数据的频率；

Step2在缓存中查询结果，先通过建立的索引找到相关等价类，比较查询数据和等价类上下界的关系，判断等价类能否响应查询数据；索引的建立是依据等价类中下界的层号建立的，即索引号为等价类中下界的层号，下界的层号为下界数据单元中不等于*的个数，能够响应查询数据的等价类的索引号小于或等于该查询数据中不等于*的个数，找到相关的等价类后再比较查询数据和其上下界的关系，判断等价类能否响应查询数据，如果某个等价类的下界能覆盖到查询数据上，且查询数据能覆盖到该等价类的上界，则该等价类能响应查询数据。覆盖的定义为，设有数据单元u和数据单元v，对于两者中任意相同位置的u_i和v_i如果满足(a)u_i≠*，且u_i＝v_i，(b)u_i＝*，v_i为任意内容，则数据单元u覆盖数据单元v。

Step3如果能响应查询数据，则执行Step 9，否则继续执行Step 4-Step 8；

Step4在底层数据库中查询到结果；

Step5利用在数据库返回的结果，动态地生成或更新等价类；假设某个等价类E的上下界均由数据单元c构成，如果查询数据q和等价类E的度量值相同，则判断两者之间是否存在上卷或者下钻关系，如果不存在则生成新的等价类，如果存在则对等价类E进行更新，包括4种类型：①查询数据q被等价类E的上界覆盖，此时用查询数据q代替等价类E的上界的数据单元c；②查询数据q覆盖等价类E的上界，但不被等价类E的下界覆盖，此时在等价类E中增加一个由查询数据q构成的下界；③等价类E的下界覆盖查询数据q，但查询数据q不覆盖等价类E的上界，此时在等价类E中增加一个由查询数据q构成的上界；④查询数据q覆盖等价类E的下界的，此时用查询数据q代替等价类E的下界数据单元c。

Step6分析等价类中数据单元的特点，利用已知的数据单元来推导出潜在的数据单元；在等价类中，将多个上界推导出一个共同的上界，推导完的等价类会形成一个上界和多个下界。

Step7根据等价类是凸集的性质和集合的容斥原理，评估等价类的响应能力；响应能力计算如下：

①一个等价类中只有一个上界和一个下界，其响应能力为：

Ca＝2^|lu-ll|

其中lu表示上界的层号，ll表示下界的层号；

②一个等价类中有一个上界和多于一个的下界，等价类中数据单元出现交集，

c₁＝{(d₁₁,d₁₂,...d_1i...,d_1n)}

c₂＝{(d₂₁,d₂₂,...d_2i...,d_2n)}

c₁∩c₂＝{(d₁,...d_i...,d_n)|d_i取d_1i和d_2i中不为*的}

根据集合的容斥原理来计算其响应能力：

Step8依据用户查询模式和响应能力，决定哪些等价类保留在缓存中；设缓存中数据单元的最大个数为k，有r个等价类，对于任意等价类S_i，f(S_i)表示等价类的用户查询模式即频率，S_z(S_i)表示其包含的数据单元的个数，Ca(S_i)表示其响应能力，当缓存中数据单元超过k时就需要淘汰等价类，使得保留下的等价类的Ca(S_i)·f(S_i)值为当前状态下较大的，对应目标函数如下：

其中x_i为0-1函数，表示等价类S_i是否在缓存中。

Step9返回查询数据的结果。

本发明的有益效果是：

利用商立方体能保留语义和压缩数据的性质，在缓存生成和更新过程中既能保证内存中数据单元数量较少，又能保证能响应更多的查询项。由于用户提交地查询在一定程度上能反应用户思考的过程，因此预先分析用户的查询模式，能保证用户经常查询的数据能保留在缓存中，使得在下一次查询时直接响应。分析缓存项内部数据单元之间的关系，能利用已知的数据单元推导出潜在的数据单元。依据缓存项(等价类)是凸集的性质以及集合的容斥原理，能评估出缓存项的响应能力。为了提高查询数据的速度，按照查询项和缓存项的特点建立了合理的索引。

附图说明

图1是本发明一种基于商立方体的OLAP缓存方法的总体流程图；

图2是本发明中商立方体数据模型的一个实例，虚线圈出的为等价类；

图3是本发明中更新缓存项的示意图；

图4是本发明中由已知数据单元推导潜在数据的示意图；

图5是本发明与传统的LRU和LFU算法的实验对比图，输入不重复的查询数据，缓存大小设置9,000，分别对比命中率和响应时间。

图6是本发明与传统的LRU和LFU算法的实验对比图，输入不重复的查询数据，缓存大小设置为无限大，分别对比命中率和压缩率。

图7是本发明与传统的LRU和LFU算法的实验对比图，缓存大小设置为8,000，查询数据固定为30,000条，横坐标为查询数据中重复数据的占比，分别对比命中率和响应时间。

具体实施方式

为了更详细的描述本发明和便于本领域人员的理解，下面结合附图以及实施例对本发明做进一步的描述，本部分的实施例用于解释说明本发明，便于理解的目的，不以此来限制本发明。

实施例1：如图1所示，一种OLAP语义缓存方法，包括如下步骤：

Step1加载用户提交的查询数据集并分析用户的查询模式，具体为计算查询数据集中每条查询数据的频率；设用户提交的查询数据集为：

{q₁(s₁,p₁,t₁:0),q₂(s₁,p₂,t₁:0),q₃(s₂,p₁,t₂:0),q₄(s₁,p₁,*:0),q₅(s₁,*,t₁:0),q₆(*,p₁,t₁:0),q₇(s₁,p₂,*:0),q₈(*,p₂,t₁:0),q₉(s₂,p₁,*:0),q₇(s₁,p₂,*:0),q₁₀(s₂,*,t₂:0),q₃(s₂,p₁,t₂:0),q₁₁(*,p₁,t₂:0),q₁₀(s₂,*,t₂:0),q₁₂(s₁,*,*:0),q₁₃(*,p₁,*:0),q₃(s₂,p₁,t₂:0),q₁₄(*,*,t₁:0),q₇(s₁,p₂,*:0),q₁₅(*,p₂,*:0),q₁₆(s₂,*,*:0),q₁₀(s₂,*,t₂:0),q₁₄(*,*,t₁:0),q₇(s₁,p₂,*:0),q₁₇((*,*,t₂:0))。这里的每一条查询数据都会对应到一条SQL语句上。假设有一个含有3个维度(D₁，D₂，D₃)，一个度量值(M)的关系表R。那么，q₁对应的SQL语句为select sum(M)from R where D₁＝s₁and D₂＝p₁and D₃＝t₁；q₈对应的SQL语句为select sum(M)from R where D₂＝p₂and D₃＝t₁。分号后面的0表示度量值，由于是查询数据，度量值未知，因此用0表示。

分析用户查询模式：该查询数据集中共有25条查询数据，计算查询数据的频率：

f(q₁(s₁,p₁,t₁:0))＝0.04；f(q₂(s₁,p₂,t₁:0))＝0.04；f(q₃(s₂,p₁,t₂:0))＝0.12；f(q₄(s₁,p₁,*:0))＝0.04；

f(q₅(s₁,*,t₁:0))＝0.04；f(q₆(*,p₁,t₁:0))＝0.04；f(q₇(s₁,p₂,*:0))＝0.16；f(q₈(*,p₂,t₁:0))＝0.04；

f(q₉(s₂,p₁,*:0))＝0.04；f(q₁₀(s₂,*,t₂:0))＝0.12；f(q₁₁(*,p₁,t₂:0))＝0.04；f(q₁₂(s₁,*,*:0))＝0.04；

f(q₁₃(*,p₁,*:0))＝0.04；f(q₁₄(*,*,t₁:0))＝0.08；f(q₁₅(*,p₂,*:0))＝0.04；f(q₁₆((s₂,*,*:0))＝0.04；

f(q₁₇((*,*,t₂:0))＝0.04.

Step2在缓存中查询结果，先通过建立的索引找到相关等价类，比较查询数据和等价类上下界的关系，判断等价类能否响应查询数据；索引的建立是依据等价类中下界的层号建立的，即索引号为等价类中下界的层号，下界的层号为下界数据单元中不等于*的个数，能够响应查询数据的等价类的索引号小于或等于该查询数据中不等于*的个数，例如，如图2所示，假设缓存中有C₁、C₂、C₃、C₄、C₅共5个缓存项。其中，C₁的索引号为2，C₂、C₃、C₄、C₅的索引号为1，查询数据q₁₇的维度中非星号的个数为1，因此，可以直接从索引号为1的缓存项进行查询匹配。找到相关的等价类后再比较查询数据和其上下界的关系，判断等价类能否响应查询数据，如果某个等价类的下界能覆盖到查询数据上，且查询数据能覆盖到该等价类的上界，则该等价类能响应查询数据。覆盖的定义为，设有数据单元u和数据单元v，对于两者中任意相同位置的u_i和v_i如果满足(a)u_i≠*，且u_i＝v_i，(b)u_i＝*，v_i为任意内容，则数据单元u覆盖数据单元v。假设内存中有一个缓存项C＝{(s₂,p₁,t₂:30),(s₂,*,*:30),(*,*,t₂:30)}，则能直接响应查询数据q₃,q₉,q₁₀,q₁₁,q₁₆,q₁₇，获得它们的度量值为30。因为等价类具有保留语义和压缩数据的作用，只需要在内存中保留较少的数据单元，就能响应较多的查询数据。

Step3如果能响应查询数据，则执行Step 9，否则继续执行Step 4-Step 8。

Step4在底层数据库中查询到结果；如果不能在缓存中命中，则需要到数据库中查询结果，由数据库返回度量值。

Step5利用在数据库返回的结果，动态地生成或更新等价类；在动态更新缓存项时存在5种情况，如图3(b)-3(f)所示。假设某个等价类E的上下界均由数据单元c构成，，如图3(a)所示。查询数据q在数据库获得度量值后用来更新缓存，如果查询数据q和等价类E的度量值相同，则判断两者之间是否存在上卷或者下钻关系，如果不存在则生成新的等价类，如图3(f)所示。如果存在则对等价类E进行更新，包括4种类型：①查询数据q被等价类E的上界覆盖，此时用查询数据q代替等价类E的上界的数据单元c，如图3(b)所示；②查询数据q覆盖等价类E的上界，但不被等价类E的下界覆盖，此时在等价类E中增加一个由查询数据q构成的下界，如图3(c)所示；③等价类E的下界覆盖查询数据q，但查询数据q不覆盖等价类E的上界，此时在等价类E中增加一个由查询数据q构成的上界，如图3(d)所示；④查询数据q覆盖等价类E的下界的，此时用查询数据q代替等价类E的下界数据单元c，如图3(e)所示。这种动态更新缓存项的过程能在保留缓存项语义的同时还起到压缩数据的作用。

Step6分析等价类中数据单元的特点，利用已知的数据单元来推导出潜在的数据单元；在等价类中，可以利用较泛化地单元推导出较特殊地单元，多个上界一定能推导出一个共同的上界，这样不仅能减少缓存中数据单元的数量，还能提高查询的命中率，如图4所示，已知一个等价类中有(s₂,*,*)和(*,*,t₂)两个数据单元，可以推导出一定存在数据单元(s₂,*,t₂)。推导完的等价类会形成一个上界、多个下界的情况，这为Step7中评估等价类的响应能力提供基础。

①一个等价类中只有一个上界和一个下界，其响应能力为：

Ca＝2^|lu-ll|(1)

其中lu表示上界的层号，ll表示下界的层号；如图2所示，等价类C₂由上界(s₁,p₂,t₁:20)和下界(*,p₂,*:20)构成，由公式(1)可得响应能力Ca为4。

c₁＝{(d₁₁,d₁₂,...d_1i...,d_1n)}

c₂＝{(d₂₁,d₂₂,...d_2i...,d_2n)}

c₁∩c₂＝{(d₁,...d_i...,d_n)|d_i取d_1i和d_2i中不为*的}

例如，(s₂,*,*:30)和(*,*,t₂:30)的交集为(s₂,*,t₂:30)。如果单纯的按照公式(1)来计算等价类的响应能力会计算到重复的数据单元，因此需要根据集合的容斥原理来计算，集合容斥原理的计算公式如下：

如图2等价类C₃中上界为(s₂,p₁,t₂:30)，下界为(s₂,*,*:30)和(*,*,t₂:30)，它们能构成2个集合m₁:{(s₂,p₁,t₂:30):(s₂,*,*:30)}，m₂:{(s₂,p₁,t₂:30):(*,*,t₂:30)}。计算响应能力的过程如下：

m₁∩m₂＝{(s₂,p₁,t₂:30):(s₂,*,t₂:30)}

Ca＝|m₁|+|m₂|-|m₁∩m₂|＝2^|3-1|+2^|3-1|-2^|3-2|＝6

Step8依据用户查询模式和响应能力，决定哪些等价类保留在缓存中；内存空间是有限的资源，需要在保证命中率的同时，设计合理的缓存替换策略，通过分析用户查询模式和计算等价类的响应能力能为缓存替换提供事实依据。设缓存中数据单元的最大个数为k，有r个等价类，对于任意等价类S_i，f(S_i)表示等价类的用户查询模式即频率，S_z(S_i)表示其包含的数据单元的个数，Ca(S_i)表示其响应能力，当缓存中数据单元超过k时就需要淘汰等价类，使得保留下的等价类的Ca(S_i)·f(S_i)值为当前状态下较大的，对应目标函数如下：

其中x_i为0-1函数，表示等价类S_i是否在缓存中。

Step9返回查询数据的结果，最终从缓存或数据库返回查询数据的度量值。

实施例2：本实施例中按照实施例1中的方法进行了实验，同时和传统的LRU和LFU算法进行比较，总共设计了3组对比实验。实验的关系表为购物篮数据集Food Mart，取其中的10个维度，1个度量值，聚集函数为SUM。如图5所示，本组实验中输入的查询数据均为不重复的，缓存大小设置为9,000，由于SOC_MaxCa算法存在语义，在查询不重复的数据时，依然能够命中，并且在响应时间上能够优于LRU和LFU算法。如图6所示，为了体现出SOC_MaxCa算法能够压缩数据的特性，输入查询数据均为不重复的且缓存大小设置为无限大，可以看出，随着查询数据的增多，数据的压缩率不断增大，并且命中率没有随着压缩率的增大而降低。如图7所示，对比了查询数据有重复时的命中率和响应时间，缓存大小设置为8,000，SOC_MaxCa算法相对于LRU和LFU算法，在命中率和响应时间上均具有较大优势。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种OLAP语义缓存方法，其特征在于：包括如下步骤：

Step2在缓存中查询结果，先通过建立的索引找到相关等价类，比较查询数据和等价类上下界的关系，判断等价类能否响应查询数据；

Step4在底层数据库中查询到结果；

Step5利用在数据库返回的结果，动态地生成或更新等价类；

Step6分析等价类中数据单元的特点，利用已知的数据单元来推导出潜在的数据单元；

Step7根据等价类是凸集的性质和集合的容斥原理，评估等价类的响应能力；

Step8依据用户查询模式和响应能力，决定哪些等价类保留在缓存中；

Step9返回查询数据的结果。

2.根据权利要求1所述的OLAP语义缓存方法，其特征在于：所述Step2中索引的建立是依据等价类中下界的层号建立的，即索引号为等价类中下界的层号，下界的层号为下界数据单元中不等于*的个数，能够响应查询数据的等价类的索引号小于或等于该查询数据中不等于*的个数，找到相关的等价类后再比较查询数据和其上下界的关系，判断等价类能否响应查询数据，如果某个等价类的下界能覆盖到查询数据上，且查询数据能覆盖到该等价类的上界，则该等价类能响应查询数据。

3.根据权利要求2所述的OLAP语义缓存方法，其特征在于：所述覆盖的定义为，设有数据单元u和数据单元v，对于两者中任意相同位置的u_i和v_i如果满足(a)u_i≠*，且u_i＝v_i，(b)u_i＝*，v_i为任意内容，则数据单元u覆盖数据单元v。

4.根据权利要求1所述的OLAP语义缓存方法，其特征在于：所述Step5的具体过程为：假设某个等价类E的上下界均由数据单元c构成，如果查询数据q和等价类E的度量值相同，则判断两者之间是否存在上卷或者下钻关系，如果不存在则生成新的等价类，如果存在则对等价类E进行更新，包括4种类型：①查询数据q被等价类E的上界覆盖，此时用查询数据q代替等价类E的上界的数据单元c；②查询数据q覆盖等价类E的上界，但不被等价类E的下界覆盖，此时在等价类E中增加一个由查询数据q构成的下界；③等价类E的下界覆盖查询数据q，但查询数据q不覆盖等价类E的上界，此时在等价类E中增加一个由查询数据q构成的上界；④查询数据q覆盖等价类E的下界的，此时用查询数据q代替等价类E的下界数据单元c。

5.根据权利要求1所述的OLAP语义缓存方法，其特征在于：所述Step6的具体过程为：在等价类中，将多个上界推导出一个共同的上界，推导完的等价类会形成一个上界和多个下界。

6.根据权利要求1所述的OLAP语义缓存方法，其特征在于：所述Step7中等价类的响应能力计算如下：

①一个等价类中只有一个上界和一个下界，其响应能力为：

Ca＝2^|lu-ll|

其中lu表示上界的层号，ll表示下界的层号；

c₁＝{(d₁₁,d₁₂,...d_1i...,d_1n)}

c₂＝{(d₂₁,d₂₂,...d_2i...,d_2n)}

c₁∩c₂＝{(d₁,...d_i...,d_n)|d_i取d_1i和d_2i中不为*的}

根据集合的容斥原理来计算其响应能力：

7.根据权利要求1所述的OLAP语义缓存方法，其特征在于：所述Step8的具体过程如下：设缓存中数据单元的最大个数为k，有r个等价类，对于任意等价类S_i，f(S_i)表示等价类的用户查询模式即频率，S_z(S_i)表示其包含的数据单元的个数，Ca(S_i)表示其响应能力，当缓存中数据单元超过k时就需要淘汰等价类，使得保留下的等价类的Ca(S_i)·f(S_i)值为当前状态下较大的，对应目标函数如下：

其中x_i为0-1函数，表示等价类S_i是否在缓存中。