CN114020754A - 一种数据立方体的非层次数据结构摘要方法 - Google Patents
一种数据立方体的非层次数据结构摘要方法 Download PDFInfo
- Publication number
- CN114020754A CN114020754A CN202111439382.4A CN202111439382A CN114020754A CN 114020754 A CN114020754 A CN 114020754A CN 202111439382 A CN202111439382 A CN 202111439382A CN 114020754 A CN114020754 A CN 114020754A
- Authority
- CN
- China
- Prior art keywords
- rectangle
- data
- alpha
- data cube
- rectangles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 230000000717 retained effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000013144 data compression Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了数据立方体的非层次数据结构摘要方法,包括以下步骤:获取数据立方体D;将数据摘要任务转换为非层次数据结构摘要问题,即用带有误差边界的矩形区域覆盖数据立方体,并使摘要大小最小化;从数据立方体D中提取一组α近似矩形的集合C,并确保C包含非层次数据结构摘要问题的最优解,获得数据立方体D中每个位置(i,j)的边界Fij;从集合C中选择α近似矩形以贪心算法的方式覆盖数据立方体D,并使用基于堆的优化来提高效率;使用最优的近似矩形来表示数据立方体。本发明摘要规模较小,运行时间较短,解决了现有的数据摘要方法需要预先设定数据多维度层次结构的问题。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种数据立方体的非层次数据结构摘要方法。
背景技术
数据立方体在气象学、销售和人口统计学等领域无处不在,而数据摘要能够压缩多维数据立方体,并提供观察数据的不同视角,是一项重要的服务。现有的数据摘要方法需要预先设定的数据多维度的层次结构,而许多类型的数据(例如,降雨和温度)并不存在这种结构。
多维数据立方体广泛用于存储多属性维度的数据,例如气象数据的位置和时间维度,销售数据的位置和产品等维度,人口统计数据的地点、年龄和性别维度。如图1所示,数据立方体在其维度上定义的网格中包含许多记录。数据立方体可能非常大,这使得存储和分析变得困难。例如,欧洲中期天气预报中心(ECWMF)已经积累了270PB气象数据。
数据摘要将数据立方体划分为多个区域,并为数据压缩和挖掘数据信息提供每个区域中记录的近似值。例如,在图2中,具有相同颜色的记录被分配到同一区域,并通过该区域右下角的值进行近似。压缩是通过只存储数据摘要来实现的,它只有5条记录(每条记录一个区域),而不是原始数据立方体的25条记录。摘要还确保同一区域的记录取相似的值,最坏情况的近似误差为1。因此,摘要提供了有关数据的洞察,例如,该区域的左侧部分具有相似的温度(具有相同的颜色)和该区域右下方的温度变化迅速(有3个小的摘要区域)。一些研究还使用数据摘要来有效地回答OLAP查询。
许多研究已经研究了数据立方体的摘要,因为它支持数据压缩和洞察发现。根据它们能否准确重建原始数据立方体,可分为无损方法和有损方法。有损方法更受欢迎,因为它们的摘要大小较小。现有数据摘要算法的一个问题是它们需要预先假定的属性维度层次结构。例如,在图3中,产品维度有2层层次结构,可以在第一层展开为服装和食物,然后服装在第二层进一步扩展为夹克和长裤。现有方法依赖于预设的层次结构来构建数据摘要。例如,(曼哈顿区,服装)可以通过合并夹克和长裤被汇总为一个区域。然而,许多类型的数据,如温度、降雨量、湿度等,并没有预先假定的层次结构,因为它们的维度没有明显的语义(如经度、纬度和时间)。相反,数据摘要应该有助于发现层次结构来回答诸如哪个地区降雨量相似以及温度相似的时间段等问题。
无损摘要方法确保可以从摘要中准确地恢复原始数。Lakshmanan等人使用商立方体来对数据立方体进行摘要,同时保留上卷和下钻操作的语义。Sismanis等人设计了一个名为Dwarf的结构,它识别重复的前缀和后缀并将它们组合起来进行压缩。王等人提出了浓缩数据立方体方法,它将多个元组压缩为一个而不会丢失信息。
为了使摘要规模更小,一些方法进行有损摘要,其中从摘要重建的记录可能与原始记录不同。有损摘要的一个重要方面是它是否允许控制原始记录和重建记录之间的误差阈值。据我们所知,现有的有损摘要方法都依赖于数据立方体维度的层次结构。
Agarwal等人考虑了具有误差保证的一维数据的摘要。他们为维度层次结构(如图3所示的树)的不同级别的节点分配权重,并通过其所有祖先的权重之和来近似记录。K算法将Agarwal的算法扩展到具有矩阵运算的二维数据。原始数据立方体表示为多个矩阵的加权和。但是,K不能提供最坏情况误差保证。CA算法总结了一个数据立方体在两个时间点上的变化,以识别两个时间点间较大的差异。它首先使用所有维度的层次结构的笛卡尔积构造一个数组(例如,图3中的商品和商店维度)。数组中每个元素的权重是两个时间点差值的绝对值。CA选择权重最大的k个非重叠数组元素作为数据汇总。因此,CA算法允许明确控制摘要大小而不是最坏情况下的误差。TS算法还构建了维度层次结构的笛卡尔积作为第一步。树结构源自笛卡尔积,其中每个节点聚合维度层次结构中的一些属性。例如,图3中的夹克和长裤属性由节点服装聚合。在第一步中,TS将每个内部节点的权重分配为在其子节点中出现频率最高的值。在第二步中,TS通过选择第一步中所做的注释来生成摘要。然而,由TS生成的摘要可能包括差距很大的矩形,这不适合某些分析任务,例如识别具有相似降雨量的连续区域。
除了用近似值对数据立方体摘要之外,一些研究还考虑了其他数据摘要任务。ElGebaly等人研究了采用二进制值的多维数据的构建摘要。Guoyao等人为多维数据开发了一个可扩展的信息规则挖掘程序。一些方法不是摘要记录值,而是使用最小描述长度(MDL)原则来汇总覆盖查询结果的分层区域,以支持对多维数据立方体的OLAP查询。Wen等人实现了一个系统,用于汇总OLAP查询的数据。
发明内容
现有的数据摘要方法需要预先设定的数据多维度的层次结构,而许多类型的数据并不存在这种结构。有鉴于此,本发明首先定义了非层次化数据结构摘要(NHDS)问题,即使用带有误差边界的矩形区域覆盖数据立方体,并使摘要大小最小化。然后证明了NHDS问题是NP难,并设计了Mark and Select(MS)算法来寻找一个近似解。MS首先识别出符合条件的矩形,然后在矩形中选择覆盖数据立方体。为了提高效率,本发明证明了只需要计算出部分合格的矩形区域就可以求解,并设计了一种程序来避免检查对结果没有影响的矩形,利用子模块性来节省矩形选择过程中不必要的计算。我们在真实数据集和合成数据集上进行了实验。结果表明,MS在摘要大小、误差和运行时间方面显著优于最先进算法。
本发明公开的数据立方体的非层次数据结构摘要方法,包括以下步骤:
获取数据立方体D,所述数据立方体存储多属性纬度的数据;
将数据摘要任务转换为非层次数据结构摘要问题,即用带有误差边界的矩形区域覆盖数据立方体,并使摘要大小最小化;
从数据立方体D中提取一组α近似矩形的集合C,并确保C包含非层次数据结构摘要问题的最优解,获得数据立方体D中每个位置(i,j)的边界Fij;
从集合C中选择α近似矩形以贪心算法的方式覆盖数据立方体D,并使用基于堆的优化来提高效率;
使用最优的α近似矩形来表示数据立方体。
进一步的,层次数据结构摘要问题的公式表示如下:
进一步的,α近似矩形的确定步骤如下:从近似矩形的每一个记录dij出发,通过将其位置(i,j)作为矩形的左下角坐标,扩展出α相似矩形,对于左下角为(i,j)右上角为(a,b)的矩形R,如果满足
则该矩形为α相似矩形。
进一步的,使用所述α近似矩形作为数据摘要的基本单位,允许不同的α近似矩形重叠。
进一步的,近似矩形中包含记录dij,将α近似矩形的键定义为c×a1+b1,其中c是常数,[a1,b1]是矩形的左下点,并预先根据记录的键对α近似矩形进行排序。
进一步的,所述确保C包含非层次数据结构摘要问题的最优解,获得数据立方体D中每个位置(i,j)的边界Fij包括:
对于每一个位置(i,j),记录了边界Fij中所有边界α相似矩形的右上角,Fij初始值为(i,j)本身;
对于每个位置(i,j),使用初始Fij作为起点,从中扩展α相似矩形;
当完成一个位置的扩展后,只保留它的边界,同时使用位置(i,j)的边界Fij更新位置(i+1,j)和(i,j+1)的扩展种子,以降低后面扩展的复杂性。
进一步的,所述扩展α相似矩形的步骤如下:
如果不能将REC(i,j,a,b)扩展为更大的α相似矩形,则返回(a,b)作为最远点;否则,扩展将继续扩展到更大的α相似矩形矩形。
进一步的,所述堆的优化步骤如下:
使用大根堆管理候选α相似矩形,相似矩形的分数被初始化,计数器记录相似矩形的分数在哪次迭代中最后更新;
在每次迭代中,从堆中弹出一个矩形并检查其分数是否更新到当前迭代,如果检查通过,则将矩形添加到结果集S;如果检查失败,更新元组的分数和计数器并将其再次推入堆中。
进一步的,所述以贪心算法的方式如下:
在每次迭代中选择一个矩形Rk添加到结果S中,矩形Rk对当前结果S的贡献定义为sk=V(S∪Rk)-V(S),并在每一次迭代选择具有最大贡献的矩形,其中价值V(S)为S中所包含矩形区域的数据单元的数量,价值V(S∪Rk)为S∪Rk中所包含矩形区域的数据单元的数量。
本发明的有益效果如下:
本发明摘要规模较小,运行时间较短,解决了现有的数据摘要方法需要预先设定数据多维度层次结构的问题。
附图说明
图1摘要前一片区域的温度;
图2摘要后一片区域的温度;
图3层次化数据的说明;
图4本发明的非层次数据结构摘要方法流程图;
图5一个位置的边界图;
图6基于堆的贪心选择的说明;
图7温度数据集小样本中最坏误差与摘要规模之间的关系;
图8湿度数据集小样本中最坏误差与摘要规模之间的关系;
图9合成数据集小样本中最坏误差与摘要规模之间的关系;
图10温度数据集小样本中运行时间与摘要规模之间的关系;
图11湿度数据集小样本中运行时间与摘要规模之间的关系;
图12合成数据集小样本中运行时间与摘要规模之间的关系;
图13温度数据集小样本中算法摘要后规模与数据规模的关系;
图14湿度数据集小样本中算法摘要后规模与数据规模的关系;
图15合成数据集小样本中算法摘要后规模与数据规模的关系。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
如图4所示,本发明公开的数据立方体的非层次数据结构摘要方法,包括以下步骤:
获取数据立方体D,所述数据立方体存储多属性纬度的数据;
将数据摘要任务转换为非层次数据结构摘要问题,即用带有误差边界的矩形区域覆盖数据立方体,并使摘要大小最小化;
从数据立方体D中提取一组α近似矩形的集合C,并确保C包含非层次数据结构摘要问题的最优解,获得数据立方体D中每个位置(i,j)的边界Fij;
从集合C中选择α近似矩形以贪心算法的方式覆盖数据立方体D,并使用基于堆的优化来提高效率;
使用最优的α近似矩形来表示数据立方体。
以下详细描述本发明的步骤。首先本发明正式定义了非层次化数据结构摘要(NHDS)问题。本实施例只描述了二维情况,因为扩展到更高维度的过程很简单,本实施例对此不作限制。
对于一个二维数据立方体D={dij},1≤i≤m,1≤j≤n(即m*n大小的数据立方体),其中每一个元素dij∈D记录了一个数据单元(例如某地区的降雨量或温度)。我们定义数据立方体中一个矩形区域为R=REC(a1,b1,a2,b2),其中1≤a1≤a2≤m,1≤b1≤b2≤n。(a1,b2)是矩形区域的左下角,(a2,b2)是右上角。我们说dij∈R当且仅当i∈[a1,a2],j∈[b1,b2]。如果存在一个值w满足则我们称R是α近似矩形。
NHDS问题是尽可能简洁地将数据立方体总结成α近似矩形。本发明给出它的形式定义如下。
本发明使用α近似矩形作为数据摘要的基本单位,因为它符合我们的数据压缩和洞察发现的目标。α近似矩形提供了一个近似度的门限,当dij∈R时,w用于记录近似后的数值,如果我们使用小的α,则误差也会较小。同一α近似矩形中的记录有因此,α近似矩形是具有相似记录值的连续区域,例如,具有相似降雨量的区域和具有相似温度的海洋区域。将数据立方体摘要为α近似矩形提供了有关气象学和海洋学等领域数据的深入了解。例如,可以识别具有相似记录值的连续区域。此外,还可以观察记录在哪些区域是稳定的(该区域由面积大的α近似矩形覆盖)以及在哪些区域记录变化迅速(该区域由面积小的α近似矩形覆盖)。
请注意,在NHDS问题中,本发明允许不同的α近似矩形重叠。当记录dij被覆盖它的任何α近似矩形近似时,这仍然保留了α误差界限。此外,每个α近似矩形仍然是具有相似记录的连续区域。相比之下,对于TS算法,矩形可以包含具有非常不同值的记录。有了α近似矩形的集合S,我们可以在不检查原始数据立方体的情况下快速查找记录的近似值。我们将α近似矩形的键定义为c×a1+b1(c>n是一个常数,[a1,b1]是矩形的左下点)并预先根据它们的键对α近似矩形进行排序。对于记录dij,我们可以使用二分查找找到键不大于c×i+j的α近似矩形,并检查它们是否包含dij按其键的降序排列。根据经验,我们观察到,当我们从右下点接近dij的矩形开始时,这个检查过程会很快终止。
定理1:NHDS问题是一个NP难的问题
证明:我们通过将NHDS问题简化为集合覆盖问题来证明定理1,集合覆盖问题是Karp的21个NP完全问题之一。给定一个误差阈值α,我们可以首先从数据立方体D中得到所有可行的α近似矩形的集合那么NHDS问题就等价于集合覆盖问题:每个记录dij是集合D中的一个元素,U中每个矩形Rk是D的子集,包含它的一些数据单元,NHDS问题是从U中选择最小数量的子集,使得D中的所有元素被覆盖。
由于无法在多项式时间内获得NHDS问题的精确解,本发明开发了一种名为Markand Select(MS,标记选择算法)的近似算法。
在这一部分,我们将我们的MS算法作为NHDS问题的解决方案。MS算法由两个阶段组成,即标记阶段和选择阶段。标记阶段从数据立方体D中提取一组α近似矩形的集合C,并确保C包含NHDS问题的最优解。选择阶段从C中选择α近似矩形以贪心算法的方式覆盖数据立方体D,并使用基于堆的优化来提高效率。
标记阶段:
在引入标记算法之前,我们讨论了NHDS问题的一些性质,并定义了一些关键概念。
根据性质1,在所有α近似矩形的边界找到NHDS的最优解就足够了。另外,边界F是保持此属性的最小基数集合。这是因为F已经满足了有或如果我们从F中移除一个矩形,那么必然会有一个矩形Rk∈U,我们不能在F中找到它的子集。因此,我们的标记算法是为了找到所有α相似矩形的边界F。为此,我们从每一个记录dij出发,通过将其位置(i,j)作为矩形的左下角坐标,扩展出α相似矩形。对于左下角为(i,j)右上角为(a,b)的矩形R,如果满足
则该矩形为α相似矩形。
对于一个位置(i,j),我们可以找到一个集合Uij包含很多由该位置扩展出来的α相似矩形。然而根据以上分析,对于每个位置,我们只需要保留Uij的边界Fij就足够了。如图5所示,当2α=1且初始位置为左下角时,实线矩形在边界集合中,因为它们在不违反误差门限的条件,不能够继续扩展。然而,虚线矩形不在边界集合中,因为它被实线矩形所包含。对于一个包含α相似矩形的集合Uij,我们可以使用算法1来找到边界Fij,其复杂度为O(|Uij|log(|Uij|))。在算法1当中,Ua[i]表示按矩形右上角x轴坐标ak降序排列时U中第i个右上角。Ua[i].b表示第i个右上角的y轴坐标。我们使用Fij=Reduce(Uij)来表示寻找Uij边界的过程。
算法1伪代码
较为简单的解决方案是从(i,j)原点出发去扩展寻找α相似矩形,因为REC(i,j,i,j)保证是α相似矩形。然而,下面的性质能够使我们通过(i-1,j)和(i,j-1)的扩展结果,从(a,b)开始(a>i,b>j),对(i,j)进行扩展。
性质2.如果R1=REC(i-1,j,a,b)或R2=REC(i,j-1,a,b)是一个α相似矩形,那么R=REC(i,j,a,b)也是一个α相似矩形。
算法2标记算法伪代码
输入:m行n列的2维数据立方体
输出:The frontier Fij for each record dij∈D
在算法2当中,对于每一个位置(i,j),我们记录了集合Fij中所有边界α相似矩形的右上角。Fij初始值为(i,j)本身。然后,对于每个位置(i,j),我们使用初始Fij作为起点(4-7行),从中扩展α相似矩形。当我们完成一个位置的扩展后,我们只保留它的边界(第9行)。使用位置(i,j)的边界Fij,我们还更新位置(i+1,j)和(i,j+1)的扩展种子,以降低后面扩展的复杂性。
算法3扩展算法伪代码Extend(i,j,a,b)
输入:The lower-left point(i,j)and extension start point(a.b)with a>=i and b>=j
输出:The frontier that can be extended for(i,j)from(a.b)
算法3以递归方式对位置(i,j以(a,b)为起点进行扩展。根据 函数Extend(i,j,a,b)检查R=REC(i,j,a,b)是否是α相似矩形,并在检查通过时返回true。Checked(a,b)用于记录我们之前是否对位置(i,j)在(a,b)位置进行了扩展(有可能在其他种子或者算法3的递归调用中使用了相同的种子)。如果我们不能将REC(i,j,a,b)扩展为更大的α相似矩形,则算法返回(a,b)作为最远点(第2-3行)。否则,扩展将继续扩展到更大的α相似矩形矩形(第4-9行)。
选择阶段:
在标记阶段,我们获得数据立方体D中每个位置(i,j)的边界Fij。我们将这些α相似矩形收集到一个候选集U=∪ijFij中,现在的问题是如何在U中选择一些矩形覆盖数据立方体D。为此,我们使用选择阶段并在介绍算法之前引入一些符号。
算法4贪婪α-loss矩形选择
输入:The set U=of{Rk}K k=1candidateα-loss rectangles
输出:A set S of a-loss rectangles covering all records in the datacube D
根据定义,当V(S)=m*n(数据立方体的规模)时,D中所有的数据单元都被覆盖。因此,一个直观的解决方法就是使用算法4去选择矩形。算法4采用贪心策略在每次迭代中选择一个矩形添加到结果S中。矩形Rk对当前结果S的贡献定义为sk=V(S∪Rk)-V(S),并在每一次迭代选择具有最大贡献的矩形。尽管很简单,算法4提供了理论保证,因为价值函数V(S)是子模性的,如以下定理所述。
1.对于任意S和R,V(S∪R)-V(S)>0
2.V(S∪R)-V(S)≥V(S′∪R)-V(S′)
由于子模块性,算法4提供的解决方案S满足以下性质。
算法5堆的延迟α-loss的矩形选择算法伪代码
输入:The set U={Rk}K k=1of candidate a-loss rectangles
输出:A set S of a-loss rectangles covering all records in D
定理3表明,算法4产生的解在每一步都实现了价值函数的较大值。这一证明来自价值函数的子模块性。然而,算法4的一个问题是它的高复杂性,因为它需要在每次迭代中计算所有矩形的分数sk。结合定理2中的性质2,我们设计了一个堆的延迟计算进行优化选择过程算法5,避免了算法4中不必要的分数计算。大根堆用于管理候选α相似矩形,矩形Rk的分数被初始化为其大小sk=mk*nk。计数器ck记录了Rk的分数在哪个迭代中最后更新。在每次迭代中,算法5从堆中弹出一个矩形并检查其分数是否更新到当前迭代。如果检查通过,则将矩形添加到结果集S;如果检查失败,我们更新元组的分数和计数器并将其再次推入堆中。在第i次迭代时,堆中的一些元组可能在第j次迭代中更新了过时的分数sk(j<i),但这不影响算法5的正确性。
图6为基于堆的贪心选择(延迟计算)的说明。元组(a,b)表示选择d个矩形时计算出的该矩形的得分为c。当前全局迭代计数为3,并且选择了堆顶部的元组,因为它的计数器也是3(这意味着分数是最新的)。但是,堆中可能存在分数过时的矩形。例如,(5,2)表示已经选择2个矩形时当前α近似矩形的计算得分为5,而(2,1)表示已经选择1个矩形时当前α近似矩形的计算得分为2。由于以下性质,算法5是正确的。
性质3在算法5的执行过程当中,将选择前i个矩形时的结果记为Si,Rk分数为sk[i]=V(Si∪Rk)-V(Si),根据定理2的性质2,我们有当j<i时,sk[i]≤sk[j]。将算法5选出的第i+1个矩形定义为Rl,它满足对于堆中的所有的Rk,sl[i]≥sk[j],因为Rl是堆顶元素。因此,对于堆中的所有矩形,我们有sl[i]≥sk[i]因为sl[i]≥sk[j]且sk[j]≥sk[i]。
实验评估:
本部分进行大量的实验来评估本发明的MS算法。实验使用了三个数据集,温度、湿度和合成数据。温度数据记录了2020年12月1日0:00的全球温度。数据集为两个维度,分别以经度和纬度为x轴和y轴。在两个轴的间距为0.25度的网格上测量温度,因此数据集有(360/0.25)*(180/0.25)=1,036,800记录。湿度数据包含2020年12月1日12点[0°E,180°E]和[0°N,90°N]的空气湿度。网格间距也是0.25度,因此数据集的大小为(180/0.25)*(90/0.25)=259,200。合成数据是根据1000个城市60年的降雨数据生成的。我们使用位置作为x轴,时间作为y轴,并随机生成每个月的测量值。因此,数据集的大小为1,000*60*12=720,000。
将本发明的MS算法与CA算法进行比较,因为这两种算法都使用包含相似记录的矩形来汇总数据立方体。我们没有与K和TS进行比较,因为它们的摘要可能包括包含非常不同记录的矩形,这可能不适合可视化和分析任务。例如,用不同的矩形进行摘要,就很难观察到具有相似温度或湿度的连续区域。由于CA需要每个轴上的层次结构,我们使用平衡二叉树手动为每个轴构建层次结构,该树使用网格上的点作为叶子,从而使CA能够生成任何形状和大小的矩形。由于CA需要输入中的正值和负值,我们将原始记录转换为比率,然后取对数。请注意,MS允许指定最坏的误差阈值(即α),而CA则不允许。
性能指标:我们使用摘要规模、运行时间和相似误差为主要性能指标。摘要大小是摘要中矩形的数量,而近似误差是数据记录与其由数据摘要提供的近似值之间的比率。我们关注最坏情况下的误差(即最大误差),因为它提供了一个误差阈值。为了计算记录的近似值,MS使用覆盖该记录的α近似矩形的关联的值w。在CA中,摘要节点的值是其叶节点的总和。因此,我们将摘要节点的值在其叶节点之间平均划分,以计算近似的数据结果。MS和CA都是使用Java8实现的。所有实验均在配备Intel Core i5-10200H 2.4GHz CPU和16GB内存的机器上进行。
摘要规模与最坏误差:我们比较了图7-图9中CA和MS的最坏误差。由于CA会在原始数据集上运行很长时间,因此我们对每个数据集有6000条记录的样本进行了此实验。结果表明,随着摘要大小的增加,两种算法的最坏误差趋于减少。在相同的摘要大小下,MS始终提供比CA更小的最坏误差。对于所有3个数据集,CA的最坏误差可能是MS的2倍以上。此外,MS的最坏误差随着摘要大小的增加也比CA减少得更快。对于湿度数据集,随着摘要大小的增加,CA的最坏误差几乎保持不变。MS在最坏误差方面优于CA,因为MS是在固定最坏误差的情况下,最小化摘要规模的。
摘要规模与运行时间:在图10-图12中,我们比较了CA和MS在3个数据集的小样本上的运行时间(按照与图5相同的程序生成)。结果表明,在生成相同大小的摘要时,CA的运行时间比MS长1-3个数量级。此外,CA的运行时间随摘要大小超线性增加,而MS的运行时间在不同摘要大小下几乎不变。这是因为CA使用昂贵的动态编程过程来检查数据层次结构的所有可能分区,并且人工二进制层次结构对于小样本数据已经很深了。我们还观察到CA具有很高的内存消耗,并且在数据集很大时很容易出现内存不足。
摘要后规模与数据规模:在图13-图15中,我们通过对每个数据集规模的1/16、1/8、1/4、1/2和1进行采样,绘制了MS算法的摘要大小和数据大小之间的关系。我们还为每个数据集使用了3个不同的最坏误差阈值α,这些阈值是通过缩放数据集的标准偏差来设置的。结果表明,在相同的α下,摘要大小几乎随数据大小线性增长。这是因为随着数据大小的增加,需要更多的矩形来覆盖记录。在数据大小相同的情况下,摘要大小与误差阈值α成反比。这是因为更大的α允许一个矩形覆盖更多的记录,因此所需的矩形数量减少。结果还表明,MS提供了很大的压缩比,例如,在温度数据上,α=0.03,压缩率约为41倍(即1036k/25k)。
堆优化的效果:本发明使用了基于堆的优化来提高MS算法选择阶段的效率。我们在表1中报告了有和没有堆优化的MS运行时间。结果表明,堆优化显着减少了运行时间,并且加速比可以超过一个数量级。这是因为在选择阶段有许多候选α相似矩形要考虑,并且在每次迭代中计算所有这些矩形的分数都很昂贵。堆优化可以只计算一些矩形的分数,从而提高效率。
表1 MS算法和未带堆优化的MS算法运行时间比较(单位:秒)
本发明研究了在维度上没有预设层次结构的数据立方体的摘要,这对于需要从数据中发现层次结构的场景很重要。我们首先定义非层次化数据结构摘要(NHDS)问题,该问题需要最坏误差保证并最小化摘要大小。由于NHDS问题是NP-hard,我们设计了Mark andSelect(MS)算法来寻找近似解。MS首先识别对误差要求进行分层的候选矩形,然后在矩形中进行选择以覆盖数据立方体。为了实现高效率,我们证明只识别一些符合条件的矩形是足够的,设计了一个高效的矩形识别程序,并使用基于堆的优化来避免矩形选择的不必要计算。实验结果表明,MS提供的摘要规模较小,运行时间较短。
本发明的有益效果是摘要规模较小,运行时间较短,解决了现有的数据摘要方法需要预先设定数据多维度层次结构的问题。
上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种数据立方体的非层次数据结构摘要方法,其特征在于,包括以下步骤:
获取数据立方体D,所述数据立方体存储多属性纬度的数据;
将数据摘要任务转换为非层次数据结构摘要问题,即用带有误差边界的矩形区域覆盖数据立方体,并使摘要大小最小化;
从数据立方体D中提取一组α近似矩形的集合C,并确保C包含非层次数据结构摘要问题的最优解,获得数据立方体D中每个位置(i,j)的边界Fij;
从集合C中选择α近似矩形以贪心算法的方式覆盖数据立方体D,并使用基于堆的优化来提高效率;
使用最优的α近似矩形来表示数据立方体。
4.根据权利要求3所述的数据立方体的非层次数据结构摘要方法,其特征在于,使用所述α近似矩形作为数据摘要的基本单位,允许不同的α近似矩形重叠。
5.根据权利要求4所述的数据立方体的非层次数据结构摘要方法,其特征在于,近似矩形中包含记录dij,将α近似矩形的键定义为c×a1+b1,其中c是常数,[a1,b1]是矩形的左下点,并预先根据记录的键对α近似矩形进行排序。
6.根据权利要求5所述的数据立方体的非层次数据结构摘要方法,其特征在于,所述确保C包含非层次数据结构摘要问题的最优解,获得数据立方体D中每个位置(i,j)的边界Fij包括:
对于每一个位置(i,j),记录了边界Fij中所有边界α相似矩形的右上角,Fij初始值为(i,j)本身;
对于每个位置(i,j),使用初始Fij作为起点,从中扩展α相似矩形;
当完成一个位置的扩展后,只保留它的边界,同时使用位置(i,j)的边界Fij更新位置(i+1,j)和(i,j+1)的扩展种子,以降低后面扩展的复杂性。
8.根据权利要求1所述的数据立方体的非层次数据结构摘要方法,其特征在于,所述堆的优化步骤如下:
使用大根堆管理候选α相似矩形,相似矩形的分数被初始化,计数器记录相似矩形的分数在哪次迭代中最后更新;
在每次迭代中,从堆中弹出一个矩形并检查其分数是否更新到当前迭代,如果检查通过,则将矩形添加到结果集S;如果检查失败,更新元组的分数和计数器并将其再次推入堆中。
9.根据权利要求1所述的数据立方体的非层次数据结构摘要方法,其特征在于,所述贪心算法的步骤如下:
在每次迭代中选择一个矩形Rk添加到结果S中,矩形Rk对当前结果S的贡献定义为sk=V(S∪Rk)-V(S),并在每一次迭代选择具有最大贡献的矩形,其中价值V(S)为S中所包含矩形区域的数据单元的数量,价值V(S∪Rk)为S∪Rk中所包含矩形区域的数据单元的数量。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111104771.1A CN113792054A (zh) | 2021-09-18 | 2021-09-18 | 一种数据立方体的非层次数据结构摘要方法 |
CN2021111047711 | 2021-09-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114020754A true CN114020754A (zh) | 2022-02-08 |
CN114020754B CN114020754B (zh) | 2024-02-02 |
Family
ID=78879014
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111104771.1A Withdrawn CN113792054A (zh) | 2021-09-18 | 2021-09-18 | 一种数据立方体的非层次数据结构摘要方法 |
CN202111439382.4A Active CN114020754B (zh) | 2021-09-18 | 2021-11-30 | 一种数据立方体的非层次数据结构摘要方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111104771.1A Withdrawn CN113792054A (zh) | 2021-09-18 | 2021-09-18 | 一种数据立方体的非层次数据结构摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN113792054A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214216A (zh) * | 2011-06-07 | 2011-10-12 | 复旦大学 | 一种层次关系数据上关键字检索结果的聚合摘要方法 |
CN102750383A (zh) * | 2012-06-28 | 2012-10-24 | 中国科学院软件研究所 | 一种面向视频内容的螺旋摘要生成方法 |
US9524364B1 (en) * | 2014-09-23 | 2016-12-20 | Cadence Design Systems, Inc. | Method and system for creating improved routing polygon abstracts |
US20200218738A1 (en) * | 2019-01-03 | 2020-07-09 | International Business Machines Corporation | Generalized distributed framework for parallel search and retrieval of unstructured and structured patient data across zones with hierarchical ranking |
CN112765282A (zh) * | 2021-01-18 | 2021-05-07 | 恒安嘉新(北京)科技股份公司 | 一种数据联机分析处理方法、装置、设备及存储介质 |
CN113360546A (zh) * | 2021-06-28 | 2021-09-07 | 福建师范大学 | 一种基于超立方体均衡划分的近似近邻元素检索方法及系统 |
-
2021
- 2021-09-18 CN CN202111104771.1A patent/CN113792054A/zh not_active Withdrawn
- 2021-11-30 CN CN202111439382.4A patent/CN114020754B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214216A (zh) * | 2011-06-07 | 2011-10-12 | 复旦大学 | 一种层次关系数据上关键字检索结果的聚合摘要方法 |
CN102750383A (zh) * | 2012-06-28 | 2012-10-24 | 中国科学院软件研究所 | 一种面向视频内容的螺旋摘要生成方法 |
US9524364B1 (en) * | 2014-09-23 | 2016-12-20 | Cadence Design Systems, Inc. | Method and system for creating improved routing polygon abstracts |
US20200218738A1 (en) * | 2019-01-03 | 2020-07-09 | International Business Machines Corporation | Generalized distributed framework for parallel search and retrieval of unstructured and structured patient data across zones with hierarchical ranking |
CN112765282A (zh) * | 2021-01-18 | 2021-05-07 | 恒安嘉新(北京)科技股份公司 | 一种数据联机分析处理方法、装置、设备及存储介质 |
CN113360546A (zh) * | 2021-06-28 | 2021-09-07 | 福建师范大学 | 一种基于超立方体均衡划分的近似近邻元素检索方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈荤: "分布式地理空间数据服务集成技术研究", 工学博士学位论文, pages 1 - 129 * |
Also Published As
Publication number | Publication date |
---|---|
CN114020754B (zh) | 2024-02-02 |
CN113792054A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cormode | Data sketching | |
Aggarwal et al. | Managing and mining graph data | |
US20100106713A1 (en) | Method for performing efficient similarity search | |
Leung et al. | Frequent pattern mining from time-fading streams of uncertain data | |
US20100205181A1 (en) | Average case analysis for efficient spatial data structures | |
Li et al. | Spatial approximate string search | |
Hamilton et al. | Compact Hilbert indices: Space-filling curves for domains with unequal side lengths | |
US7822700B2 (en) | Method for using lengths of data paths in assessing the morphological similarity of sets of data by using equivalence signatures | |
CN111581479B (zh) | 一站式数据处理的方法、装置、存储介质及电子设备 | |
US20110179013A1 (en) | Search Log Online Analytic Processing | |
Kaser et al. | Compressed bitmap indexes: beyond unions and intersections | |
Hamedani et al. | JacSim: An accurate and efficient link-based similarity measure in graphs | |
CN110888880A (zh) | 基于空间索引的邻近分析方法、装置、设备及介质 | |
Brisaboa et al. | Aggregated 2d range queries on clustered points | |
CN106126681B (zh) | 一种增量式流式数据聚类方法及系统 | |
Aggarwal et al. | Gconnect: A connectivity index for massive disk-resident graphs | |
Gao et al. | Efficient algorithms for finding the most desirable skyline objects | |
Hui et al. | Incremental mining of temporal patterns in interval-based database | |
He et al. | Efficient and robust data augmentation for trajectory analytics: A similarity-based approach | |
CN114020754A (zh) | 一种数据立方体的非层次数据结构摘要方法 | |
US11113314B2 (en) | Similarity calculating device and method, and recording medium | |
Kosmatopoulos et al. | Hinode: an asymptotically space-optimal storage model for historical queries on graphs | |
Shimomura et al. | Performance analysis of graph-based methods for exact and approximate similarity search in metric spaces | |
Bordawekar et al. | Flexible workload-aware clustering of XML documents | |
US7849051B2 (en) | Extraction of logical events from network data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |