CN108121766A

CN108121766A - 基于元组级不确定性模型的多对多型psj聚集查询方法

Info

Publication number: CN108121766A
Application number: CN201711208881.6A
Authority: CN
Inventors: 陈岭; 王俊凯
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-06-05
Anticipated expiration: 2037-11-27
Also published as: CN108121766B

Abstract

本发明公开了一种基于元组级不确定性模型的PSJ聚集查询方法，包括：(1)利用元组级不确定性模型，将每一条多对多型PSJ连接建模为一条不确定性元组，形成PSJ全集；(2)基于步骤(1)的建模结果，为满足COUNT查询谓词条件的元组增加标志属性，为满足SUM查询谓词条件的元组增加求和属性；(3)在步骤(2)的基础上，采用动态规划思想，计算所述PSJ子集的聚集值概率分布，并基于所述PSJ子集的聚集值概率分布的结果，计算得PSJ全集的聚集值概率分布。该方法解决了在多对多型PSJ上难以执行COUNT查询和SUM查询的问题，在数据库、联机分析处理以及数据仓库中具有广阔的应用前景。

Description

基于元组级不确定性模型的多对多型PSJ聚集查询方法

技术领域

本发明涉及概率型相似性连接(Probabilistic Similarity Join，PSJ)的聚集查询领域，具体涉及基于元组级不确定性模型的多对多型PSJ聚集查询方法。

背景技术

连接聚集查询在数据库、联机分析处理以及数据仓库中应用广泛，此类查询通常先采用连接操作将多张关系表合并起来，然后再执行聚集运算。然而，由于信息时代数据爆炸式增长，数据本身的不确定性以及数据采集和集成过程中引入的不确定性，导致大量数据具有不完整性和模糊性。不确定性数据的存在常常使得多表之间无法连接，进而导致基于连接操作的聚集查询失败。

PSJ查询基于相似性度量函数，能够将相似的元组连接起来，有效解决了不确定性数据的连接问题。按照映射约束的不同，PSJ可分为三类：一对一型PSJ、一对多型PSJ和多对多型PSJ。然而，PSJ查询的原始结果通常为一组带概率的连接，这组连接并不满足映射约束。从这组PSJ中选取出部分连接，使其满足映射约束，则该部分连接同时出现的状态称为一个可能世界，该可能世界的概率为该部分连接同时出现的联合概率。在PSJ上执行聚集查询，实质上是对所有可能世界求聚集值。但是，PSJ的可能世界数量众多，基于PSJ的聚集查询面临挑战。

在PSJ上做聚集查询的方法较少。部分方法通过限制连接条数或者划定概率阈值来减少可能世界数量，但是这些方法不但丢失了大量信息，而且不考虑映射约束。

发明内容

本发明的目的是提供一种基于元组级不确定性模型的多对多型PSJ聚集查询方法，该方法能够对多对多型PSJ建模，并基于模型有效地计算多对多型PSJ的COUNT值和SUM值概率分布，进而缩短计算时间，提高查询效率。

为实现上述目的，本发明提供的技术方案为：

一种基于元组级不确定性模型的多对多型PSJ聚集查询方法，包括以下步骤：

(1)利用元组级不确定性模型，将每一条多对多型PSJ连接建模为一条不确定性元组，形成PSJ全集，所述PSJ全集中的一条不确定性元组对应一个PSJ子集；

(2)基于步骤(1)的建模结果，为满足COUNT查询谓词条件的元组增加标志属性，为满足SUM查询谓词条件的元组增加求和属性；

(3)在步骤(2)的基础上，采用动态规划思想，计算所述PSJ子集的聚集值概率分布，并基于所述PSJ子集的聚集值概率分布的结果，计算PSJ全集的聚集值概率分布。

作为优选，所述步骤(2)包括：

查询类型一：若聚集查询为COUNT查询，则为不确定性元组增加一个属性F，表示所述不确定性元组是否满足谓词条件，若所述不确定性元组满足谓词条件，那么l.F＝1，否则l.F＝0；

查询类型二：若聚集查询为SUM查询，则为不确定性元组增加一个属性F，表示所述不确定性元组求和属性值的大小，若所述不确定性元组满足谓词条件，那么l.F等于所述不确定性元组的原始PSJ的求和属性值，否则l.F＝0。

作为优选，所述计算所述PSJ子集的聚集值概率分布包括：

首先，选取PSJ全集的一个PSJ子集L₁，所述PSJ子集L₁仅包含一条不确定性元组l₁，所述不确定性元组l₁的概率为p₁；

然后，枚举出所述子集L₁的可能世界空间W₁，所述可能世界空间W₁包含两个可能世界实例w₁、w₂；

最后，计算每个可能世界实例的聚集值y及其概率pr(y,L₁)，具体为：

在可能世界实例w₁中，不确定性元组l₁不出现，可能世界实例w₁的聚集值y＝0，对应的概率p(w₁)＝1-p₁；

在可能世界实例w₂中，不确定性元组l₁出现，p(w₂)＝p₁，可能世界实例w₂的聚集值y＝l₁.F，对应的概率p(w₂)＝p₁；

基于两个可能世界实例w₁、w₂的聚集值及聚集值的概率得到所述子集L₁的聚集值概率分布PrD(Y,L₁)，将所述PrD(Y,L₁)存储在链表List中。

作为优选，所述基于所述PSJ子集的聚集值概率分布的结果，计算PSJ全集的聚集值概率分布包括：

(a)已知PSJ全集的PSJ子集L_i-1，所述PSJ子集L_i-1包括第i-1条元组，所述PSJ子集L_i-1的可能世界空间为W_i-1，聚集值概率分布为PrD(Y,L_i-1)，存储在链表List中；

(b)向所述PSJ子集L_i-1中插入一条不确定性元组l_i，构成PSJ子集L_i，所述PSJ子集L_i的可能世界空间为和

(c)根据元组l_i是否出现在所述可能世界空间和包含的可能世界实例中，分别确定所述可能世界空间和包含的可能世界实例的概率分布；

(d)基于步骤(c)的计算结果，根据所述可能世界空间和分别与可能世界空间W_i-1包含的可能世界实例的关系，分别确定所述可能世界空间和的聚集值概率分布PrD₁(y,L_i)和PrD₂(y,L_i)，并将所述聚集值概率分布PrD₁(y,L_i)和PrD₂(y,L_i)分别存储在临时链表List₁和List₂中；

(e)合并所述临时链表List₁和List₂，得到所述子集L_i的聚集值概率分布PrD(Y,L_i)；

(f)依次重复步骤(b)～步骤(e)，直到返回所述PSJ全集的聚集值概率分布为止。

进一步地，所述步骤(c)包括：

在所述可能世界空间中，所有的可能世界实例均不包含不确定性元组l_i，则所述可能世界空间的可能世界实例w¹的概率分布p(w¹)＝p(w)×(1-p_i)；

在所述可能世界空间W_i ²中，所有的可能世界实例均包含不确定性元组l_i，则所述可能世界空间的可能世界实例w²的概率分布p(w²)＝p(w)×p_i；

其中，p_i为不确定性元组l_i的概率分布，p(w)为可能世界空间W_i-1包括的可能世界实例w对应的概率分布。

进一步地，所述步骤(d)包括：

在所述可能世界空间与所述可能世界空间W_i-1的可能世界实例中的不确定性元组一致情况下：

所述可能世界空间的聚集值值域等于所述可能世界空间W_i-1的聚集值值域；

且所述可能世界空间中聚集值为y的概率等于可能世界空间W_i-1中聚集值为y的概率乘以(1-p_i)，形成所述可能世界空间的聚集值概率分布PrD₁(y,L_i)，并将所述聚集值概率分布PrD₁(y,L_i)存储至所述临时链表List₁中；

在所述可能世界空间的可能世界实例比所述可能世界空间W_i-1的可能世界实例均多一条不确定性元组l_i情况下：

所述可能世界空间的聚集值值域等于所述可能世界空间W_i-1的聚集值值域加l_i.F；

且所述可能世界空间中聚集值为y+l_i.F的概率等于可能世界空间W_i-1中聚集值为y的概率乘以p_i，形成所述可能世界空间的聚集值概率分布PrD₂(y,L_i)，并将所述聚集值概率分布PrD₂(y,L_i)存储至所述临时链表List₂中。

进一步地，所述步骤(e)包括：

首先，清空所述链表List中原有的数据；

然后，针对所述临时链表List₁中的每一项聚集值y，如果所述临时链表List₂中存在与之相同的聚集值y，则将这两项的概率相加，并存储在所述链表List中，同时将所述临时链表List₁和List₂中剩余的聚集值以及对应的概率插入到所述链表List中；

最后，删除所述临时链表List₁和List₂。

本发明在考虑多对多映射约束的情况下，利用元组级不确定性模型对PSJ建模，并在建模结果上采用动态规划的方法计算PSJ的聚集值。与现有方法相比，本发明的优点包括：

(1)采用元组级不确定性模型对多对多型PSJ建模，无需限定PSJ条数或划定概率阈值，有效的保全了PSJ之间的全部依赖信息，为此类PSJ的建模问题提供了新方法。

(2)基于动态规划思想计算多对多型PSJ的聚集值概率分布，并在每一次递归过程中合并临时链表，有效的控制了中间结果的大小，使时间复杂度和空间复杂度不呈指数上升。

附图说明

图1是实施例提供的元组级不确定性模型的多对多型PSJ聚集查询方法的流程图；

图2是实施例提供的对多对多型PSJ的建模过程示意图；

图3(a)是实施例提供的不确定性元组集合的子集L₁的可能世界空间，图3(b)是图3(a)示出的可能世界空间的聚集值概率分布；

图4是实施例提供的不确定性元组集合的子集L_i的可能世界推导过程示意图；

图5是实施例提供的不确定性元组集合的子集L_i的聚集值概率分布计算过程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是实施例提供的基于元组级不确定性模型的多对多型PSJ聚集查询方法的流程图。该方法分为预处理、初始化递归基础以及递归三个阶段，能够解决多对多型PSJ的COUNT查询和SUM查询问题。

预处理阶段：本阶段主要是将多对多型PSJ建模为元组级不确定性元组。该阶段可分为构造不确定性元组和处理谓词条件两个步骤，每个步骤的具体内容如下：

S101，构造不确定性元组：采用元组级不确定性模型对多对多型PSJ建模，将每一条PSJ建模为一条不确定性元组，形成元组级不确定性元组全集，也称为PSJ全集，PSJ全集中的一条不确定性元组对应一个PSJ子集，具体地，该步骤包括：

给定一组多对多型PSJL＝{l₁,l₂,…,l_n}，其概率分别对应为{p₁,p₂,…,p_n}。多对多型PSJ的依赖关系较为简单，相互之间具有独立性。因此，将多对多型PSJ构造成不确定性元组的过程中，将PSJ的编号和概率当作不确定性元组的编号和概率，如图2所示。

元组(tuple)也称为记录(record)，即一条一条的数据。元组存储于表(table)中，表存储于数据库(database)中。图2中，{r₁,r₂,…,r_max-r}是左表中元组的编号，{s₁,…,s_max-s}是右表中元组的编号，{l₁,…,l₇}是左右两张表做PSJ查询得到的PSJ连接(link)，{p₁,…,p₇}表示两条元组能够连接成功的可能性(probability)。

S102，处理谓词条件：为满足COUNT查询谓词条件的元组增加标志属性，为满足SUM查询谓词条件的元组增加求和属性。具体如下：

查询类型一：若聚集查询为COUNT查询，则：为不确定性元组增加一个属性F，表示其是否满足谓词条件。针对不确定性元组l，如果该元组满足谓词条件，那么l.F＝1，否则l.F＝0。查询类型二：若聚集查询为SUM查询，则：为不确定性元组增加一个属性F，表示其求和属性值的大小。针对不确定性元组l，如果该元组满足谓词条件，那么l.F等于其原始PSJ的求和属性值，否则l.F＝0。

初始化递归基础阶段：该阶段主要是计算一条不确定性元组的聚集值概率分布，此处的聚集值是指元组数量(COUNT)与元组的属性值之和(SUM)。具体实施步骤如下：

S201，选取不确定性元组集合的子集L₁，也就是PSJ子集，子集L₁只包含一条不确定性元组l₁，其概率为p₁。

S202，枚举出子集L₁的可能世界空间W₁，W₁包含两个可能世界实例{w₁,w₂}。

S203，计算每个可能世界实例的聚集值y及其概率pr(y,L₁)，得到子集L₁的聚集值概率分布PrD(Y,L₁)，将其存储在链表List中。具体如下：

在可能世界实例w₁中，l₁不出现，w₁的聚集值y＝0，对应的概率p(w₁)＝1-p₁，。

在可能世界实例w₂中，l₁出现，w₂的聚集值y＝l₁.F，对应的概率p(w₂)＝p₁，聚集值。

综上，针对子集L₁，其聚集值概率分布PrD(Y,L₁)，如图3所示。

递归阶段，该阶段主要是计算所有不确定性元组的聚集值概率分布，具体实施步骤如下：

S301，假设已知不确定性元组集合的子集L_i-1，该子集L_i-1包含第i-1条元组，其可能世界空间为W_i-1，聚集值概率分布为PrD(Y,L_i-1)，存储在链表List中。

S302，往子集L_i-1中插入一条元组l_i，从而构成子集L_i。

S303，将子集L_i的可能世界空间表示为W_i，W_i可以在W_i-1的基础上通过添加或者不添加l_i构成。因此，子集L_i的可能世界空间W_i可以分为两部分，表示为和

如图4所示：在可能世界空间中，所有的可能世界实例都不包含l_i，令为可能世界空间的可能世界实例，为可能世界空间W_i-1的可能世界实例，两者的概率分别为p(w¹)和l_i虽然存在于集合L_i中，但并不出现在可能世界实例w¹中，因此p(w¹)＝p(w)×(1-p_i)。

在可能世界空间为所有的可能世界实例都包含l_i。令为可能世界空间的可能世界实例，为可能世界空间W_i-1的可能世界实例，两者的概率分别为p(w²)和l_i存在于集合L_i中，并且出现在可能世界实例w²中，因此p(w²)＝p(w)×p_i。

S304，可能世界空间与可能世界空间W_i-1的可能世界实例一致。在PrD(Y,L_i-1)的基础上，计算可能世界空间的聚集值概率分布PrD₁(y,L_i)，PrD₁(y,L_i)的计算过程如图5所示，具体包括：

可能世界空间中聚集值为y的概率等于可能世界空间W_i-1中聚集值为y的概率再乘以(1-p_i)，并将可能世界空间的聚集值概率分布PrD₁(y,L_i)存储在临时链表List₁中，且可能世界空间的聚集值值域等于可能世界空间W_i-1的聚集值值域。

S305，可能世界空间与可能世界空间W_i-1相比，可能世界实例多一条l_i。在PrD(Y,L_i-1)的基础上，计算可能世界空间的聚集值概率分布PrD₂(y,L_i)。PrD₂(y,L_i)计算过程如图5所示，具体包括：

可能世界空间中聚集值为y+l_i.F的概率等于可能世界空间W_i-1中聚集值为y的概率再乘以p_i，并将可能世界空间的聚集值概率分布PrD₂(y,L_i)存储在临时链表中List₂中，且可能世界空间的聚集值值域等于W_i-1的聚集值值域再加上l_i。

S306，子集L_i的可能世界空间W_i由可能世界空间和可能世界空间组成，因此，其聚集值为y的概率等于中聚集值为y的概率加上中聚集值为y的概率。合并临时链表List₁和List₂，得到子集L_i的聚集值概率分布PrD(Y,L_i)。

S306的具体过程为：

S3061，清空链表List中原有的数据；

S3062，针对List₁中的每一项聚集值y，如果List₂中存在与之相同的聚集值y，则将这两项的概率相加，并存储在链表List中，同时将List₁和List₂中剩余的聚集值以及对应的概率插入到链表List中；

S3062，删除临时链表List₁和List₂。

S307，重复S302～S306，直到返回元组级不确定性元组全集的聚集值概率分布(PSJ全集的聚集值概率分布)为止。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于元组级不确定性模型的多对多型PSJ聚集查询方法，包括以下步骤：

2.如权利要求1所述的元组级不确定性模型的多对多型PSJ聚集查询方法，其特征在于，所述步骤(2)包括：

3.如权利要求1所述的元组级不确定性模型的多对多型PSJ聚集查询方法，其特征在于，所述计算所述PSJ子集的聚集值概率分布包括：

4.如权利要求1所述的元组级不确定性模型的多对多型PSJ聚集查询方法，其特征在于，所述基于所述PSJ子集的聚集值概率分布的结果，计算PSJ全集的聚集值概率分布包括：

(b)向所述PSJ子集L_i-1中插入一条不确定性元组l_i，构成PSJ子集L_i，所述PSJ子集L_i的可能世界空间为W_i ¹和W_i ²；

(c)根据元组l_i是否出现在所述可能世界空间W_i ¹和W_i ²包含的可能世界实例中，分别确定所述可能世界空间W_i ¹和W_i ²包含的可能世界实例的概率分布；

(d)基于步骤(c)的计算结果，根据所述可能世界空间W_i ¹和W_i ²分别与可能世界空间W_i-1包含的可能世界实例的关系，分别确定所述可能世界空间W_i ¹和W_i ²的聚集值概率分布PrD₁(y,L_i)和PrD₂(y,L_i)，并将所述聚集值概率分布PrD₁(y,L_i)和PrD₂(y,L_i)分别存储在临时链表List₁和List₂中；

5.如权利要求4所述的元组级不确定性模型的多对多型PSJ聚集查询方法，其特征在于，所述步骤(c)包括：

在所述可能世界空间W_i ¹中，所有的可能世界实例均不包含不确定性元组l_i，则所述可能世界空间W_i ¹的可能世界实例w¹的概率分布p(w¹)＝p(w)×(1-p_i)；

在所述可能世界空间W_i ²中，所有的可能世界实例均包含不确定性元组l_i，则所述可能世界空间W_i ²的可能世界实例w²的概率分布p(w²)＝p(w)×p_i；

6.如权利要求4所述的元组级不确定性模型的多对多型PSJ聚集查询方法，其特征在于，所述步骤(d)包括：

在所述可能世界空间W_i ¹与所述可能世界空间W_i-1的可能世界实例中的不确定性元组一致情况下：

所述可能世界空间W_i ¹的聚集值值域等于所述可能世界空间W_i-1的聚集值值域；

且所述可能世界空间W_i ¹中聚集值为y的概率等于可能世界空间W_i-1中聚集值为y的概率乘以(1-p_i)，形成所述可能世界空间W_i ¹的聚集值概率分布PrD₁(y,L_i)，并将所述聚集值概率分布PrD₁(y,L_i)存储至所述临时链表List₁中；

在所述可能世界空间W_i ²的可能世界实例比所述可能世界空间W_i-1的可能世界实例均多一条不确定性元组l_i情况下：

所述可能世界空间W_i ²的聚集值值域等于所述可能世界空间W_i-1的聚集值值域加l_i.F；

且所述可能世界空间W_i ²中聚集值为y+l_i.F的概率等于可能世界空间W_i-1中聚集值为y的概率乘以p_i，形成所述可能世界空间W_i ¹的聚集值概率分布PrD₂(y,L_i)，并将所述聚集值概率分布PrD₂(y,L_i)存储至所述临时链表List₂中。

7.如权利要求4所述的元组级不确定性模型的多对多型PSJ聚集查询方法，其特征在于，所述步骤(e)包括：

首先，清空所述链表List中原有的数据；

最后，删除所述临时链表List₁和List₂。