CN108121766A - 基于元组级不确定性模型的多对多型psj聚集查询方法 - Google Patents

基于元组级不确定性模型的多对多型psj聚集查询方法 Download PDF

Info

Publication number
CN108121766A
CN108121766A CN201711208881.6A CN201711208881A CN108121766A CN 108121766 A CN108121766 A CN 108121766A CN 201711208881 A CN201711208881 A CN 201711208881A CN 108121766 A CN108121766 A CN 108121766A
Authority
CN
China
Prior art keywords
psj
tuple
cluster set
possible world
world space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711208881.6A
Other languages
English (en)
Other versions
CN108121766B (zh
Inventor
陈岭
王俊凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201711208881.6A priority Critical patent/CN108121766B/zh
Publication of CN108121766A publication Critical patent/CN108121766A/zh
Application granted granted Critical
Publication of CN108121766B publication Critical patent/CN108121766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations

Abstract

本发明公开了一种基于元组级不确定性模型的PSJ聚集查询方法,包括:(1)利用元组级不确定性模型,将每一条多对多型PSJ连接建模为一条不确定性元组,形成PSJ全集;(2)基于步骤(1)的建模结果,为满足COUNT查询谓词条件的元组增加标志属性,为满足SUM查询谓词条件的元组增加求和属性;(3)在步骤(2)的基础上,采用动态规划思想,计算所述PSJ子集的聚集值概率分布,并基于所述PSJ子集的聚集值概率分布的结果,计算得PSJ全集的聚集值概率分布。该方法解决了在多对多型PSJ上难以执行COUNT查询和SUM查询的问题,在数据库、联机分析处理以及数据仓库中具有广阔的应用前景。

Description

基于元组级不确定性模型的多对多型PSJ聚集查询方法
技术领域
本发明涉及概率型相似性连接(Probabilistic Similarity Join,PSJ)的聚集查询领域,具体涉及基于元组级不确定性模型的多对多型PSJ聚集查询方法。
背景技术
连接聚集查询在数据库、联机分析处理以及数据仓库中应用广泛,此类查询通常先采用连接操作将多张关系表合并起来,然后再执行聚集运算。然而,由于信息时代数据爆炸式增长,数据本身的不确定性以及数据采集和集成过程中引入的不确定性,导致大量数据具有不完整性和模糊性。不确定性数据的存在常常使得多表之间无法连接,进而导致基于连接操作的聚集查询失败。
PSJ查询基于相似性度量函数,能够将相似的元组连接起来,有效解决了不确定性数据的连接问题。按照映射约束的不同,PSJ可分为三类:一对一型PSJ、一对多型PSJ和多对多型PSJ。然而,PSJ查询的原始结果通常为一组带概率的连接,这组连接并不满足映射约束。从这组PSJ中选取出部分连接,使其满足映射约束,则该部分连接同时出现的状态称为一个可能世界,该可能世界的概率为该部分连接同时出现的联合概率。在PSJ上执行聚集查询,实质上是对所有可能世界求聚集值。但是,PSJ的可能世界数量众多,基于PSJ的聚集查询面临挑战。
在PSJ上做聚集查询的方法较少。部分方法通过限制连接条数或者划定概率阈值来减少可能世界数量,但是这些方法不但丢失了大量信息,而且不考虑映射约束。
发明内容
本发明的目的是提供一种基于元组级不确定性模型的多对多型PSJ聚集查询方法,该方法能够对多对多型PSJ建模,并基于模型有效地计算多对多型PSJ的COUNT值和SUM值概率分布,进而缩短计算时间,提高查询效率。
为实现上述目的,本发明提供的技术方案为:
一种基于元组级不确定性模型的多对多型PSJ聚集查询方法,包括以下步骤:
(1)利用元组级不确定性模型,将每一条多对多型PSJ连接建模为一条不确定性元组,形成PSJ全集,所述PSJ全集中的一条不确定性元组对应一个PSJ子集;
(2)基于步骤(1)的建模结果,为满足COUNT查询谓词条件的元组增加标志属性,为满足SUM查询谓词条件的元组增加求和属性;
(3)在步骤(2)的基础上,采用动态规划思想,计算所述PSJ子集的聚集值概率分布,并基于所述PSJ子集的聚集值概率分布的结果,计算PSJ全集的聚集值概率分布。
作为优选,所述步骤(2)包括:
查询类型一:若聚集查询为COUNT查询,则为不确定性元组增加一个属性F,表示所述不确定性元组是否满足谓词条件,若所述不确定性元组满足谓词条件,那么l.F=1,否则l.F=0;
查询类型二:若聚集查询为SUM查询,则为不确定性元组增加一个属性F,表示所述不确定性元组求和属性值的大小,若所述不确定性元组满足谓词条件,那么l.F等于所述不确定性元组的原始PSJ的求和属性值,否则l.F=0。
作为优选,所述计算所述PSJ子集的聚集值概率分布包括:
首先,选取PSJ全集的一个PSJ子集L1,所述PSJ子集L1仅包含一条不确定性元组l1,所述不确定性元组l1的概率为p1
然后,枚举出所述子集L1的可能世界空间W1,所述可能世界空间W1包含两个可能世界实例w1、w2
最后,计算每个可能世界实例的聚集值y及其概率pr(y,L1),具体为:
在可能世界实例w1中,不确定性元组l1不出现,可能世界实例w1的聚集值y=0,对应的概率p(w1)=1-p1
在可能世界实例w2中,不确定性元组l1出现,p(w2)=p1,可能世界实例w2的聚集值y=l1.F,对应的概率p(w2)=p1
基于两个可能世界实例w1、w2的聚集值及聚集值的概率得到所述子集L1的聚集值概率分布PrD(Y,L1),将所述PrD(Y,L1)存储在链表List中。
作为优选,所述基于所述PSJ子集的聚集值概率分布的结果,计算PSJ全集的聚集值概率分布包括:
(a)已知PSJ全集的PSJ子集Li-1,所述PSJ子集Li-1包括第i-1条元组,所述PSJ子集Li-1的可能世界空间为Wi-1,聚集值概率分布为PrD(Y,Li-1),存储在链表List中;
(b)向所述PSJ子集Li-1中插入一条不确定性元组li,构成PSJ子集Li,所述PSJ子集Li的可能世界空间为
(c)根据元组li是否出现在所述可能世界空间包含的可能世界实例中,分别确定所述可能世界空间包含的可能世界实例的概率分布;
(d)基于步骤(c)的计算结果,根据所述可能世界空间分别与可能世界空间Wi-1包含的可能世界实例的关系,分别确定所述可能世界空间的聚集值概率分布PrD1(y,Li)和PrD2(y,Li),并将所述聚集值概率分布PrD1(y,Li)和PrD2(y,Li)分别存储在临时链表List1和List2中;
(e)合并所述临时链表List1和List2,得到所述子集Li的聚集值概率分布PrD(Y,Li);
(f)依次重复步骤(b)~步骤(e),直到返回所述PSJ全集的聚集值概率分布为止。
进一步地,所述步骤(c)包括:
在所述可能世界空间中,所有的可能世界实例均不包含不确定性元组li,则所述可能世界空间的可能世界实例w1的概率分布p(w1)=p(w)×(1-pi);
在所述可能世界空间Wi 2中,所有的可能世界实例均包含不确定性元组li,则所述可能世界空间的可能世界实例w2的概率分布p(w2)=p(w)×pi
其中,pi为不确定性元组li的概率分布,p(w)为可能世界空间Wi-1包括的可能世界实例w对应的概率分布。
进一步地,所述步骤(d)包括:
在所述可能世界空间与所述可能世界空间Wi-1的可能世界实例中的不确定性元组一致情况下:
所述可能世界空间的聚集值值域等于所述可能世界空间Wi-1的聚集值值域;
且所述可能世界空间中聚集值为y的概率等于可能世界空间Wi-1中聚集值为y的概率乘以(1-pi),形成所述可能世界空间的聚集值概率分布PrD1(y,Li),并将所述聚集值概率分布PrD1(y,Li)存储至所述临时链表List1中;
在所述可能世界空间的可能世界实例比所述可能世界空间Wi-1的可能世界实例均多一条不确定性元组li情况下:
所述可能世界空间的聚集值值域等于所述可能世界空间Wi-1的聚集值值域加li.F;
且所述可能世界空间中聚集值为y+li.F的概率等于可能世界空间Wi-1中聚集值为y的概率乘以pi,形成所述可能世界空间的聚集值概率分布PrD2(y,Li),并将所述聚集值概率分布PrD2(y,Li)存储至所述临时链表List2中。
进一步地,所述步骤(e)包括:
首先,清空所述链表List中原有的数据;
然后,针对所述临时链表List1中的每一项聚集值y,如果所述临时链表List2中存在与之相同的聚集值y,则将这两项的概率相加,并存储在所述链表List中,同时将所述临时链表List1和List2中剩余的聚集值以及对应的概率插入到所述链表List中;
最后,删除所述临时链表List1和List2
本发明在考虑多对多映射约束的情况下,利用元组级不确定性模型对PSJ建模,并在建模结果上采用动态规划的方法计算PSJ的聚集值。与现有方法相比,本发明的优点包括:
(1)采用元组级不确定性模型对多对多型PSJ建模,无需限定PSJ条数或划定概率阈值,有效的保全了PSJ之间的全部依赖信息,为此类PSJ的建模问题提供了新方法。
(2)基于动态规划思想计算多对多型PSJ的聚集值概率分布,并在每一次递归过程中合并临时链表,有效的控制了中间结果的大小,使时间复杂度和空间复杂度不呈指数上升。
附图说明
图1是实施例提供的元组级不确定性模型的多对多型PSJ聚集查询方法的流程图;
图2是实施例提供的对多对多型PSJ的建模过程示意图;
图3(a)是实施例提供的不确定性元组集合的子集L1的可能世界空间,图3(b)是图3(a)示出的可能世界空间的聚集值概率分布;
图4是实施例提供的不确定性元组集合的子集Li的可能世界推导过程示意图;
图5是实施例提供的不确定性元组集合的子集Li的聚集值概率分布计算过程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是实施例提供的基于元组级不确定性模型的多对多型PSJ聚集查询方法的流程图。该方法分为预处理、初始化递归基础以及递归三个阶段,能够解决多对多型PSJ的COUNT查询和SUM查询问题。
预处理阶段:本阶段主要是将多对多型PSJ建模为元组级不确定性元组。该阶段可分为构造不确定性元组和处理谓词条件两个步骤,每个步骤的具体内容如下:
S101,构造不确定性元组:采用元组级不确定性模型对多对多型PSJ建模,将每一条PSJ建模为一条不确定性元组,形成元组级不确定性元组全集,也称为PSJ全集,PSJ全集中的一条不确定性元组对应一个PSJ子集,具体地,该步骤包括:
给定一组多对多型PSJL={l1,l2,…,ln},其概率分别对应为{p1,p2,…,pn}。多对多型PSJ的依赖关系较为简单,相互之间具有独立性。因此,将多对多型PSJ构造成不确定性元组的过程中,将PSJ的编号和概率当作不确定性元组的编号和概率,如图2所示。
元组(tuple)也称为记录(record),即一条一条的数据。元组存储于表(table)中,表存储于数据库(database)中。图2中,{r1,r2,…,rmax-r}是左表中元组的编号,{s1,…,smax-s}是右表中元组的编号,{l1,…,l7}是左右两张表做PSJ查询得到的PSJ连接(link),{p1,…,p7}表示两条元组能够连接成功的可能性(probability)。
S102,处理谓词条件:为满足COUNT查询谓词条件的元组增加标志属性,为满足SUM查询谓词条件的元组增加求和属性。具体如下:
查询类型一:若聚集查询为COUNT查询,则:为不确定性元组增加一个属性F,表示其是否满足谓词条件。针对不确定性元组l,如果该元组满足谓词条件,那么l.F=1,否则l.F=0。查询类型二:若聚集查询为SUM查询,则:为不确定性元组增加一个属性F,表示其求和属性值的大小。针对不确定性元组l,如果该元组满足谓词条件,那么l.F等于其原始PSJ的求和属性值,否则l.F=0。
初始化递归基础阶段:该阶段主要是计算一条不确定性元组的聚集值概率分布,此处的聚集值是指元组数量(COUNT)与元组的属性值之和(SUM)。具体实施步骤如下:
S201,选取不确定性元组集合的子集L1,也就是PSJ子集,子集L1只包含一条不确定性元组l1,其概率为p1
S202,枚举出子集L1的可能世界空间W1,W1包含两个可能世界实例{w1,w2}。
S203,计算每个可能世界实例的聚集值y及其概率pr(y,L1),得到子集L1的聚集值概率分布PrD(Y,L1),将其存储在链表List中。具体如下:
在可能世界实例w1中,l1不出现,w1的聚集值y=0,对应的概率p(w1)=1-p1,。
在可能世界实例w2中,l1出现,w2的聚集值y=l1.F,对应的概率p(w2)=p1,聚集值。
综上,针对子集L1,其聚集值概率分布PrD(Y,L1),如图3所示。
递归阶段,该阶段主要是计算所有不确定性元组的聚集值概率分布,具体实施步骤如下:
S301,假设已知不确定性元组集合的子集Li-1,该子集Li-1包含第i-1条元组,其可能世界空间为Wi-1,聚集值概率分布为PrD(Y,Li-1),存储在链表List中。
S302,往子集Li-1中插入一条元组li,从而构成子集Li
S303,将子集Li的可能世界空间表示为Wi,Wi可以在Wi-1的基础上通过添加或者不添加li构成。因此,子集Li的可能世界空间Wi可以分为两部分,表示为
如图4所示:在可能世界空间中,所有的可能世界实例都不包含li,令为可能世界空间的可能世界实例,为可能世界空间Wi-1的可能世界实例,两者的概率分别为p(w1)和li虽然存在于集合Li中,但并不出现在可能世界实例w1中,因此p(w1)=p(w)×(1-pi)。
在可能世界空间为所有的可能世界实例都包含li。令 为可能世界空间的可能世界实例,为可能世界空间Wi-1的可能世界实例,两者的概率分别为p(w2)和li存在于集合Li中,并且出现在可能世界实例w2中,因此p(w2)=p(w)×pi
S304,可能世界空间与可能世界空间Wi-1的可能世界实例一致。在PrD(Y,Li-1)的基础上,计算可能世界空间的聚集值概率分布PrD1(y,Li),PrD1(y,Li)的计算过程如图5所示,具体包括:
可能世界空间中聚集值为y的概率等于可能世界空间Wi-1中聚集值为y的概率再乘以(1-pi),并将可能世界空间的聚集值概率分布PrD1(y,Li)存储在临时链表List1中,且可能世界空间的聚集值值域等于可能世界空间Wi-1的聚集值值域。
S305,可能世界空间与可能世界空间Wi-1相比,可能世界实例多一条li。在PrD(Y,Li-1)的基础上,计算可能世界空间的聚集值概率分布PrD2(y,Li)。PrD2(y,Li)计算过程如图5所示,具体包括:
可能世界空间中聚集值为y+li.F的概率等于可能世界空间Wi-1中聚集值为y的概率再乘以pi,并将可能世界空间的聚集值概率分布PrD2(y,Li)存储在临时链表中List2中,且可能世界空间的聚集值值域等于Wi-1的聚集值值域再加上li
S306,子集Li的可能世界空间Wi由可能世界空间和可能世界空间组成,因此,其聚集值为y的概率等于中聚集值为y的概率加上中聚集值为y的概率。合并临时链表List1和List2,得到子集Li的聚集值概率分布PrD(Y,Li)。
S306的具体过程为:
S3061,清空链表List中原有的数据;
S3062,针对List1中的每一项聚集值y,如果List2中存在与之相同的聚集值y,则将这两项的概率相加,并存储在链表List中,同时将List1和List2中剩余的聚集值以及对应的概率插入到链表List中;
S3062,删除临时链表List1和List2
S307,重复S302~S306,直到返回元组级不确定性元组全集的聚集值概率分布(PSJ全集的聚集值概率分布)为止。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于元组级不确定性模型的多对多型PSJ聚集查询方法,包括以下步骤:
(1)利用元组级不确定性模型,将每一条多对多型PSJ连接建模为一条不确定性元组,形成PSJ全集,所述PSJ全集中的一条不确定性元组对应一个PSJ子集;
(2)基于步骤(1)的建模结果,为满足COUNT查询谓词条件的元组增加标志属性,为满足SUM查询谓词条件的元组增加求和属性;
(3)在步骤(2)的基础上,采用动态规划思想,计算所述PSJ子集的聚集值概率分布,并基于所述PSJ子集的聚集值概率分布的结果,计算PSJ全集的聚集值概率分布。
2.如权利要求1所述的元组级不确定性模型的多对多型PSJ聚集查询方法,其特征在于,所述步骤(2)包括:
查询类型一:若聚集查询为COUNT查询,则为不确定性元组增加一个属性F,表示所述不确定性元组是否满足谓词条件,若所述不确定性元组满足谓词条件,那么l.F=1,否则l.F=0;
查询类型二:若聚集查询为SUM查询,则为不确定性元组增加一个属性F,表示所述不确定性元组求和属性值的大小,若所述不确定性元组满足谓词条件,那么l.F等于所述不确定性元组的原始PSJ的求和属性值,否则l.F=0。
3.如权利要求1所述的元组级不确定性模型的多对多型PSJ聚集查询方法,其特征在于,所述计算所述PSJ子集的聚集值概率分布包括:
首先,选取PSJ全集的一个PSJ子集L1,所述PSJ子集L1仅包含一条不确定性元组l1,所述不确定性元组l1的概率为p1
然后,枚举出所述子集L1的可能世界空间W1,所述可能世界空间W1包含两个可能世界实例w1、w2
最后,计算每个可能世界实例的聚集值y及其概率pr(y,L1),具体为:
在可能世界实例w1中,不确定性元组l1不出现,可能世界实例w1的聚集值y=0,对应的概率p(w1)=1-p1
在可能世界实例w2中,不确定性元组l1出现,p(w2)=p1,可能世界实例w2的聚集值y=l1.F,对应的概率p(w2)=p1
基于两个可能世界实例w1、w2的聚集值及聚集值的概率得到所述子集L1的聚集值概率分布PrD(Y,L1),将所述PrD(Y,L1)存储在链表List中。
4.如权利要求1所述的元组级不确定性模型的多对多型PSJ聚集查询方法,其特征在于,所述基于所述PSJ子集的聚集值概率分布的结果,计算PSJ全集的聚集值概率分布包括:
(a)已知PSJ全集的PSJ子集Li-1,所述PSJ子集Li-1包括第i-1条元组,所述PSJ子集Li-1的可能世界空间为Wi-1,聚集值概率分布为PrD(Y,Li-1),存储在链表List中;
(b)向所述PSJ子集Li-1中插入一条不确定性元组li,构成PSJ子集Li,所述PSJ子集Li的可能世界空间为Wi 1和Wi 2
(c)根据元组li是否出现在所述可能世界空间Wi 1和Wi 2包含的可能世界实例中,分别确定所述可能世界空间Wi 1和Wi 2包含的可能世界实例的概率分布;
(d)基于步骤(c)的计算结果,根据所述可能世界空间Wi 1和Wi 2分别与可能世界空间Wi-1包含的可能世界实例的关系,分别确定所述可能世界空间Wi 1和Wi 2的聚集值概率分布PrD1(y,Li)和PrD2(y,Li),并将所述聚集值概率分布PrD1(y,Li)和PrD2(y,Li)分别存储在临时链表List1和List2中;
(e)合并所述临时链表List1和List2,得到所述子集Li的聚集值概率分布PrD(Y,Li);
(f)依次重复步骤(b)~步骤(e),直到返回所述PSJ全集的聚集值概率分布为止。
5.如权利要求4所述的元组级不确定性模型的多对多型PSJ聚集查询方法,其特征在于,所述步骤(c)包括:
在所述可能世界空间Wi 1中,所有的可能世界实例均不包含不确定性元组li,则所述可能世界空间Wi 1的可能世界实例w1的概率分布p(w1)=p(w)×(1-pi);
在所述可能世界空间Wi 2中,所有的可能世界实例均包含不确定性元组li,则所述可能世界空间Wi 2的可能世界实例w2的概率分布p(w2)=p(w)×pi
其中,pi为不确定性元组li的概率分布,p(w)为可能世界空间Wi-1包括的可能世界实例w对应的概率分布。
6.如权利要求4所述的元组级不确定性模型的多对多型PSJ聚集查询方法,其特征在于,所述步骤(d)包括:
在所述可能世界空间Wi 1与所述可能世界空间Wi-1的可能世界实例中的不确定性元组一致情况下:
所述可能世界空间Wi 1的聚集值值域等于所述可能世界空间Wi-1的聚集值值域;
且所述可能世界空间Wi 1中聚集值为y的概率等于可能世界空间Wi-1中聚集值为y的概率乘以(1-pi),形成所述可能世界空间Wi 1的聚集值概率分布PrD1(y,Li),并将所述聚集值概率分布PrD1(y,Li)存储至所述临时链表List1中;
在所述可能世界空间Wi 2的可能世界实例比所述可能世界空间Wi-1的可能世界实例均多一条不确定性元组li情况下:
所述可能世界空间Wi 2的聚集值值域等于所述可能世界空间Wi-1的聚集值值域加li.F;
且所述可能世界空间Wi 2中聚集值为y+li.F的概率等于可能世界空间Wi-1中聚集值为y的概率乘以pi,形成所述可能世界空间Wi 1的聚集值概率分布PrD2(y,Li),并将所述聚集值概率分布PrD2(y,Li)存储至所述临时链表List2中。
7.如权利要求4所述的元组级不确定性模型的多对多型PSJ聚集查询方法,其特征在于,所述步骤(e)包括:
首先,清空所述链表List中原有的数据;
然后,针对所述临时链表List1中的每一项聚集值y,如果所述临时链表List2中存在与之相同的聚集值y,则将这两项的概率相加,并存储在所述链表List中,同时将所述临时链表List1和List2中剩余的聚集值以及对应的概率插入到所述链表List中;
最后,删除所述临时链表List1和List2
CN201711208881.6A 2017-11-27 2017-11-27 基于元组级不确定性模型的多对多型psj聚集查询方法 Active CN108121766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711208881.6A CN108121766B (zh) 2017-11-27 2017-11-27 基于元组级不确定性模型的多对多型psj聚集查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711208881.6A CN108121766B (zh) 2017-11-27 2017-11-27 基于元组级不确定性模型的多对多型psj聚集查询方法

Publications (2)

Publication Number Publication Date
CN108121766A true CN108121766A (zh) 2018-06-05
CN108121766B CN108121766B (zh) 2020-07-17

Family

ID=62228577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711208881.6A Active CN108121766B (zh) 2017-11-27 2017-11-27 基于元组级不确定性模型的多对多型psj聚集查询方法

Country Status (1)

Country Link
CN (1) CN108121766B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020103793A1 (en) * 2000-08-02 2002-08-01 Daphne Koller Method and apparatus for learning probabilistic relational models having attribute and link uncertainty and for performing selectivity estimation using probabilistic relational models
CN101681368A (zh) * 2007-06-29 2010-03-24 国际商业机器公司 聚集查询处理
CN102073718A (zh) * 2011-01-10 2011-05-25 清华大学 一种对概率数据库查询结果予以解释与擦改的系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020103793A1 (en) * 2000-08-02 2002-08-01 Daphne Koller Method and apparatus for learning probabilistic relational models having attribute and link uncertainty and for performing selectivity estimation using probabilistic relational models
CN101681368A (zh) * 2007-06-29 2010-03-24 国际商业机器公司 聚集查询处理
CN102073718A (zh) * 2011-01-10 2011-05-25 清华大学 一种对概率数据库查询结果予以解释与擦改的系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AKBARINIA R ET AL.: "Efficient evaluation of SUM queries over probabilistic data", 《IEEE TRANSACTIONS ON KNOWLEDGE & DATA ENGINEERING》 *
HANSPETER KRIEGEL ET AL.: "Probabilistic Similarity Join on Uncertain Data", 《DATABASE SYSTEMS FOR ADVANCED APPLICATIONS, INTERNATIONAL CONFERENCE》 *
MING HUA ET AL: "Aggregate Queries on Probabilistic Record Linkages", 《PROCEEDINGS OF THE 15TH INTERNATIONAL CONFERENCE ON EXTENDING DATABASE TECHNOLOGY》 *

Also Published As

Publication number Publication date
CN108121766B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
US11681702B2 (en) Conversion of model views into relational models
CN108733681B (zh) 信息处理方法及装置
CN105868411B (zh) 一种非关系型与关系型数据库一体化数据查询方法与系统
Har-Peled et al. Approximate nearest neighbor: Towards removing the curse of dimensionality
US9092481B2 (en) Method and system for processing graph queries
US9507875B2 (en) Symbolic hyper-graph database
CN106991141B (zh) 一种基于深度剪枝策略的关联规则挖掘方法
US20150278268A1 (en) Data encoding and corresponding data structure
US8352496B2 (en) Entity name matching
EP1738290A1 (en) Partial query caching
Celko Joe Celko’s complete guide to NoSQL: What every SQL professional needs to know about non-relational databases
US8589451B1 (en) Systems and methods for generating a common data model for relational and object oriented databases
CN108073641B (zh) 查询数据表的方法和装置
CN112948683B (zh) 一种社交信息动态融合的社会化推荐方法
CN112800023B (zh) 基于语义分类的多模型数据分布式存储和分级查询方法
CN108241709A (zh) 一种数据集成方法、装置和系统
CN105843809A (zh) 数据处理方法和装置
Song et al. Mining multi-relational high utility itemsets from star schemas
CN104050264A (zh) 一种生成sql语句的方法和装置
CN103092960A (zh) 一种基于需求簇构建软件产品特征树模型的方法
CN108121766A (zh) 基于元组级不确定性模型的多对多型psj聚集查询方法
CN106055690A (zh) 一种基于属性匹配的快速检索与获取数据特征方法
CN108073689A (zh) 基于属性级不确定性模型的一对多型psj聚集查询方法
Ahmed et al. Computing source-to-target shortest paths for complex networks in RDBMS
CN102867036B (zh) 实现Aho-Corasick算法所用数据结构动态生成的改进方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant