CN108573052B

CN108573052B - 一种阈值自适应的集合相似连接方法

Info

Publication number: CN108573052B
Application number: CN201810368421.8A
Authority: CN
Inventors: 顾荣; 黄宜华; 王肇康; 王申
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2019-09-10
Anticipated expiration: 2038-04-23
Also published as: CN108573052A

Abstract

本发明公开了一种阈值自适应的集合相似连接方法，对于保存在数据库中的由集合记录构成的数据集R和S,以及相似度阈值τ，共包含六个步骤，其中前两个步骤属于数据预处理阶段，后四个步骤属于相似连接阶段：第一步，对R和S中所有的集合元素按照出现频率重编号；第二步，计算S集合元素的倒排索引I并将I存入数据库；第三步,对于R中的每条记录r，利用过滤器得到S中与r的相似度系数不小于阈值τ的候选记录集；第四步和第五步分别计算全量计算和直接验证两种模式的数据库获取开销；第六步选择开销更小的方式计算r的相似记录对。本发明可在广阈值范围内均高效的进行集合相似连接计算，解决现有技术不能同时兼顾低阈值和高阈值情况的问题。

Description

一种阈值自适应的集合相似连接方法

技术领域

本发明涉及数据库领域，尤其涉及一种阈值自适应的集合相似连接方法。

背景技术

集合相似连接(Set similarity join)是数据库领域的一个重要技术问题。给定一个有限元素集ε＝{e₁,e₂…,e_m}，一条集合记录r定义为ε的子集，即集合相似连接问题具体是指：给定相似度阈值τ、相似度系数sim和两个由集合记录构成的数据集R、S作为输入，计算并输出其中所有相似度系数大于等于阈值τ的记录对，即求输出所有记录对r∈R,s∈S满足相似度系数sim(r,s)≥τ。常用的相似度系数包括共同元素数、Jaccard、Cosine和Dice系数，其计算公式见表1。集合相似连接技术在很多领域有广泛应用，包括数据清洗、信息挖掘、数据整合、个性化推荐和社区发现等。目前已有的实现集合相似连接的方法可以分为两类：一类是全量计算的方法，另一类是基于过滤的方法。全量计算的方法会先从数据库中查找出所有相似度系数大于0的记录对，再根据阈值过滤结果。而基于过滤的方法，则遵循“过滤-验证”框架，会先使用各种过滤器(filter)技术过滤掉相似度系数一定小于阈值的记录对，从而得到候选记录对，然后再逐一计算候选记录对的相似度系数，找出相似度系数大于等于阈值的记录对。

表1基于邻点的相似度系数

对于第一类全量计算的方法，一种直观的做法是枚举数据库中R和S的所有可能记录对(r,s)，再计算相似度系数。这一方法的时间复杂度是O(|R||S|)，在大规模数据集上无法有效实现。根据表1中的相似度系数计算公式，相似度系数大于0的两个集合记录r和s之间至少有一个共同元素(即|r∩s|＞0)，因此只需要对有相同元素的记录对计算相似度系数即可。目前的较高效的全量计算类的集合相似连接方法(如SBM和V-SMART-Join)都利用了此原理。如果记录r和s至少有一个共同元素e，那么r和s一定同时出现在e的倒排索引表中。SBM技术通过计算r和s同时出现在元素的倒排索引表中的次数得到这两条记录的相同元素数(即|r∩s|)，再结合r和s的记录长度计算出相似度系数。全量计算类方法计算效率(计算复杂度)对阈值不敏感，其在低阈值和高阈值情况下的计算开销相同。

第二类基于过滤的方法则会通过各种过滤器(filter)技术先过滤掉相似度系数一定小于阈值的记录对，再对剩余的候选记录对计算相似度系数。常见的过滤器包括前缀过滤器(prefix filter)、长度过滤器(length filter)和位置过滤器(positionalfilter)等。其中前缀过滤器是一种被广泛应用的过滤器，它是很多集合相似连接方法所采用的基础过滤器。在前缀过滤器中，一个集合记录的π-前缀由该集合中根据给定全局序排列的前π个元素构成。在特定的前缀长度下，如果两条记录的前缀集中没有共同元素，那么这两条记录的相似度系数一定小于阈值。这些过滤器的性能对阈值敏感，阈值越高，过滤效果越好。

目前的集合相似连接方法的适用阈值范围均较窄。全量计算方法仅在低阈值情况下计算效率高，其在高阈值范围内无效计算较多，计算效率低于基于过滤的方法。而基于过滤的方法则仅在高阈值范围内过滤器效果显著、计算效率高，而在低阈值范围内，过滤器过滤效果不明显，过滤器引入的额外计算多，计算效率低于全量计算类方法。综上所述，目前缺乏一个能在广阈值范围内均具有较高计算效率的集合相似连接方法。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种阈值自适应的集合相似连接方法，能在广阈值范围内均具有较高的计算效率。

技术方案：为实现上述发明目的，本发明提出了一种阈值自适应的集合相似连接方法。本发明提出的方法以保存在数据库中的两个集合记录构成的数据集R和S作为输入，以相似度阈值(简称阈值)τ和相似度系数sim作为方法参数。本发明提出的方法会查找出相似度值大于等于阈值的所有来自R和S的记录对，并输出这些记录对。本发明提出的方法包括数据预处理和相似连接两个阶段，一共六个步骤。其中数据预处理阶段包含以下的第(1)至第(2)步；相似连接阶段对数据集R中的每条记录r都执行以下的第(3)至第(6)步：

(1)对有限元素集ε＝{e₁,e₂…,e_m}中的元素，统计每个元素在数据集R和S中出现的频率，然后对元素按照其在数据集R和S中出现总频率的大小进行全局递增编号，出现频率低的元素编号较小；

(2)为数据集S构建倒排索引I，对于一个元素e∈ε，从数据集S中查找所有包含该元素e的记录x，构成元素e的倒排索引项I(e)，即I(e)＝{x|e∈x,x∈S}，保存构建的倒排索引I到数据库中。

(3)对于数据集R中的每条记录r，根据阈值τ和r的前缀集Prefix(r)，利用过滤器过滤出相似度系数不小于阈值的候选记录集C(r)；

(4)计算全量计算模式的数据库访问开销，全量计算模式的数据库访问开销Cost_AllPair定义为r的后缀集Suffix(r)中的所有元素的倒排索引列表的长度之和：Cost_AllPair＝∑_{e∈Suffix(r)}|I(e)|，其中Suffix(r)表示记录r的后缀集，|I(e)|表示倒排索引I(e)的长度。

(5)计算直接验证模式的数据库访问开销，直接验证模式的数据库访问开销Cost_Verify定义为Cost_Verify＝∑_x∈C(r)|S.x|，其中|S.x|表示数据集S中的集合记录x的集合长度(即集合元素个数)，直接验证模式的数据库访问开销等于候选记录集C(r)中的所有记录的集合元素数之和；

(6)比较两种模式的数据库访问开销大小，选择开销较小的模式，如果直接验证模式的开销Cost_Verify较小，则采用直接验证模式计算与r相似度系数超过阈值的记录对；否则采用全量计算模式计算与r相似的记录对。

进一步地，所述步骤(1)中，数据集R和S中的集合记录中所出现的集合元素，均来自有限元素集ε。有限元素集中的每个元素e_i均会被赋予一个全局唯一的编号，该编号按元素在数据集R和S中的出现总频率排序。如果元素e_i的出现频率比元素e_j少,则e_i的编号值也比e_j小。

进一步地，所述步骤(3)中，一个集合记录r的前缀集Prefix(r)是由该记录中全局编号前π小的元素所构成的集合。其中π的计算方法采用前缀过滤器技术中的计算方法。从数据库中取出前缀集Prefix(r)中的元素对应的倒排索引列表，合并这些列表得到候选记录集C(r)，以∪_{e∈Prefix(r)}I(e)表示将这些倒排索引列表合并，则得到C(r)＝∪_e∈_Prefix(r)I(e)。本发明所公开的方法也支持使用其它过滤器技术(如长度过滤器等)对C(r)中的记录进行进一步过滤，使用这些技术不影响本发明的有益效果。

进一步地，所述步骤(4)中，记录r的后缀集Suffix(r)是由r中所有非前缀元素构成，即其中用符号∧表示并且关系。

进一步地，所述步骤(6)中，如果Cost_AllPair≤Cost_Verify则采用全量计算模式否则采用直接验证模式。其中，全量计算模式的步骤如下：将记录r的后缀集Suffix(r)中的元素对应的倒排索引列表从数据库中取出，并与r的前缀集Prefix(r)中的元素对应的倒排索引列表在内存中进行合并，得到与r有共同元素的来自数据集S的记录的集合，在合并的过程中统计记录s在这些倒排索引列表中出现的次数，即可得到r与s的共同元素数|r∩s|。根据|r∩s|和记录的长度信息，利用表1中公式计算出r与s的相似度系数，输出相似度系数大于或等于阈值的记录对(r,s)。直接验证模式的步骤：对于候选记录集C(r)中的每条记录s，从数据库中取出记录s的内容，计算记录r与s的相似度系数，输出相似度系数大于或等于阈值的记录对(r,s)。

本发明的有益效果：本发明所述技术方法能够在相似连接阶段自动的从全量计算模式和直接验证模式中选择数据库访问开销较小的模式。在全阈值范围内，本发明的数据库访问开销总是小于或等于全量计算方法和基于过滤的方法的开销的较小者，因此本发明能够在广域值范围内均取得较高的计算效率。

附图说明

图1为本发明的总体流程示意图；

图2(a)为本发明在USPATENTS数据集上与现有技术的实验对比图，图2(b)为本发明在LIVEJOURNAL数据集上与现有技术的实验对比图，图2(c)为本发明在ORKUT数据集上与现有技术的实验对比图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提出一种在广阈值范围内均可高效运行的集合相似连接方法，解决了现有方法不能同时兼顾低阈值和高阈值情况的问题。如图1所示，本发明的完整流程分为数据预处理阶段和相似连接阶段。下面以表2中所示的数据集作为一个具体的示例输入数据集，说明本发明的具体的实施方式。这些数据集预先保存在数据库中。在示例中采用Jaccard相似度系数作为本发明的参数，相似度阈值(简称阈值)设置为0.5。结合本例，本发明的具体的实施方式为：

表2实例记录集R和S

发明内容里的步骤(1)的具体实施方式为：数据集R和S中的集合记录中所出现的集合元素，均来自有限元素集。有限元素集中的每个元素e_i均会被赋予一个全局唯一的编号，该编号按元素在数据集中的总出现频率进行排序。在本例中，图2例中的ε＝{e₀,e₁,e₂,e₃,e₄,e₅}，元素已按照在R和S数据集中出现的频率大小进行了重新编号，比如e₀在R和S数据集中出现的频率是5，而e₅的出现频率是8次，因此e₀下标编号小于e₅。

发明内容里的技术方案步骤(2)的具体实施方式为：对数据集S，计算它的倒排索引I。对于一个元素e∈ε，倒排索引列表I(e)包含了数据集S中包括了元素e的记录的集合，即I(e)＝{x|e∈x,x∈S}。表3是为数据集S所建立的倒排索引，其中I(e₁)＝{S.s₁,S.s₃}，表示在数据集S中，记录s₁,s₃均包含了集合元素e₁。保存构建的倒排索引到数据库中。

表3记录集S的倒排索引列表

元素e	倒排索引I(e)
		e<sub>0</sub>	{S.s<sub>1</sub>,S.s<sub>2</sub>}
e<sub>1</sub>	{S.s<sub>1</sub>,S.s<sub>3</sub>}
		e<sub>2</sub>	{S.s<sub>0</sub>,S.s<sub>3</sub>}
e<sub>3</sub>	{S.s<sub>0</sub>,S.s<sub>2</sub>,S.s<sub>3</sub>}
		e<sub>4</sub>	{S.s1,S.s<sub>2</sub>,S.s<sub>3</sub>}
e<sub>5</sub>	{S.s<sub>0</sub>,S.s<sub>1</sub>,S.s<sub>2</sub>,S.s<sub>3</sub>}

相似连接是本发明所述的技术方案的第二阶段，对于记录集R中的每一条记录均需要进行发明内容中所述的第(3)至第(6)步操作。下面以表2的示例数据集R的记录R.r₀为例，进行阐述：

发明内容中所述的步骤(3)的具体实施方式为：对于记录r，首先计算其前缀长度π_r。π_r的计算方式采用前缀过滤器技术中使用的计算方法，其公式由特定的相似度函数决定。记录r中全局编号前π_r小的元素所构成的集合成为记录r的前缀集Prefix(r)。然后需从数据库中取出Prefix(r)中的元素对应的倒排索引列表到内存中进行合并，合并后得到候选记录集C(r)。在本例中，对应Jaccard系数的计算公式为式中，τ为阈值，因此在R.r0记录上π_r的取值为2，记录R.r₀中编号前π_r小的元素构成了前缀集Prefix(R.r₀)＝{e₀,e₃}。从表3所示的数据库中取出Prefix(R.r₀)中的元素所对应的倒排索引列表I(e₀)和I(e₃)，在内存中进行合并，得到候选记录集C(R.r₀)，C(R.r₀)的内容为{S.s₀,S.s₁,S.s₂,S.s₃}。

发明内容中所述的技术方案的步骤(4)的具体实施方式为：全量计算模式的数据库访问开销是后缀集Suffix(r)中所有元素的倒排索引列表长度之和。在本例中，记录R.r₀的后缀集的内容为Suffix(R.r₀)＝{e₄,e₅}。根据全量计算模式的数据库访问开销的定义Cost_AllPair＝∑_{e∈Suffix(r)}|I(e)|，结合表3所示的倒排索引，在本例中R.r₀的开销为Cost_AllPair＝|I(e₄)|+|I(e₅)|＝7。

发明内容中所述步骤(5)的具体实施方式为：直接验证模式的数据库访问开销是候选记录集C(r)中的记录的长度之和，即Cost_Verify＝∑_x∈C(r)|S.x|，其中|S.x|表示数据集S中的集合记录x的集合长度。在本例中，根据步骤(3)中计算出的r0的候选记录集C(R.r₀)，可得Cost_Verify＝|S.s₀|+|S.s₁|+|S.s₂|+|S.s₃|＝16。

发明内容中所述技术方案的步骤(6)的具体实施方式为：如果Cost_Allpair≤Cost_Verify则采用全量计算模式，否则采用直接验证模式。在本例中，因为对于记录R.r₀，Cost_Allpair≤Cost_Verify，因此记录R.r₀采用全量计算模式。

发明内容中所述技术方案的步骤(6)中的全量计算模式的具体实施方法为：将记录r的后缀集Suffix(r)中的元素对应的倒排索引列表从数据库中取出，与r的前缀集Prefix(r)中的元素对应的倒排索引列表在内存中进行合并，得到与r有共同元素的来自数据集S的记录的集合，在合并的过程中统计记录s在这些倒排索引列表中出现的次数，即可得到r与s的共同元素数|r∩s|。在本例中，记录R.r₀的前缀集中的元素对应的倒排索引列表有I(e₀)＝{S.s₁,S.s₂}I(e₃)＝{S.s₀,S.s₂,S.s₃}，后缀集中的元素对应的倒排索引列表有I(e₄)＝{S.s₁,S.s₂,S.s₃}，I(e₅)＝{S.s₀,S.s₁,S.s₂,S.s₃}。对这些列表进行合并，可以得到集合{S.s₀,S.s₁,S.s₂,S.s₃}，即S中与r有至少一个共同元素的记录的集合。合并过程中，可以统计到记录S.s₀,S.s₁,S.s₂,S.s₃分别出现在了2、3、4、4个倒排索引中。根据相似度系数的计算公式，计算出R.r₀与S.s₀,S.s₁,S.s₂,S.s₃记录的相似度系数为0.4、0.6、1.0、0.8。输出相似度系数大于或等于阈值0.5的记录对，即(R.r₀,S.s₁)，(R.r₀,S.s₂)和(R.r₀,S.s₃)。

发明内容中所述技术方案的步骤(6)中的直接验证模式的具体实施方法为：从数据库中依次取出候选记录集C(r)中的每条记录s的内容，计算记录r与s的相似度系数，输出相似度系数大于或等于阈值的记录对(r,s)。假设在本例中记录R.r₀采用直接验证模式进行计算，则从数据库中依次取出候选记录集C(R.r₀)中的每条记录的内容S.s₀,S.s₁,S.s₂,S.s₃的内容，然后按相似度系数计算公式计算出R.r₀与这些记录的相似度系数分别为0.4、0.6、1.0、0.8。输出相似度系数大于或等于阈值0.5的记录对，即(R.r₀,S.s₁)，(R.r₀,S.s₂)和(R.r₀,S.s₃)。

本发明提出了一种广阈值范围内高效运行的集合相似连接的方法。为测试该方法的实际性能，在相同的软件、硬件平台上，采用Redis作为数据库，图数据集USPATENTS、LIVEJOURNAL、ORKUT作为测试数据集，Jaccard作为相似度系数，测量了本发明提出的技术方法对数据集进行集合相似自连接操作的执行时间。作为比较，同时测量了全量计算类方法SBM和基于过滤的技术方法PPJ的执行时间。图2展示了实际测量的结果，其中图2(a)、(b)、(c)分别对应USPATENTS、LIVEJOURNAL、ORKUT数据集上的运行时间。在同样的软件、硬件平台上，本发明所述的技术方案在步骤(6)中采用了基于开销的计算模式自动选择，本发明所述的技术方案比单纯的全量计算或基于过滤的技术方法的执行时间短。从图2中可以看出，全量计算类方法SBM在低阈值范围内表现较好，而在高阈值范围内表现较差；基于过滤的方法PPJ则在低阈值范围内表现较差，在高阈值范围内表现较好。本发明提出的方法则在0-1的全阈值范围内均表现良好。

Claims

1.一种阈值自适应的集合相似连接方法，包括以下步骤：

(1)对有限元素集ε＝{e₁,e₂...,e_m}中的元素，统计每个元素在数据集R和S中出现的频率，然后对元素按照其在数据集R和S中出现总频率的大小进行全局递增编号，出现频率低的元素编号较小；

(2)为数据集S构建倒排索引I：对于一个元素e∈ε，从数据集S中查找所有包含该元素e的记录x，构成元素e的倒排索引项I(e)，I(e)＝{x|e∈x,x∈S}，保存构建的倒排索引I到数据库中；

(4)计算全量计算模式的数据库访问开销：全量计算模式的数据库访问开销Cost_AllPair定义为一条记录r的后缀集Suffix(r)中的所有元素的倒排索引列表的长度之和：Cost_AllPair＝∑_{e∈Suffix(r)}|I(e)|，其中Suffix(r)表示记录r的后缀集，|I(e)|表示倒排索引I(e)的长度；

(5)计算直接验证模式的数据库访问开销：直接验证模式的数据库访问开销Cost_Verify定义为Cost_Verify＝∑_x∈C(r)|S.x|，其中|S.x|表示数据集S中的集合记录x的集合元素个数，直接验证模式的数据库访问开销等于候选记录集C(r)中的所有记录的集合元素数之和；

(6)比较所述步骤(4)和步骤(5)中两种模式的数据库访问开销大小，选择开销较小的模式：如果直接验证模式的开销Cost_Verify较小，则采用直接验证模式计算与r相似度系数超过阈值的记录对；否则采用全量计算模式计算与r相似度系数超过阈值的记录对；

所述步骤(3)中，一条记录r的前缀集Prefix(r)是由该记录中全局编号前π小的元素所构成的集合，其中π的计算方法采用过滤器技术中的计算方法；从数据库中取出前缀集Prefix(r)中的元素对应的倒排索引列表，合并这些列表得到候选记录集C(r)：C(r)＝∪_{e∈Prefix(r)}I(e)，其中∪_{e∈Prefix(r)}I(e)表示将所有前缀元素的倒排索引中包含的记录合并；

所述步骤(4)中，记录r的后缀集Suffix(r)是由r中所有非前缀元素构成，即

2.根据权利要求1所述一种阈值自适应的集合相似连接方法，其特征在于：所述步骤(1)中，数据集R和S中的集合记录中所出现的集合元素，均来自有限元素集ε，有限元素集中的每个元素e_i均会被赋予一个全局唯一的编号，该编号按元素在数据集R和S中的出现总频率排序：如果元素e_i的出现频率比元素e_j少,则i也比j小。

3.根据权利要求1所述一种阈值自适应的集合相似连接方法，其特征在于：所述步骤(6)中，如果Cost_AllPair≤Cost_Verify，则采用全量计算模式，否则采用直接验证模式；其中，全量计算模式的步骤如下：将记录r的后缀集Suffix(r)中的元素对应的倒排索引列表，与r的前缀集Prefix(r)中的元素对应的倒排索引列表在内存中进行合并，得到与r有共同元素的来自数据集S的记录的集合，在合并的过程中统计记录s在这些倒排索引列表中出现的次数，得到r与s的共同元素数|r∩s|；根据|r∩s|和记录的长度信息计算出r与s的相似度系数，输出相似度系数大于或等于阈值的记录对(r,s)；直接验证模式的步骤如下：对于候选记录集C(r)中的每条记录s，从数据库中取出记录s的内容，计算记录r与s的相似度系数，输出相似度系数大于或等于阈值的记录对(r,s)。