CN107808001B

CN107808001B - 面向海量异构数据的模式集成方法及装置

Info

Publication number: CN107808001B
Application number: CN201711116061.4A
Authority: CN
Inventors: 王宏志; 李天宝; 齐志鑫; 童超宇; 李战怀; 彭智勇; 王国仁
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2019-12-06
Anticipated expiration: 2037-11-13
Also published as: CN107808001A

Abstract

本发明涉及一种面向海量异构数据知识库的模式集成方法，包括以下步骤：对知识库的数据进行处理，存储知识库中的边信息，形成边集，并构建聚类集合；采用编辑距离连接方法处理取自所述边集的模式集合，整合所述知识库中与所述模式集合中形式上相似的属性及相应的聚类集合；采用语义连接方法处理取自所述边集的模式集合，整合所述知识库中与所述模式集合中语义上相似的属性及相应的聚类集合；对编辑距离连接方法处理和语义连接方法处理所取得的结果集取并集，并进行假阳性检验。本发明还提供了一种面向海量异构数据知识库的模式集成装置。本发明提供的模式集成方法和装置可以对来自于异源知识库的模式进行高效准确的集成。

Description

面向海量异构数据的模式集成方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种面向海量异构数据的模式集成方法及装置。

背景技术

数据集成被应用于多个方面，诸如数据清洗、生物信息分析、模式识别等等。在当下的大数据时代，对于多数据源的集成往往很难直接获得描述所有数据的全局模式，因此数据集成领域一个较为重要的课题就是全局模式的产生，通过设计一些合理的匹配关系和高效的方法，省时、准确的生成一个全局数据库模式成为了迫切的需求。

数据集成的基础工作就是模式集成。模式集成的目标是将不同数据库中相同或者相似的属性合并成一个属性，是数据库领域一项基础但非常重要的技术。

目前，研究人员往往使用相似函数，诸如杰卡德(Jaccard)相似度来处理模式集成，但这种方法不能解决语义方面的关联。现有技术中提出的SEMA-JOIN方法则需要更多的实例信息，即针对不同属性的值信息。而对于容量较大、来源较多的异源数据库来说，将大量值信息带入到集成过程并不可行。且对于生产环境中的数据库来说，部分属性中不含有值信息。因此，这种方法比较缺乏普适性。

发明内容

(一)要解决的技术问题

本发明的目的是提供一种可以对来自于异源数据库的模式进行高效准确的集成的，面向海量异构数据的模式集成方法以及装置。

(二)技术方案

为了实现上述目的，本发明提供了一种面向海量异构数据知识库的模式集成方法，包括以下步骤：

预处理步骤、对知识库的数据进行处理，存储知识库中的边信息，形成边集，并构建聚类集合；

第一合并步骤、采用编辑距离连接方法处理取自所述边集的模式集合，整合所述知识库中与所述模式集合中形式上相似的属性及相应的聚类集合；

第二合并步骤、采用语义连接方法处理取自所述边集的模式集合，整合所述知识库中与所述模式集合中语义上相似的属性及相应的聚类集合；

检验步骤、对所述第一合并步骤和第二合并步骤所取得的结果集取并集，并进行假阳性检验。

优选地，所述预处理步骤包括：

边信息子步骤、采用哈希算法存储所述知识库的边信息，在边的哈希值对应的空间内储存边的起点、终点以及边的长度，得到存储所述知识库的边信息的边集；

聚类集合子步骤、聚类集合由二元组{U,S_U}构成，其中U集合是存储相似属性的属性集合，而S_U集合中储存的每个属性至少和U集合中的一个属性的距离小于阈值ε_t。

优选地，所述编辑距离连接方法处理步骤包括：

倒排表子步骤、构造起点属性的q-gram倒排表，对于待集成的模式集合R和T，XR和ZR是根据所述模式集合R中属性而构造的倒排表，其中，XR连接所述模式集合R的U集合，ZR连接所述模式集合R的S_U集合；XT和ZT是所述模式集合T中属性而构造的倒排表，其中，XT连接所述模式集合T的U集合，ZT连接所述模式集合T的S_U集合；

相似属性检测子步骤、分别对XR和XT，XR和ZT，以及XT和ZR之间的编辑距离进行计算和比较，若三次比较中至少一次的结果判定有相似的属性对，则将相似的属性对所对应的聚类集合合并得到结果集，完成相似属性检测。

优选地，所述语义连接方法处理步骤包括：

初始化子步骤、输入所述边集中待集成的模式集合R，将所述模式集合R中每一个以任意属性为起点的路径加入到路径集合P中，按照终点进行分组；

路径扩展子步骤、γ为语义阈值，每执行一次连接操作，将上一次操作得到的路径集合向外扩展一个单位距离，得到新的路径集合，总计在所述知识库中执行γ-1次连接操作，使得完成迭代后的路径集合包含与所述属性集合R中属性相距至多为γ的概念；

集合维护子步骤、合并拓展后的路径集合所对应的聚类集合，得到结果集。

优选地，所述检验步骤包括用值检验和人工检验对所述并集进行假阳性检验。

本发明还提供了一种面向海量异构数据知识库的模式集成装置，包括：

预处理模块，用于对知识库的数据进行处理，存储知识库中的边信息，形成边集，并构建聚类集合；

第一合并模块，用于采用编辑距离连接方法处理取自所述边集的模式集合，整合所述知识库中与所述模式集合中形式上相似的属性及相应的聚类集合；

第二合并模块，用于采用语义连接方法处理取自所述边集的模式集合，整合所述知识库中与所述模式集合中语义上相似的属性及相应的聚类集合；

检验模块，用于对所述第一合并模块和第二合并模块所取得的结果集取并集，并进行假阳性检验。

优选地，所述预处理模块包括：

边信息单元，用于采用哈希方法存储所述知识库的边信息，在边的哈希值对应的空间内储存边的起点、终点以及边的长度，得到存储所述知识库的边信息的边集；

聚类集合单元，用于形成聚类集合，聚类集合由二元组{U,S_U}构成，其中U集合是存储相似属性的属性集合，而S_U集合中储存的每个属性至少和U集合中的一个属性的距离小于阈值ε_t。

优选地，所述第一合并模块包括：

倒排表单元，用于构造起点属性的q-gram倒排表，对于待集成的模式集合R和T，XR和ZR是根据所述模式集合R中属性而构造的倒排表，其中，XR连接所述模式集合R的U集合，ZR连接所述模式集合R的S_U集合；XT和ZT是所述模式集合T中属性而构造的倒排表，其中，XT连接所述模式集合T的U集合，ZT连接所述模式集合T的S_U集合；

检测单元，用于分别对XR和XT，XR和ZT，以及XT和ZR之间的编辑距离进行计算和比较，若三次比较中至少一次的结果判定有相似的属性对，则将相似的属性对所对应的聚类集合合并得到结果集，完成相似属性检测。

优选地，所述第二合并模块包括：

初始化单元，用于输入所述边集中待集成的模式集合R，将所述模式集合R中每一个以任意属性为起点的路径加入到路径集合P中，按照终点进行分组；

路径扩展单元，每执行一次连接操作，将上一次操作得到的路径集合向外扩展一个单位距离，得到新的路径集合，总计在所述知识库中执行γ-1次连接操作，使得完成迭代后的路径集合包含与所述属性集合R中属性相距至多为γ的概念；

集合维护单元，用于合并拓展后的路径集合所对应的聚类集合，得到结果集。

优选地，所述检验模块用于采用值检验和人工检验对所述并集进行假阳性检验。

(三)有益效果

本发明的上述技术方案具有如下优点：本发明涉及一种面向海量异构数据知识库的模式集成方法及装置，首先通过对知识库的数据进行处理，存储知识库中的边信息，形成边集，并构建聚类集合，实现对知识库信息的简化，提升集成效率；其次采用编辑距离连接方法处理取自所述边集的模式集合，整合所述知识库中与所述模式集合中形式上相似的属性及相应的聚类集合，采用语义连接方法处理取自所述边集的模式集合，整合所述知识库中与所述模式集合中语义上相似的属性及相应的聚类集合，这两种规则可以覆盖大多数情况下属性的相似，从而较准确的进行属性的集成；最后对所述编辑距离连接方法处理步骤和语义连接方法处理步骤所取得的结果集取并集，并进行假阳性检验，减少结果集中的假阳性情况，提高结果的准确性。

附图说明

图1是本发明实施例一中的面向海量异构数据知识库的模式集成方法步骤图；

图2是本发明实施例一中的编辑距离连接方法处理步骤的流程图；

图3是本发明实施例一中的语义连接方法处理步骤的流程图；

图4是本发明实施例二中的面向海量异构数据知识库的模式集成装置的模块示意图；

图5是本发明实施例二中的预处理模块的模块示意图；

图6是本发明实施例二中的第一合并模块的模块示意图；

图7是本发明实施例二中的第二合并模块的模块示意图；

图中：100：预处理模块；101：边信息单元；102：聚类集合单元；200：第一合并模块；201：倒排表单元；202：检测单元；300：第二合并模块；301：初始化单元；302：路径扩展单元；303：集合维护单元；400：检验模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本发明实施例提供的一种面向海量异构数据知识库的模式集成方法，包括以下步骤：

首先，在步骤S101中，执行预处理步骤，用于对知识库的数据进行处理，存储知识库中的边信息，形成边集，并构建聚类集合；优选地，预处理步骤包括：执行边信息子步骤，采用哈希(Hash)算法存储知识库的边信息，对于任意的一个边e(a，b)，分别对应起点a和终点b，在边的哈希值对应的空间内储存对应起点a、终点b以及边的长度，得到存储知识库的边信息的边集E，并使用数据结构临近表，将边集E中拥有共同终点的路径归为一类。

临近表H_k(t)的表达式为：

H_k(t)＝{a_i|(t,a_i,d)∈P∧d＝k}

其中，t是路径的终点，k是路径的长度，a_i是路径的起点，P是知识库中多个路径的集合；

临近表接收知识库中的任意一个属性t，返回所有以t为终点、长度为k的路径，以t为关键字形成一个哈希表。

预处理步骤还包括聚类集合子步骤，聚类集合由二元组{U,S_U}构成，其中U是属性的集合，U集合中储存着被认定为相似的属性，而为了加速在拼写相近匹配阶段的运行，S_U集合中储存的一些属性，每个至少和U中的一个元素距离小于阈值ε_t。

对于存储相似属性的属性集合U，S_U集合的表达式为：

其中，S为知识库中的概念集合，r为概念集合中的属性，t为属性集合U中的属性，d为概念集合S中的属性r与属性集合U中的属性t之间的距离，ε_t为距离的阈值。

聚类集合能够使基于拼写相似的集成一同完成，能够减少之后运算时知识库的遍历次数。S_U集合中储存的是在接下来的集成过程中有可能归并到U集合中的一些属性。相比于每次遍历知识库进行查找和匹配，聚类集合能够提前将可能用到的属性以较小的代价存储下来，以空间换时间，减少遍历的次数，从而提升算法的效率。

预处理步骤对知识库的数据进行归纳整理，并使得语义连接方法处理步骤中拥有共同终点的多条路径只需做一次相同的扩展，提高了后续运算的运行效率。

其次，在步骤S102中，执行第二合并步骤，采用编辑距离连接(Edit distanceJoin)方法处理取自边集E的模式集合，整合知识库中与模式集合中形式上相似的属性及其对应的聚类集合，得到第一结果集。编辑距离连接方法的功能是将知识库中形式上相似的属性进行匹配，整合具有形式上相似属性的聚类集合。判断相似属性对的条件如下：

对于给定两个模式集合组R和T以及判定阈值d，假定R中包含聚类集合(U₁,S₁)，T中包含聚类集合(U₂,S₂)，当满足如下条件之一时，二者可判定为相似属性对：

(1)(2)

(3)本步骤中采用基于q-gram的编辑距离算法作为判定依据，实现上述判定。

再次，在步骤S103中，执行第三合并步骤，采用语义连接(Semantic Join)方法处理取自边集的模式集合，整合知识库中与模式集合中语义上相似的属性及其对应的聚类集合，得到第二结果集；语义连接方法的功能是将知识库上γ距离内的属性进行归并，这里的γ是用户根据数据具体情况给定的一个语义阈值，具体来说是用来限定知识库上被认定为语义相似概念的距离上限。其过程可抽象为下面的公式：

(R)∪(R∞E)∪(R∞²E)∪…∪(R∞^y-1E)∪(R∞^yE)

其中，E为边集，R为待集成的模式集合。

最后，在步骤S104中，执行检验步骤，对步骤S102中编辑距离连接方法处理步骤取得的结果集与步骤S103中语义连接方法处理步骤取得的结果集取并集，并对该并集进行假阳性检验，得到最终的结果集。其中，假阳性检验包括对并集用值检验(类型、前后缀)和人工检验(众包)的方法进行假阳性检验，减少假阳性情况。

本发明采用编辑距离连接和语义连接两种方法用来集成知识库中相同或者相似的属性，其中，编辑距离连接方法用来匹配知识库中因形式上相近而相似的属性，而语义连接方法用来匹配知识库中因语义上接近而相似的属性。

如图2所示，在更优选的实施例中，在第一合并步骤中，采用基于q-gram的编辑距离方法作为判定依据。作为一种基本的数据结构，使用倒排表来描述q-gram中的每一个条目，根据对于判定相似的三条规则，需要对XR和XT，XR和ZT，XT和ZR之间的编辑距离分别计算并比较，寻找是否存在有满足相似规则的属性对。优选地，由于知识库中的信息量极大，因此需要离线生成倒排表。

首先，执行步骤S201开始运算，执行步骤S202输入对于边集E中待集成的模式集合R和模式集合T。

执行步骤S203，这一步骤为倒排表子步骤，构造模式集合R和模式集合T中的起点属性的q-gram倒排表，并将倒排表连接对应的存储相似属性的U集合和S_U集合；

具体地，XR和ZR是根据模式集合R中属性而构造的倒排表，其中，XR连接模式集合R的U集合，ZR连接模式集合R的S_U集合；XT和ZT是模式集合T中属性而构造的倒排表，其中，XT连接模式集合T的U集合，ZT连接模式集合T的S_U集合；

然后，进行相似属性检测子步骤，将倒排表输入编辑距离计算函数，分别对XR和XT，XR和ZT，以及XT和ZR之间的编辑距离进行计算和比较，若三次比较中至少一次的结果判定有相似的属性对，则将相似的属性对所对应的聚类集合分别合并得到结果集。

即，若模式集合R中的属性r和模式集合T中的属性t相似，则需要将模式集合R和模式集合T对应的聚类集合合并，包括将模式集合R对应的U集合与模式集合T对应的U集合合并，将模式集合R对应的S_U集合与模式集合T对应的S_U集合合并，完成相似属性检测。

优选地，相似属性检测自步骤包括：

执行步骤S204，统计其中一个倒排表中每个属性形成的gram的出现次数；初始化结果集并设定统计阈值(Count Filtering)；

执行步骤S205，判定是否存在相似属性对，对于倒排表中任意一个属性v，若在另一个倒排表中，存在属性u，属性u中与属性v相同的gram出现次数超过统计阈值，则将属性u与属性v判定为相似的属性对。若存在相似的属性对，则执行步骤S206，维护集合，合并对应的属性集合和聚类集合，若不存在相似的属性对，则跳至步骤S207判断是否还有下一个gram。在步骤S207中再次进行判断，若是最后一个gram，则执行步骤S208结束运算，若不是，则跳至步骤S205，继续检测是否存在相似的属性对。

进一步优选地，如图3所示，第二合并步骤中的语义连接方法的步骤包括：

首先进行初始化子步骤，执行步骤S301开始运算，执行S302输入边集E中待集成的模式集合R，然后执行步骤S303将模式集合R中每一个以任意属性为起点的路径加入到路径集合P中，按照终点进行分组，分组后，对于终点t，路径集合P_t的表达式为：

P_t＝{(start,k)start∈H_k(t)}

其中，start为路径的起点，k为路径的长度，H_k(t)为以t为关键字的临近表。

然后执行路径扩展子步骤，执行步骤S304，将完成分组后的所述路径集合P向外扩展一个单位距离，得到路径结果集，执行步骤S305进行判断，若路径长度延伸至目标阈值，即语义阈值γ，则执行步骤S306，即集合维护子步骤，合并对应的聚类集合，将拓展后的路径结果集所对应的U集合与输入的模式集合R所对应的U集合合并，将路径结果集所对应的S_U集合与模式集合R所对应的S_U集合合并，得到第二结果集。

若路径长度未延伸至目标阈值，则跳转至步骤S307，判断是否是最后一次连接操作，若是则执行步骤S308结束计算，若不是，则跳转回到步骤S305，继续将路径集合向外拓展一个单位，得到新的路径集合，总计在所述知识库中执行γ-1次连接操作，使得完成迭代后的路径结果集包含与所述属性集合R中属性相距至多为γ的概念；

需要说明的是，本发明采用编辑距离连接和语义连接两种方法用来集成相同属性的不同表达形式，在本实施例中，先采用编辑距离连接方法计算，后采用语义连接方法计算，在其他实施例中，也可以先采用语义连接方法，后采用编辑距离连接方法。

表1实验结果质量

实施例二

如图4所示，本发明实施例提供的一种面向海量异构数据知识库的模式集成装置，包括预处理模块100、第一合并模块200、第二合并模块300和检验模块400，其中：

预处理模块100用于对知识库的数据进行处理，存储知识库中的边信息，形成边集，并构建聚类集合。

如图5所示，预处理模块100包括边信息单元101，采用哈希方法存储知识库的边信息，在边的哈希值对应的空间内储存边的起点、终点以及边的长度，得到存储知识库的边信息的边集，并使用数据结构临近表，将边集中拥有共同终点的路径归为一类，多条路径只需做一次相同的扩展以提升效率。

预处理模块100还包括聚类集合单元102，用于形成聚类集合，聚类集合由二元组{U,S_U}构成，其中U集合是存储相似属性的属性集合，S_U集合中储存的每个属性至少和属性集合U中的一个属性的距离小于阈值ε_t。这些属性是可能在接下来的集成过程中归并到属性集合U中的，相比于每次在知识库上进行查找和匹配，提前将可能用到的属性以较小的代价储存下来，以空间换时间，提升算法的运行效率。

对于存储相似属性的U集合，S_U集合的表达式为：

其中，S为知识库中的概念集合，r为概念集合中的属性，t为属性集合U中的属性，d为概念集合S中的属性r与属性集合U中的属性t之间的距离，ε_t为距离的阈值；

第一合并模块200用于采用编辑距离连接方法处理取自边集的模式集合，整合知识库中与模式集合中形式上相似的属性及其对应的聚类集合，得到第一结果集。

第二合并模块300用于采用语义连接方法处理取自边集的模式集合，整合知识库中与模式集合中语义上相似属性及其对应的聚类集合，得到第二结果集。

检验模块400用于对第一合并模块200得到的第一结果集与第二合并模块300得到的第二结果集取并集得到第三结果集，并对第三结果集进行假阳性检验，得到最终结果集。优选地，假阳性检验包括值检验(类型、前后缀)和人工检验(众包)。

如图6所示，优选地，第一合并模块200包括倒排表单元201和检测单元202，其中：

倒排表单元201用于构造起点属性的q-gram倒排表，使用倒排表来描述q-gram中的每一个条目，对于待集成的模式集合R和T，XR和ZR是根据所述模式集合R中属性而构造的倒排表，其中，XR连接所述模式集合R的U集合，ZR连接所述模式集合R的S_U集合；XT和ZT是所述模式集合T中属性而构造的倒排表，其中，XT连接所述模式集合T的U集合，ZT连接所述模式集合T的S_U集合；优选地，由于数据量较大，这样的倒排表是应离线生成的。

检测单元202用于分别对XR和XT，XR和ZT，以及XT和ZR之间的编辑距离进行计算和比较，这里采用基于q-gram的编辑距离算法作为判定依据，根据对于判定相似的三条规则，需要在XR和XT，XR和ZT，XT和ZR之间分别比较，寻找是否存在有满足相似规则的属性对。调用编辑距离函数接收倒排表进行相似属性检测，若三次比较中至少有一次的结果判定有相似的属性对，则将相似的属性对所对应的属性集合和聚类集合分别合并得到结果集，完成相似属性检测。

进一步优选地，第二合并模块300中，定义γ为语义阈值，其过程可表达为：

(R)∪(R∞E)∪(R∞²E)∪…∪(R∞^y-1E)∪(R∞^yE)

其中，E为存储知识库的边信息的边集，R为边集中的模式集合；

如图7所示，第二合并模块300包括初始化单元301、路径扩展单元302和集合维护单元303，其中：

初始化单元301用于输入边集中待集成的模式集合R，将模式集合R中每一个以任意属性为起点的路径加入到路径集合P中，按照终点进行分组，分组后，对于终点t，路径集合P_t的表达式为：

P_t＝{(start,k)start∈H_k(t)}

其中，start为路径的起点，k为路径的长度，H_k(t)为以t为关键字的临近表；

路径扩展单元302用于执行连接操作；第一次执行连接操作，将完成分组后的路径集合P向外扩展一个单位距离，得到路径结果集；之后每执行一次连接操作，将上一次操作得到的路径结果集向外扩展一个单位距离，得到新的路径结果集，总计在知识库中执行γ-1次连接操作，使得完成迭代后的路径结果集包含与属性集合R中属性相距至多为γ的概念；

集合维护单元303用于合并拓展后的路径结果集所对应的属性集合和聚类集合，得到第二结果集。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向海量异构数据知识库的模式集成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向海量异构数据知识库的模式集成方法，其特征在于，所述预处理步骤包括：

3.根据权利要求2所述的面向海量异构数据知识库的模式集成方法，其特征在于，所述编辑距离连接方法处理步骤包括：

4.根据权利要求3所述的面向海量异构数据知识库的模式集成方法，其特征在于，所述语义连接方法处理步骤包括：

5.根据权利要求4所述的面向海量异构数据知识库的模式集成方法，其特征在于，所述检验步骤包括用值检验和人工检验对所述并集进行假阳性检验。

6.一种面向海量异构数据知识库的模式集成装置，其特征在于，包括：

7.根据权利要求6所述的面向海量异构数据知识库的模式集成装置，其特征在于，所述预处理模块包括：

8.根据权利要求7所述的面向海量异构数据知识库的模式集成装置，其特征在于，所述第一合并模块包括：

9.根据权利要求8所述的面向海量异构数据知识库的模式集成装置，其特征在于，所述第二合并模块包括：

10.根据权利要求9所述的面向海量异构数据知识库的模式集成装置，其特征在于：所述检验模块用于采用值检验和人工检验对所述并集进行假阳性检验。