CN109063048B

CN109063048B - 一种基于知识库图匹配的数据清洗方法及装置

Info

Publication number: CN109063048B
Application number: CN201810789814.6A
Authority: CN
Inventors: 王宏志; 付译磊; 万晓珑; 高宏
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2020-08-18
Anticipated expiration: 2038-07-18
Also published as: CN109063048A

Abstract

本发明涉及一种基于知识库图匹配的数据清洗方法，包括：根据待清洗的数据库生成查询语句；对查询语句进行数据转图并合并相似条目，生成搜索图；所述搜索图采用二级索引表示，包括两个标签；根据所有所述搜索图的标签对知识库进行筛选，筛选出满足所述搜索图中一组第一个标签和第二个标签所示信息的数据，转图并合并相似条目，转为知识库大图；将搜索图与知识库大图进行图匹配操作，返回查询结果；根据返回的查询结果，对待清洗的数据库进行清洗。本发明还提供了一种基于知识库图匹配的数据清洗装置。本发明通过图匹配快速查询知识库实现对数据库的清洗，能够减少数据存储所占空间，简化查询结果，减少查询时间，提升清洗的效率。

Description

一种基于知识库图匹配的数据清洗方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于知识库图匹配的数据清洗方法及装置。

背景技术

由于大数据数据库的快速发展，对于数据完整性的要求越来越高，导致数据清洗成为了一个重要的需要解决的任务。绝大多数的数据清洗方法是通过对数据本身进行挖掘进行清洗，这种方法需要大量的计算方法，比如在聚类的时候需要计算欧几里得(或其他)距离，这无疑需要消耗大量的时间，增加时间复杂度。同时，类似统计类和基于模式的数据清洗需要人工操作，如选择模型、调整参数等等，也需要很多的时间。目前比较有影响力的计算方法比如Volcano-SH和Volcano-RU都无法解决处理相似查询的情况。

利用知识库进行数据清洗是一种很好的解决方式，知识库是一种特殊的数据库，通常使用RDF(resource description framework)数据模型，存储特定领域的知识。通过使用知识库，只需要对知识库进行查询，然后将查询结果和待清洗的原数据库进行比对，即可进行数据清洗，修正原数据库中的数据等。

尽管使用知识库会带来很多好处，但是目前依然存在很多问题需要解决。特别是对于应用在海量数据上的数据清洗，需要执行非常多查询来寻找知识库中符合条件的元组，计算时间长，且数据占用空间大。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是解决现有数据清洗方法在处理海量数据时，存储占用空间大，计算过程复杂，且耗费时间长的问题。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于知识库图匹配的数据清洗方法，包括：

S1、根据待清洗的数据库生成查询语句；

S2、根据查询语句对知识库进行查询，并返回查询结果，查询过程包括：

S2-1、对查询语句进行数据转图并合并相似条目，转为搜索图；所述搜索图采用二级索引表示，其数据结构表示为(ID，LABEL1，LABEL2)，其中ID表示一点的信息，第一个标签LABEL1表示该点连接的边信息，第二个标签LABEL2表示该边连接的另一点的信息；

S2-2、根据所有所述搜索图的标签对知识库进行筛选，筛选出满足所述搜索图中一组第一个标签和第二个标签所示信息的数据，转图并合并相似条目，转为知识库大图；

S2-3、将搜索图与知识库大图进行图匹配操作，返回图匹配结果，并根据图匹配结果返回查询结果；

S3、根据返回的查询结果，对待清洗的数据库进行清洗。

优选地，知识库为RDF类型知识库，表示查询语句所用查询语言为SPARQL查询语言。

优选地，步骤S2-1中对查询语句进行数据转图时，对具有相同的主语、谓语或宾语的相似查询语句，合并其相同的部分。

优选地，对于嵌套查询和合并查询中具有相同的主语、谓语和宾语的部分相同的查询语句，在该查询语句表示边信息的第一个标签中加入索引后，再合并其相同的部分。

优选地，所述第一个标签加入索引后,表示为{p,n,+/-}，其中p表示谓语，n表示索引，+/-表示边的指向。

优选地，所述步骤S2-3中将搜索图与知识库大图进行图匹配操作时，包括：

将搜索图分为两部分，一部分为已知的搜索结构，代表搜索的主干部分，另一部分为未知的疑问结构，代表要查询的内容部分；

对搜索结构进行匹配，在知识库大图中匹配到与搜索结构相同的结构后，返回从知识库大图中查询得到的查询内容，得到图匹配结果；

将图匹配结果与疑问结构进行对比，得到查询结果。

优选地，所述步骤S2还包括：

S2-4、将图匹配结果提取为以查询语言表示的查询结果。

优选地，所述步骤S2-4中将图匹配结果提取为以查询语言表示的查询结果时，包括：

a)找到已知顶点，以顶点为划分点，将图匹配结果分为不同的查询块；

b)在查询块中提取嵌套查询并转为以查询语言表示的查询结果；

c)在查询块中提取合并查询并转为以查询语言表示的查询结果；

d)在查询块中提取简单查询并转为以查询语言表示的查询结果，提取时按照边的方向提取。

优选地，所述步骤S2-4中将图匹配结果提取为以查询语言表示的查询结果时，嵌套查询表现为主语、谓语和宾语三者全是已知，且连接着其他的边；合并查询表现为顶点连接两个或多个边和查询后的疑问点。

本发明还提供了一种基于知识库图匹配的数据清洗装置，包括：预处理模块，所述预处理模块用于根据待清洗的数据库生成查询语句；

查询模块，所述查询模块用于根据查询语句对知识库进行查询，并返回查询结果，查询过程包括：

对查询语句进行数据转图并合并相似条目，转为搜索图；所述搜索图采用二级索引表示，其数据结构表示为(ID，LABEL1，LABEL2)，其中ID表示一点的信息，第一个标签LABEL1表示该点连接的边信息，第二个标签LABEL2表示该边连接的另一点的信息；

根据所有所述搜索图的标签对知识库进行筛选，筛选出满足所述搜索图中一组第一个标签和第二个标签所示信息的数据，转图并合并相似条目，转为知识库大图；

将搜索图与知识库大图进行图匹配操作，返回图匹配结果，并根据图匹配结果返回查询结果；

结果处理模块，所述结果处理模块用于根据返回的查询结果，对待清洗的数据库进行清洗。

(三)有益效果

本发明的上述技术方案具有如下优点：本发明提供了一种基于知识库图匹配的数据清洗方法，根据待清洗的数据库生成查询语句，通过数据转图的方式，将知识库和大量查询语句转化成图的形式，然后进行图匹配，进而获得查询结果，根据查询结果对数据库进行清洗。本发明的优势在于对查询语句和知识库中海量的相似条目进行了压缩转图，以减少数据的存储空间，同时对于压缩后的图建立新的图匹配方法，针对知识库稀疏不易分割的特征，将查询操作转化为图的匹配操作，图匹配操作对于冗余查询和复杂查询都有很好的解决方式，所以能够得到更加简略的结果，减少查询的时间，提升数据清洗的效率。

本发明还提供了一种基于知识库图匹配的数据清洗装置，通过快速查询知识库实现对数据库的清洗，能够减少数据存储所占空间，简化查询结果，减少查询时间，提升数据清洗的效率。

附图说明

图1是本发明实施例中基于知识库图匹配的数据清洗方法步骤图；

图2是本发明实施例中具有相同的主语的相似条目合并示意图；

图3是本发明实施例中具有相同的谓语的相似条目合并示意图；

图4是本发明实施例中嵌套查询和合并查询转图操作出现语义不明的示意图；

图5是本发明实施例中嵌套查询和合并查询带索引合并的示意图；

图6是本发明实施例中一个搜索图分为两部分的示意图；

图7是搜索图以二级索引形式表示的数据结构示意图；

图8是本发明实施例中基于知识库图匹配的数据清洗装置结构示意图。

图中：100：预处理模块；200：查询模块；300：结果处理模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种基于知识库图匹配的数据清洗方法，包括：

S1、根据待清洗的数据库生成查询语句。

查询语句以数据库可识别的查询语言表示。优选地，知识库可采用通用的RDF类型知识库。一个普通的RDF类型知识库的数据模型通常有三种元素：主语(s)、谓语(p)、宾语(o)。一些知识库，例如YAGO，就在使用这种类型的知识表示形式。所谓知识库，其内容大多都是准确的，目前很多知识库都是从高可信度的网站，例如Wikipidea、WordNet等网站提取的，所以可以保证知识库数据的准确性。

表示查询语句所用查询语言可采用通用的SPARQL语言。在RDF类型知识库上进行查询可以使用很多种查询语言，例如RQL、SeRQL、N3、SPARQL，等等。然而，W3C强力推荐的SPARQL是这些查询语言中最易阅读和使用的(性能方面和其他语言各有利弊，和知识库的稀疏程度、结构等有关)。显然，在其他实施例中，也可以根据实际需要改为采用其他查询语言。

S2、根据步骤S1获得的查询语句对知识库进行查询，并返回查询结果，查询过程包括：

S2-1、对查询语句进行数据转图并压缩，合并相似条目，转为搜索图；所述搜索图采用二级索引表示，包括一组两个标签，其数据结构表示为(ID，LABEL1，LABEL2)，其中ID表示一点的信息，第一个标签LABEL1表示该点连接的边信息，第二个标签LABEL2表示该边连接的另一点的信息，即点的邻接点信息。此部分中，搜索图转为有向的带边信息的超图，任一搜索图中的任一组两个标签中，第一个标签内包含了一条查询语句的谓语信息，第二个标签内包含了该查询语句的主语或宾语信息。

S2-2、根据所有所述搜索图的标签对知识库进行筛选，筛选出满足任一所述搜索图中一组第一个标签和第二个标签所示信息的数据，转图并压缩，合并相似条目，转为知识库大图。此部分中，根据第一个标签内的谓语信息和第二个标签内的主语或宾语信息对知识库进行筛选，可以选出与搜索图相关的数据，去除与本次搜索(清洗)无关的内容，只对相关的数据进行转图并压缩，有效提高计算效率、节省空间。

S2-3、将搜索图与知识库大图进行图匹配操作，返回图匹配结果，并根据图匹配结果返回查询结果。

S3、根据查询结果，对待清洗的数据库进行清洗。

现有技术中，在子图匹配方向上，有很多方法能够进行高效的匹配，比如Ulmann和VF2计算方法，但是其只适用于小规模数据库。现在的大多数子图匹配方法都是基于索引的建立，比如GraphQL和RWM计算方法，而当所研究的数据量很大，特别是针对海量数据进行数据清洗时，不适合使用带索引的方法建立图。

本发明通过将复杂的搜索转化成图的方式，将原本数据量很大的海量查询语句简化成压缩后的搜索图，将知识库简化为压缩后的知识库大图，由于查询语句和知识库中均存在大量的相似条目，生成图时对相似条目进行合并压缩，能够有效节省储存空间。然后以图匹配的方式将搜索图与知识库大图匹配，得到搜索图中未知的待查询内容部分，对于冗余查询和复杂查询都能很好的解决，简化查询的时间和空间。本发明提供的查询方法与以往在分布式数据上对图类型数据进行分割匹配的研究不同，本发明可在单一的存储结构中进行图匹配。并且，本发明所采用的方法无需对知识库大图进行分割，适用于稀疏不易分割的知识库。

步骤S2中将查询语句和知识库分别进行转图并压缩是针对查询语句和知识库中存在的大量相似条目，例如：

<Wouter_Vrancken><playsFor><K.V._Kortrijk>

<Jani_Viander><playsFor><K.V._Kortrijk>

以上两条除了主语不同之外，其他内容均相同，所以可以在生成图的时候进行合并。

优选地，步骤S2-1中对待查询的查询语句进行数据转图时，查询语句包括简单查询、嵌套查询和合并查询三种形式。

首先，对于简单查询可直接进行查询转图，普通的查询转图和现有技术中正常的SPARQL搜索转图没有区别，在此不再赘述。

对于简单查询中，具有相同的主语、谓语或宾语的相似查询语句，合并其相同的部分。如图2和图3所示，对于具有相同的主语(宾语)的条目，采用如图2所示方式合并，其中，s表示两个条目相同的主语，p₀表示条目1的谓语，p₁表示条目2的谓语，“？”表示未知的待查询疑问点(任意宾语(主语))；对于具有相同谓语的条目，采用如图3所示方式合并，其中，p表示两个条目相同的谓语，“？”表示未知的待查询疑问点(任意主语或宾语)。

以上是简单的SPARQL查询转图所需要的操作。

然而，SPARQL查询不只是简单查询，还存在嵌套查询和合并查询(UNION)等情况。嵌套查询需要进行图上的多级连接，UNION操作需要查询两个不同的宾语，这样在对应的转图操作上就会出现语义不明的情况，如图4所示，图4示出了两个查询块(左侧的查询块Query Block1和右侧的查询块Query Block2)混淆合并(Confused Combination)，其中a、b、c表示任意主语或宾语，谓语部分省略。本发明中认为一个查询块为搜索图的最小单位，且一个查询块内不包含有可能引起语义不明的边。

对于嵌套查询和合并查询中具有相同的主语、谓语和宾语的部分相同的查询语句(即具有一条相同的边)，在该查询语句表示边信息的第一个标签中加入索引后，再合并其相同的部分，避免直接转图操作出现语义不明。即在合并的时候进行标注，在边信息内标注此相同的边来自于哪一个查询块，避免出现语义不明，如图5所示，以带索引的合并方式进行解决，图5示出了带索引合并(Indexed Combination)。由于这种合并在SPARQL数据清洗中占少数，大多数都是简单查询，因此并不会增大很多的空间。

所述超图的数据结构包括点信息和两个标签，表示为(ID，LABEL1，LABEL2)，第一个标签加入索引后,可表示为{p,n,+/-}，其中p表示谓语，n表示索引，+/-表示边的指向，如图7所示，数据结构可以表示成(a,{p6,0,-},？)，(a,{p2,0,+},{c})，(a,{p3,0,+},{d})。

步骤S2-2中对筛选后的知识库大图进行转图并合并相似条目的方法与上述针对查询语句的合并操作采用相同的策略，在此不再重复说明。

优选地，步骤S2-3中将搜索图与知识库大图进行图匹配操作时，匹配规则包括：

如图6所示，将搜索图分为两部分，一部分为已知的搜索结构(Query Structure)，如图6中虚线圈内部的部分，代表搜索的主干部分，另一部分为未知的疑问结构(QuestionMark)，如图6中虚线圈外部的部分，代表要查询的内容部分。图6和图7中的“？”表示未知的疑问结构，即待查询的疑问点。

对搜索结构进行匹配，在知识库大图中匹配到与搜索结构相同的结构后，返回从知识库大图中查询得到的查询内容(与搜索图中未知的疑问结构相对应的部分)，得到图匹配结果。

将匹配到的结果与疑问结构进行对比，得到查询结果。根据查询结果，即可对原数据库进行清洗。

由于图匹配得到的结果也是图形式，不能直接被数据库识别，不确定其具体对应的查询语句，优选地，步骤S2还包括：

S2-4、将图匹配结果提取为以查询语言表示的查询结果。

进一步优选地，步骤2-4中将图匹配结果提取为以查询语言表示的查询结果时，可采用如下步骤：

a)找到已知顶点，以顶点为划分点，将图匹配结果分为不同的查询块；针对两个查询块共用同一条边的混淆查询(Confused Query)，通过对边上的信息(第二个标签中的索引)的识别进行分解。

提取时，嵌套查询表现为主语、谓语和宾语三者全是已知，且连接着其他的边；合并查询表现为顶点连接两个或多个边和查询后的疑问点，此处的查询后的疑问点对应原本疑问结构中“？”所表示的未知的点。

在一个优选的实施例中，本发明可通过改进ST-Wig方法生成自己的方法，下面给出本发明的部分伪代码：

Algorithm 1QGMatching(q)where qG＝(r,L₁,L₂)

其中，S_r表示存储给定(L₁,L₂)的点的ID的集合，R表示匹配后的图匹配结果集合，c.children表示加载的定位到ID的节点c的子节点，R.border.childern表示匹配后的图匹配结果集合的边界点的子节点集合，也就是和疑问结构相对应的结果。

如图8所示，一种基于知识库图匹配的数据清洗装置，包括预处理模块100、查询模块200和结果处理模块300，具体地：

预处理模块100用于根据待清洗的数据库生成查询语句。

查询模块200用于根据查询语句对知识库进行查询，并返回查询结果，查询过程包括：

对查询语句进行数据转图并压缩，合并相似条目，转为搜索图；所述搜索图采用二级索引表示，其数据结构表示为(ID，LABEL1，LABEL2)，其中ID表示一点的信息，第一个标签LABEL1表示该点连接的边信息，第二个标签LABEL2表示该边连接的另一点的信息；

根据所有所述搜索图的标签对知识库进行筛选，筛选出满足任一所述搜索图中一组第一个标签和第二个标签所示信息的数据，转图并压缩，合并相似条目，转为知识库大图。

将搜索图与知识库大图进行图匹配操作，返回图匹配结果，并根据图匹配结果返回查询结果。

结果处理模块300用于根据返回的查询结果，对待清洗的数据库进行清洗。

与现有技术相比，本发明通过将复杂的搜索转化成图的方式，将原本数据量很大的海量查询简化成压缩后的搜索图，通过将图压缩的方式来达到减少搜索的储存空间的目的。然后通过图匹配简化搜索的时间和空间。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于知识库图匹配的数据清洗方法，其特征在于，包括如下步骤：

S1、根据待清洗的数据库生成查询语句；

S3、根据返回的查询结果，对待清洗的数据库进行清洗。

2.根据权利要求1的数据清洗方法，其特征在于：知识库为RDF类型知识库，表示查询语句所用查询语言为SPARQL查询语言。

3.根据权利要求1所述的数据清洗方法，其特征在于：步骤S2-1中对查询语句进行数据转图时，对具有相同的主语、谓语或宾语的相似查询语句，合并其相同的部分。

4.根据权利要求3所述的数据清洗方法，其特征在于：对于嵌套查询和合并查询中具有相同的主语、谓语和宾语的部分相同的查询语句，在该查询语句表示边信息的第一个标签中加入索引后，再合并其相同的部分。

5.根据权利要求4所述的数据清洗方法，其特征在于：所述第一个标签加入索引后,表示为{p,n,+/-}，其中p表示谓语，n表示索引，+/-表示边的指向。

6.根据权利要求1所述的数据清洗方法，其特征在于，所述步骤S2-3中将搜索图与知识库大图进行图匹配操作时，包括：

将图匹配结果与疑问结构进行对比，得到查询结果。

7.根据权利要求1的数据清洗方法，其特征在于，所述步骤S2还包括：

S2-4、将图匹配结果提取为以查询语言表示的查询结果。

8.根据权利要求7所述的数据清洗方法，其特征在于，所述步骤S2-4中将图匹配结果提取为以查询语言表示的查询结果时，包括：

a)找到已知的顶点，以顶点为划分点，将图匹配结果分为不同的查询块；

9.根据权利要求8所述的数据清洗方法，其特征在于，所述步骤S2-4中将图匹配结果提取为以查询语言表示的查询结果时，嵌套查询表现为主语、谓语和宾语三者全是已知，且连接着其他的边；合并查询表现为顶点连接两个或多个边和查询后的疑问点。

10.一种基于知识库图匹配的数据清洗装置，其特征在于，包括：

预处理模块，所述预处理模块用于根据待清洗的数据库生成查询语句；