CN103077237A

CN103077237A - 基于全局关键属性的语义网对象共指的自动消解方法

Info

Publication number: CN103077237A
Application number: CN2013100076824A
Authority: CN
Inventors: 胡伟; 杨睿; 瞿裕忠
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2013-01-09
Filing date: 2013-01-09
Publication date: 2013-05-01
Anticipated expiration: 2033-01-09
Also published as: CN103077237B

Abstract

本发明提供一种基于全局关键属性的语义网对象共指自动消解方法，包括下列步骤：1）语义网对象样本分类，将具有相同类型和付费域名的对象样本归类在一起；2）全局关键属性识别，针对具有相同类型和付费域名的一组语义网对象样本，识别出其中共指的对象样本集合和不共指的对象样本集合，计算上述两个集合中对象样本所含数据样本中属性间的相似度，统计识别全局关键属性；3）语义网对象共指消解，给定任意一个语义网对象，基于它的类型和付费域名，重用已识别出的全局关键属性，寻找具有相似关键属性值的其它对象，实现对象共指消解。本发明能够准确高效的自动识别出语义网对象的全局关键属性，并以此为基础，实现语义网对象共指的自动消解，此外已识别的全局关键属性在今后的消解过程中可以重用。

Description

基于全局关键属性的语义网对象共指的自动消解方法

技术领域

本发明涉及万维网（World Wide Web）领域，尤其涉及一种基于全局关键属性的语义网对象共指的自动消解方法。

背景技术

语义网（Semantic Web）是万维网的一个重要发展方向，为万维网上的知识表示、推理、交换和复用提供了基础。随着语义网的快速发展，语义网的数据量已经达到了数以十亿计的规模。由于任何机构和个人都允许自由发布语义网数据，导致语义网数据具有多样性和异构性，常常造成多个不同的标识符指称真实世界中的相同对象。语义网中普遍存在的对象共指现象阻碍了语义网数据的共享和集成，不利于网络效应的发挥，造成了知识复用的困局。

语义网中，对象共指的消解是指识别语义网中指称真实世界相同对象的不同标识符，并消除描述这些标识符的语义网数据之间不一致性的过程。例如，关于万维网发明人和语义网的倡导者TimBerners-Lee先生，迄今已发现数百个不同的URI（Uniform ResourceIdentifier）指称他。对于使用语义网数据的应用而言，对象共指的消解是消除数据之间语义异构性的一种有效途径，可以为应用之间的交互建立一种互操作性（interoperability）。

传统的依赖人工判别的语义网对象共指消解方法存在耗时费力、成本过高、适用面窄等共性问题，在当前的语义网规模下几乎不可行。而自动消解方法可以显著减少人工参与，大幅提高共指消解的效率。根据所使用的对象特征分类，语义网对象共指的自动消解可以划分为两类：一类是利用语义网数据包含的“等价”语义，通过逻辑推理来消解对象共指，称为逻辑推理方法；另一类是根据对象所含属性间的相似度，通过识别关键属性（作为特征）来消解对象共指，称为关键属性方法。相较于逻辑推理方法，关键属性方法的主要优点在于：不依赖于特殊且数量较少的“等价”语义，方法的适用面更广，能够发现的对象共指数量更多；从数据的实际情况出发，能够自动消解隐式的对象共指，灵活度更高。

然而，现有的关键属性方法也存在不足，其中一个主要问题是语义网数据具有规模大、变化多的特点，基于关键属性来自动消解众多的语义网对象需要耗费大量的时间和计算资源。此外，现有方法在关键属性发现过程中，仅考虑单个对象所包含的局部语义网数据，尚未利用到全局信息，造成识别出的关键属性准确度较低，并且无法重用。

由上可知，现有的消解方法计算量大，不能重复利用已有的消解结果；在关键属性识别时没有充分考虑全局语义网数据，导致消解的准确度低。

发明内容

本发明目的在于提供一种基于全局关键属性的语义网对象共指自动消解方法，能够准确高效的自动识别出语义网对象的全局关键属性，并以此为基础，实现语义网对象共指的自动消解，此外已识别的全局关键属性在今后的消解过程中可以重用。

为达成上述目的，本发明提出一种基于全局关键属性的语义网对象共指自动消解方法，包括下列步骤：

1）语义网对象样本分类，将具有相同类型和付费域名的对象样本归类在一起；

2）全局关键属性识别，针对具有相同类型和付费域名的一组语义网对象样本，识别出其中共指的对象样本集合和不共指的对象样本集合，计算上述两个集合中对象样本所含数据样本中属性间的相似度，统计识别全局关键属性；

3）语义网对象共指消解，给定任意一个语义网对象，基于它的类型和付费域名，重用已识别出的全局关键属性，寻找具有相似关键属性值的其它对象，实现对象共指消解。

进一步，其中步骤1）中对大量语义网对象样本进行分类的具体工作流程如下：

对于任意一个语义网对象样本，从其数据样本中识别或推理出它的类型；根据对象样本的标识符，判断其命名空间，进而获得付费域名；

将具有相同类型和付费域名的对象样本归为一类，实现对语义网对象样本的分类。

进一步，其中步骤2）中识别全局关键属性的具体工作流程如下：

对于具有相同类型和付费域名的一组语义网对象样本，通过“等价”语义逻辑推理出其中共指的对象样本集合，作为全局关键属性识别过程中的正例；对于剩余对象样本，判断其U RI的本地名，找出具有公共本地名前缀的对象样本集合，作为全局关键属性识别过程中的反例；通过设定最长公共前缀的最小长度阈值，调节正例与反例的数量比例，使正例与反例的数量比达到或接近1:1；

然后，分别对于正例集合和反例集合中的对象样本，获取它们的数据样本，使用基于字符的或基于单词的相似度计算方法，计算数据样本中属性间的相似度，统计属性对于对象共指消解的有效次数；

最后，针对正例集合和反例集合采用信息增益的度量指标对属性的关键程度进行排序，识别出全局关键属性。

进一步，其中步骤3）中对象共指消解的具体工作流程如下：

对于任意一个给定的语义网对象，获得其类型和付费域名；

根据类型和付费域名，寻找之前已识别出的全局关键属性；

利用这些关键属性，寻找具有相似关键属性值的语义网对象，完成语义网对象共指的消解。

本发明的有益效果是：（1）按照语义网对象的类型和付费域名进行了分类，由于具有相同类型和付费域名的语义网对象通常由同一个组织发布，这种分类体现出一种全局性，降低了局部“噪音”或“例外”数据的干扰，提高了语义网对象共指消解的准确度。（2）识别出的全局关键属性可以被重用，避免了对于每个语义网对象执行共指消解的计算开销和时间开销，提高了共指消解的效率；（3）在关键属性的识别过程中，既逻辑推理出共指的语义网对象，又构建不共指的语义网对象，同时利用共指和不共指的语义网对象可以提高关键属性识别的准确性，降低错误发生的可能性；（4）通过公共本地名前缀构建不共指的语义网对象，并通过设定最长公共前缀的最小长度阈值来调节与共指对象的数量比例，一方面大幅减少了不共指的语义网对象的数量，另一方面使得构建的不共指的语义网对象对关键属性识别有效。

附图说明

图1为本发明实施例的基于全局关键属性的语义网对象共指自动消解方法的流程示意图。

图2是图1中识别全局关键属性的流程示意图。

图3是本发明(SOCR)与现有方法消解准确性对比图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

如图1所示，本发明的实施首先需要获取足够数量的待消解的语义网对象及其描述数据。获取的方法可以通过直接下载已有的语义网数据存档文件，例如DBpedia存档文件（http://wiki.dbpe dia.org/）；也可以通过网页数据“爬虫”对语义网对象的URI解引用（dereferencing），将采集的语义网数据集中用于分析。从统计学的角度看，由于采集的语义网对象及其数据是待消解对象及其数据的抽样，因此将它们称为语义网对象样本/数据样本。依据对象样本的类型和付费域名进行分类，进而针对具有相同类型和付费域名的语义网对象样本，获得其中共指的对象样本集合和不共指的对象样本集合，计算全局关键属性，并将这些全局关键属性重用于今后的语义网对象共指消解。

本发明的完整流程包括语义网对象样本分类、全局关键属性识别和语义网对象共指消解3个部分。具体的实施方式分别说明如下：

语义网对象样本分类的具体实施方式为：对于任意一个语义网对象样本，首先从其语义网数据样本中识别或推理出它的类型。识别的规则是：如果某个语义网对象（记作anObject）包含以下RDF三元组<anObject rdf:type aClass>，则说明该语义网对象的类型是aClass，其中rdf:type（http://www.w3.org/1999/02/22-rdf-syntax-ns#type）是万维网联盟W3C定义的用于描述一个语义网对象的类型的标准原语。一些情况下，这种类型声明可能是隐式的，需要通过类型推理获得。例如，如果有以下RDF三元组<aURIrdfs:subClassOf aClass>，则可以推断出aURI也是一种类型。接下来，根据对象样本的标识符，判断其命名空间。判断命名空间的规则是：对于任意一个URI，首先从后往前找到第一个“#”分隔符，分隔符之前的部分即为该URI的命名空间。如果找不到这样的“#”，则从后往前找到第一个“/”分隔符，分隔符之前的部分即为该URI的命名空间。如果也找不到这样的“/”，则整个URI被认为是命名空间。然后，再根据命名空间获得付费域名。付费域名是命名空间的一个子域（sub-domain），通常是一个用户或组织付费拥有的域名。例如对于一个标识为http://rdf.freebase.com/ns/en.larry_wall的语义网对象，按照上述规则得到的命名空间是http://rdf.freebase.com/ns/，而其付费域名为freebase.com。最后，根据每个语义网对象样本的类型和付费域名，将具有相同类型和付费域名的语义网对象样本归为一类，完成语义网对象样本的分类步骤。

如图2所示，全局关键属性识别的具体过程为：针对具有相同类型和付费域名的一组语义网对象样本，首先通过“等价”语义逻辑推理出其中共指的对象样本集合，作为全局关键属性识别过程中的正例。“等价”语义逻辑推理的规则包括两类：一类是显式的等价声明，例如包含RDF三元组<anObject owl:sameAs anotherObject>，则说明这两个语义网对象（anObject和anotherObject）具有同样的身份（identity），即为对象共指，其中owl:sameAs（http://www.w3.org/2002/07/owl#sameAs）是万维网联盟W3C定义的一个原语。另一个类似的原语是skos:exactMatch（http://www.w3.org/2004/02/skos/core#exactMatch）；另一类是隐式的等价声明，例如反函数型属性（inverse functional property）可以间接推理出对象共指。一个反函数型属性的语义保证了对于单个对象，其反函数型属性的值唯一。例如电子邮件地址（如http://xmlns.com/foaf/0.1/mbox）是一个反函数型属性，表明如果两个语义网对象拥有相同的电子邮件地址，则它们是对象共指。类似的原语还有的函数型属性（functional property）和（最大）基数（owl:maxCardinality或owl:cardinality）等于1。综合使用这些“等价”逻辑推理规则并进行闭包运算，计算出最大的共指的语义网对象样本集合。

接下来，对于剩余对象样本，判断其URI的本地名，找出具有公共本地名前缀的对象样本集合，作为全局关键属性识别过程中的反例。识别URI的本地名的规则是：对于任意一个URI，首先从后往前找到第一个“#”分隔符，分隔符之后的部分即为该URI的本地名。如果找不到这样的“#”，则从后往前找到第一个“/”分隔符，分隔符之后的部分即为该URI的本地名。如果也找不到这样的“/”，则认为本地名为空。对于任意两个语义网对象的本地名，计算它们的最长公共前缀，如果最长公共本地名前缀大于0，则将这两个语义网对象作为反例。对于语义网对象而言，不共指的对象的数量远远大于共指的对象的数量，但是并不是每对不共指的对象都对全局关键属性识别有益，因此构建反例的目标不仅是要找到足够数量的反例，并且要求找到的反例有用。通过动态设定最长公共前缀的最小长度阈值，调节正例与反例的数量比例。当反例的数量远大于正例的数量时，可以提高最小长度阈值，减少反例的数量。反之，则降低最小长度阈值，最终使正例与反例的数量比达到或接近1:1。

最后，分别对于正例集合和反例集合中的对象样本，获取它们的语义网数据样本，使用基于字符的或基于单词的相似度计算方法，计算数据样本中属性之间的相似度。计算相似度的方法有多种，这里采用的是两种常见方法：一种是基于字符的编辑距离的相似度计算方法，另一种是基于单词的Jaccard相关系数的相似度计算方法。数据样本中属性之间的相似度是这两种相似度的线性平均。对于任意两个属性，如果它们的属性值的相似度大于一个预先设定的阈值，则认为这对属性对于识别对象共指有效。本发明中相似度阈值设置为0.9。在计算完所有属性间的相似度及阈值筛选之后，可以统计出每对属性对于对象共指消解的有效次数。最后，针对正例集合和反例集合采用信息增益的度量指标对属性的关键程度进行排序，即信息增益等于使用了该属性的信息熵与未使用该属性的信息熵之间的差值，识别出全局关键属性。

语义网对象共指消解的具体过程为：对于任意一个给定的语义网对象，使用语义网对象样本分类步骤中的方法获得其类型和付费域名。然后根据类型和付费域名，找到之前已识别出的全局关键属性。再利用这些关键属性，寻找具有相似关键属性值的语义网对象，如果某个语义网对象在其关键属性上的取值与给定的语义网对象相似，则认为是对象共指。如果对给定的语义网对象尚未识别其关键属性，则针对该对象的类型和付费域名，采集语义网对象样本和数据样本，然后重复获得其类型和付费域名的步骤、找到已识别出的全局关键属性的步骤，在获得针对该类型和付费域名的全局关键属性之后，再完成对象共指。

现基于2011年国际本体匹配工具评测中的纽约时报测试集，将本发明的方法与AgreementMaker、SERIMI和Zhishi.links这3个现有方法进行比较。纽约时报测试集要求消解纽约时报数据集（NYT）与DBpedia、Freebase及Geonames这3个数据集之间的语义网对象共指，其中数据集规模达到了十亿级RDF三元组，存在的对象共指数以万计，并使用信息检索领域通用的F1-measure作为度量指标。实验证明，本发明提出的方法在3组测试例子上的准确率一致优于3个现有方法（参见图3），证明了本发明提出的基于全局关键属性的语义网对象共指自动消解方法的有效性。

综上所述，本发明通过自动识别和重用对象的全局关键属性，实现语义网对象共指的自动消解，提高了语义网对象共指消解的准确度和效率、降低错误发生的可能性，且大幅减少了不共指的语义网对象的数量，使得构建的不共指的语义网对象对关键属性识别有效。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于全局关键属性的语义网对象共指自动消解方法，其特征在于，包括下列步骤：

2.根据权利要求1所述的基于全局关键属性的语义网对象共指自动消解方法，其特征在于，其中步骤1）中对大量语义网对象样本进行分类的具体工作流程如下：

3.根据权利要求1所述的基于全局关键属性的语义网对象共指自动消解方法，其特征在于，其中步骤2）中全局关键属性识别的具体工作流程如下：

对于具有相同类型和付费域名的一组语义网对象样本，通过“等价”语义逻辑推理出其中共指的对象样本集合，作为全局关键属性识别过程中的正例；

对于剩余对象样本，判断其URI的本地名，找出具有公共本地名前缀的对象样本集合，作为全局关键属性识别过程中的反例；

通过设定最长公共前缀的最小长度阈值，调节正例与反例的数量比例，使正例与反例的数量比达到或接近1:1；

4.根据权利要求1所述的基于全局关键属性的语义网对象共指自动消解方法，其特征在于，其中步骤3）中对象共指消解的具体工作流程如下：

对于任意一个给定的语义网对象，获得其类型和付费域名；

根据类型和付费域名，寻找之前已识别出的全局关键属性；利用这些关键属性，寻找具有相似关键属性值的语义网对象，完成语义网对象共指的消解。