CN102360394B

CN102360394B - 一种基于本体词法信息和语义信息的本体匹配方法

Info

Publication number: CN102360394B
Application number: CN201110330953.0A
Authority: CN
Inventors: 廖建新; 戚琦; 王纯; 李炜; 刘秀磊; 张磊; 沈奇威; 樊利民
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2011-10-27
Filing date: 2011-10-27
Publication date: 2013-01-09
Anticipated expiration: 2031-10-27
Also published as: CN102360394A

Abstract

一种用于本体匹配的本体词法分析方法，包括以下操作步骤：(1)将待匹配的两个本体分别定为源本体和目标本体，分别计算来自源本体与目标本体的概念匹配候选集合和属性匹配候选集合，然后合并所述的属性匹配候选集合和概念匹配候选集合，得到第一匹配候选集合；(2)对第一匹配候选集合中的匹配候选进行循环过滤，得到第二匹配候选集合；(3)对第二匹配候选集合，根据相似性原则进行细化，产生第三匹配候选集合；(4)对第二匹配候选集合，根据包含原则进行细化，产生第四匹配候选集合(5)把第三匹配候选集合和第四匹配候选集合进行合并，得到最终的匹配集合。本发明的方法提高了本体匹配的覆盖率和准确率。

Description

一种基于本体词法信息和语义信息的本体匹配方法

技术领域

本发明涉及一种基于本体词法信息和语义信息的本体匹配方法，属于计算机技术领域，特别是属于本体技术领域。

背景技术

本体(ontology)是共享概念模型的明确的形式化规范说明，使得计算机对知识能够共享、重用、互操作，并在语义Web，知识数据工程，电子商务等领域中广泛应用。由于不同背景的知识工程师构造和维护相似或相同域的本体，导致了本体之间的异构，这阻碍了知识的共享、重用、互操作，本体匹配(ontologymatching)是解决该问题主要方法之一。

本体匹配是指发现相似或相同域中不同本体中相同类型实体(entity)之间的匹配关系，实体包括概念(concepts)、属性(properties)、个体(individuals)。目前，本体匹配系统多是利用实体标签和评论中单词的单个词义和本体中实体间的结构，计算实体间的相似性，从而得出匹配关系。由于这些本体匹配系统没有有效利用本体的词法信息和语义信息，较少关注实体中的单词词义的扩展，单词词义的组合方式，特殊含义单词的处理，本体中的语义信息等对匹配结果的影响，导致这些本体匹配系统的实际匹配结果并不好。因此如何有效利用本体的词法信息和语义信息，提高本体匹配的质量，成为本体应用过程中一个急需要解决的技术难题。

发明内容

有鉴于此，本发明的目的是发明一种本体匹配方法，能有效利用本体的词法信息和语义信息。

为了达到上述目的，本发明提出了一种基于本体词法信息和语义信息的本体匹配方法，

所述方法包括下列操作步骤：

(1)将待匹配的两个本体分别定为源本体和目标本体，计算来自源本体与目标本体的概念匹配候选集合，计算来自源本体与目标本体的属性匹配候选集合，然后合并所述的属性匹配候选集合和概念匹配候选集合，得到第一匹配候选集合MCO；

(2)对步骤1所获得的第一匹配候选集合MCO中的匹配候选进行循环过滤，得到第二匹配候选集合MCF；

(3)对步骤2所获得的第二匹配候选集合MCF，根据相似性原则进行细化，产生第三匹配候选集合MCFS；

(4)对步骤2所获得的第二匹配候选集合MCF，根据包含原则进行细化，产生第四匹配候选集合MCFC；

(5)把步骤3所获得的第三匹配候选集合MCFS和步骤4所获得的第四匹配候选集合MCFC进行合并，得到最终的匹配集合。

所述步骤1中的计算来自源本体与目标本体的概念匹配候选集合的具体内容包括下列操作步骤：

(101)得到源本体概念列表CLS，得到目标本体概念列表CLT；

(102)取源本体概念列表CLS中的概念ConceptSource，取目标本体概念列表CLT中的概念ConceptTarget；

(103)按照设定的实体之间关系的计算方法，计算概念ConceptSource和概念ConceptTarget之间的关系，如果存在关系Relation，则获得如下匹配候选：MC(ConceptSource，ConceptTarget)＝<ConceptSource，ConceptTarget，Relation>，并添加到所述的概念匹配候选集合中；关系Relation分为包括include关系、被包括beIncluded关系、相等equivalent关系、不相交disjoint关系四类；

(104)转到步骤102直到遍历计算完分别来自源本体概念列表CLS和目标本体概念列表CLT中的任意两个概念。

所述步骤1中的计算来自源本体与目标本体的属性匹配候选集合的具体内容包括下列操作步骤：

(111)得到源本体属性列表PLS，得到目标本体属性列表PLT；

(112)取源本体属性列表PLS中的属性PropertySource，取目标本体属性列表PLT中的属性PropertyTarget；

(113)按照设定的实体之间关系的计算方法，计算属性PropertySource和属性PropertyTarget之间的关系，如果存在关系Relation，则获得如下匹配候选：MC(PropertySource，PropertyTarget)＝<PropertySource，PropertyTarget，Relation>，并添加到所述的属性匹配候选集合中；关系Relation分为包括include关系、被包括beIncluded关系、相等equivalent关系、不相交disjoint关系四类；

(114)转到步骤112直到遍历计算完分别来自源本体属性列表PLS和目标本体属性列表PLT中的任意两个属性。

所述步骤103或步骤113中所述设定的实体之间关系的计算方法的具体内容包括以下操作步骤：

(1031)计算得到实体EntitySource的词法信息集合C(EntitySource)和实体EntityTarget的词法信息集合C(EntityTarget)；

(1032)计算分别来自实体EntitySource的词法信息集合C(EntitytSource)和实体EntityTarget的词法信息集合C(EntitytTarget)的任何两个元素之间的概念关系，并根据设定的关系转换规则，将计算出的实体关系转化为匹配关系，并记录每种匹配关系的次数；所述设定的关系转换规则包括：父类-包括关系SupClass-include、子类-被包括关系SubClass-beIncluded、不相交类-不相交关系DisjointClass-disjoint、相等类-相等关系EquivalentClass-equivalent四条规则；

(1033)选择具有次数值最大的关系作为实体EntitySource和实体EmtitySource之间的匹配候选关系。

所述步骤2中对所获得的第一匹配候选集合MCO中的匹配候选进行循环过滤的具体内容包括下列操作步骤：

(21)按照设定的过滤规则，对第一匹配候选集合MCO进行过滤，得到第二匹配候选集合MCF；所述的设定的过滤规则有如下二条，第一条：如果本体的一个实体与另一本体的实体有多于一个的匹配候选，则这些匹配候选不应该导致所述的这两个待集成本体构成的集成本体的不一致no-consistency，也不应该直接在所述的这两个待集成本体中产生新的公理axiom；第二条：如果违反了第一条规则，则删除匹配关系较弱的匹配，直至满足第一条过滤规则，匹配关系从强到弱的顺序依次是相等关系，包括关系，被包括关系，不相交关系；

(22)检查所述的第二匹配候选集合MCF是否满足过滤充分性条件，如果满足，则循环过滤操作结束，否则转到步骤23；所述的充分性条件是指：对于任意一个属于所述的第一匹配候选集合MCO的匹配候选MC，则在所述的第二匹配候选集合MCF中一定存在一个匹配候选MC’，并且使得所述的匹配候选MC的源实体等于所述的匹配候选MC’的源实体或者所述的匹配候选MC的目标实体等于所述的匹配候选MC’的目标实体；

(23)按照设定的标记方法标记由于过滤而失去的匹配候选集合MissingMC；所述的设定的标记方法是：对于一个属于第一匹配候选集合MCO的匹配候选MC，如果满足如下条件，则被标记；所述条件是：对该匹配候选MC，如果存在一个所述的第二匹配候选集合MCF中的匹配候选MC’，使得匹配候选MC的源实体不等于匹配候选MC’的源实体并且匹配候选MC的目标实体不等于匹配候选MC’的目标实体同时成立；

(24)所述的由于过滤而失去的匹配候集合MissingMC与所述的第二匹配候选集合MCF合并，作为新的第一匹配候选集合MCO，然后转到步骤21，继续过滤过程。

所述步骤21中，对所述的第一匹配候选集合MCO进行过滤的具体内容包括下列操作步骤：

(2101)合并源本体中的公理和目标本体中的公理形成集成本体；

(2102)从所述的第一匹配候选集合MCO中，按照源实体的不同，分解出所有源实体归类匹配候选集合MC(A，*)，并构成一个源实体归类匹配候选集合列表；所述的源实体归类匹配候选集合MC(A，*)中的A表示源本体中一个源实体，*表示在所述的第一匹配候选集合MCO中与源实体A有匹配关系的任意目标实体，所述的源实体归类匹配候选集合MC(A，*)表示所述的第一匹配候选集合MCO中与源实体A存在匹配关系的所有匹配候选的集合；

(2103)从源实体归类匹配候选集合列表取出一个源实体归类匹配候选集合MC(A，*)；

(2104)如果在源实体归类匹配候选集合MC(A，*)中的匹配候选具有相等equivalent的关系，则直接删除源实体归类匹配候选集合MC(A，*)中非等关系的匹配候选，然后在源实体归类匹配候选集合MC(A，*)仅保留一个具有相等关系的匹配候选；保留原则是选择源实体和目标实体间具有最大串相似度的匹配候选；

(2105)如果在源实体归类匹配候选集合MC(A，*)中存在多个匹配候选，则将源实体归类匹配候选集合MC(A，*)作为公理添加到所述的集成本体中，并检测该集成本体是否一致，如果不一致，则删除源实体归类匹配候选集合MC(A，*)中导致所述的集成本体不一致的匹配候选；

(2106)转到步骤2103，直到遍历过滤完源实体归类匹配候选集合列表中所有的源实体归类匹配候选集合；

(2107)将经过步骤2106过滤后的新的第一匹配候选集合MCO，按照目标实体的不同，分解出所有目标实体归类匹配候选集合MC(*，A)，并构成一个目标实体归类匹配候选集合列表；目标实体归类匹配候选集合MC(*，A)中的A表示目标本体中的一个目标实体，*表示在新的第一匹配候选集合MCO中与目标实体A有匹配关系的任意源实体，目标实体归类匹配候选集合MC(*，A)表示新的第一匹配候选集合MCO中与目标实体A存在匹配关系的所有匹配候选的集合；

(2108)从目标实体归类匹配候选集合列表取出一个目标实体归类匹配候选集合MC(*，A)；

(2109)如果在目标实体归类匹配候选集合MC(*，A)中的匹配候选具有相等equivalent的关系，则直接删除目标实体归类匹配候选集合MC(*，A)中非等关系的匹配候选，然后在目标实体归类匹配候选集合MC(*，A)仅保留一个具有相等关系的匹配候选；保留原则是选择源实体和目标实体间具有最大串相似度的匹配候选；

(2110)如果在目标实体归类匹配候选集合MC(*，A)中存在多个匹配候选，则将目标实体归类匹配候选集合MC(*，A)作为公理添加到所述的集成本体中，并检测该集成本体是否一致，如果不一致，则删除目标实体归类匹配候选集合MC(*，A)中导致所述的集成本体不一致的匹配候选；

(2111)转到步骤2108，直到遍历过滤完目标实体归类匹配候选集合列表中的所有目标实体归类匹配候选集合，从而得到过滤后的第二匹配候选集合MCF。

所述步骤3中的根据相似性原则对步骤2所获得的所述的第二匹配候选集合MCF进行细化以产生第三匹配候选集合MCFS的具体内容包括下列操作步骤：

(31)取源本体中的任意实体A，取目标本体中任意实体B，并保证所述实体A和实体B为同一类型实体；

(32)按照设定的方法，计算实体A和实体B之间的词法相似性LS(A，B)、语义相似性SS(A，B)和字符串相似性SM(A，B)，然后计算实体A和实体B之间的相似性S(A，B)；所述实体A和实体B之间的词法相似性LS(A，B)的计算方法是：如果所述实体A和实体B是所述步骤2所得到的第二匹配候选集合MCF中的匹配候选，则所述实体A和实体B之间的词法相似性LS(A，B)为一个不大于1的正实数V1，否则为零；所述实体A和实体B之间的相似性S(A，B)就是所述实体A和实体B之间的词法相似性LS(A，B)、语义相似性SS(A，B)和字符串相似性SM(A，B)三者之和；(33)转到步骤31遍历任何两个分别来自源本体和目标本体的相同类型实体；

(34)把任何两个有相同类型来自不同本体的实体A和实体B的匹配描述成

<A，B，Relation，S(A，B)>的形式，如果A和B分别作为所述步骤2所得到的所述的第二匹配候选集合MCF里某个匹配候选的源实体和目标实体，则关系Relation即为所述第二匹配候选集合MCF中的匹配的关系，否则使用无关系NoRelation，即实体A和实体B的匹配描述成<A，B，NoRelation，S(A，B)>；

(35)将上述计算所得到匹配中的实体之间的相似性与设定的阀值进行比较，如果大于所设定的阀值，则为合格的匹配，添加到第三匹配候选集合MCFS中。

所述步骤32中的计算实体A和实体B之间的语义相似性SS(A，B)的方法是包括如下操作步骤：

(3201)如果所述实体A和实体B都是概念，则转步骤3202，否则实体A和实体B之间的语义相似性SS(A，B)值为零；

(3202)获得实体A即概念A的所有父实体(SupEntity)PA和实体B即概念B的所有父实体PB，定义一个计数器counter，并设该计数器counter的初始值为零；

(3203)计算实体A的所有父实体PA和实体A的所有相关属性的属性集合PS(A)，计算实体B的所有父实体PB和实体B的所有相关属性的属性集合PS(B)；

(3204)如果分别来自所述属性集合PS(A)和属性集合PS(B)的两个属性是所述步骤2所得到的所述的第二匹配候选集合MCF中的不相交disjoint匹配候选，则将所述的计数器counter加1；

(3205)转到步骤3204遍历分别来自所述属性集合PS(A)和属性集合PS(B)的任何两个属性；

(3206)按照下式计算实体A和实体B之间的语义相似性SS(A，B)的值，

SS (A, B) = \frac{counter}{PS (A) . size + PS (B) . size}

上式中，PS(A).size表示所述属性集合PS(A)的大小，PS(B).size表示所述属性集合PS(B)的大小。

所述步骤4中根据包含原则对步骤2所获得的所述的第二的匹配候选集合MCF进行细化以产生所述第四匹配候选集合MCFC的具体内容包括如下操作步骤：

(41)从步骤2所获得的所述第二匹配候选集合MCF中选择具有相等equivalent关系并且所对应的两实体A和B之间的相似性S(A，B)大于设定阈值的匹配候选MC，记为<A，B，equivalent，S(A，B)>；所述的两实体A和B之间的相似性S(A，B)由步骤32计算获得；

(42)按照设定的方法计算实体A最近子实体集cs(A)和实体B的最近子实体集cs(B)；

(43)对于实体B的最近子实体集cs(B)中的任意一个元素实体C，产生新的匹配候选，即<A，C，include，0>，实体A和实体C是包含关系include，相似度值设为0，并添加到所述的第四匹配候选集合MCFC中；对于实体A的最近子实体集cs(A)中的任意一个元素实体D对，产生新的匹配候选，即<D，B，beIncluded，0>，实体D和实体B是被包含关系beIncluded，相似度值设为0，并添加到所述的第四匹配候选集合MCFC中。

所述步骤42中所述的计算一个实体最近子实体集的方法的具体内容包括如下操作步骤：

(4201)对于一个实体E，计算其所有的子实体所构成的集合SS；

(4202)取集合SS中任意一个实体SE，如果实体SE不是集合SS中任何实体的子实体，则把实体SE添加进实体E的最近子实体集cs(E)中；

(4203)重复步骤4202，直到遍历完集合SS中所有的实体。

本发明的有益效果在于：本发明通过构建实体之间候选的方法保证了本体匹配的的覆盖率(recall)，使用基于语义的循环过滤方法保证了本体匹配的准确率(precision)，使用最近子实体集的方法提高了本体匹配的覆盖率也提高了本体匹配的准确率。

附图说明

图1是本发明的一种基于本体词法信息和语义信息的本体匹配方法的操作步骤流程图

图2是本发明方法的比较试验结果图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，介绍本发明提出的一种基于本体词法信息和语义信息的本体匹配方法，所述方法包括下列操作步骤：

(101)得到源本体概念列表CLS，得到目标本体概念列表CLT；

(103)按照设定的实体之间关系的计算方法，计算概念ConceptSource和概念ConceptTarget之间的关系，如果存在关系Relation，则获得如下匹配候选：

MC(ConceptSource，ConceptTarget)＝<ConceptSource，ConceptTarget，Relation>，并添加到所述的概念匹配候选集合中；关系Relation分为包括include关系、被包括beIncluded关系、相等equivalent关系、不相交disjoint关系四类；

(111)得到源本体属性列表PLS，得到目标本体属性列表PLT；

(1031)计算得到实体EntitySource的词法信息集合C(EntitySource)和实体EntityTarget的词法信息集合C(EntityTarget)；本申请人在中国发明专利申请(专利名称：一种用于本体匹配的本体词法分析方法；申请号：201110290913.8)提出了一种用于本体匹配的本体词法分析方法，该方法可以用来实现本发明中实体词法信息集合的计算；当然本发明也可以采用其他的计算方法来得到实体的词法信息集合；

(1033)选择具有次数值最大的关系作为实体EntitySource和实体EntitySource之间的匹配候选关系。

以2009年国际本体匹配竞赛使用的标准测试集中的本体101(http://oaei.ontologymatching.org/2011/benchmarks/101/onto.rdf)作为源本体和本体302(http://oaei.ontologymatching.org/2011/benchmarks/302/onto.rdf)作为目标本体为例，并以<101：实体>和<302：实体>的表达方式表示相应本体中的实体，对本发明的内容进行举例说明。

例如，计算<101：Book>词法信息和<302：Book>词法信息之间的关系时，计算得到<101：Book>和<302：Book>之间是相等类EquivalentClass的次数为5，计算得到它们之间是子类SubClass的次数为4，则<101：Book>和<302：Book>是相等的类，并将此转化为相等关系，即<101：Book，302：Book，相等>。

(24)所述的由于过滤而失去的匹配候集合MissingMC与所述的第二匹配候选集合MCF合并，作为新的第一匹配候选集合MCO，然后转到步骤21，继续过滤过程。所述步骤21中，对所述的第一匹配候选集合MCO进行过滤的具体内容包括下列操作步骤：

例如，在源实体归类匹配候选集合MC(101：Book，*)中有如下匹配候选：<101：Book，302：Book，相等>，<101：Book，302：Publication，被包含>和<101：Book，302：InBook，相等>。首先过滤掉<101：Book，302：Publication，被包含>，然后计算<101：Book>和<302：Book>之间的串相似度(计算结果相似度值为1.0)，计算<101：Book>和<302：InBook>之间的串相似度(计算结果相似度值为0.93)，于是删除<101：Book，302：InBook，相等>，最后保留<101：Book，302：Book，相等>。

例如，在源实体归类匹配候选集合MC(101：Book，*)中有<101：InBook，302：InBook，被包含>和<101：InBook，302：Resource，包含>两个匹配候选，将它们添加到待集成的本体中，经检测这两个匹配候选会导致待集成本体不一致，则要根据不一致的原因，删掉<101：InBook，302：InBook，被包含>或<101：InBook，302：Resource，包含＞或同时删掉它们两个。

(32)按照设定的方法，计算实体A和实体B之间的词法相似性LS(A，B)、语义相似性SS(A，B)和字符串相似性SM(A，B)，然后计算实体A和实体B之间的相似性S(A，B)；所述实体A和实体B之间的词法相似性LS(A，B)的计算方法是：如果所述实体A和实体B是所述步骤2所得到的第二匹配候选集合MCF中的匹配候选，则所述实体A和实体B之间的词法相似性LS(A，B)为一个不大于1的正实数V1(比如V1＝0.5)，否则为零；所述实体A和实体B之间的相似性S(A，B)就是所述实体A和实体B之间的词法相似性LS(A，B)、语义相似性SS(A，B)和字符串相似性SM(A，B)三者之和；

例如，设实体A是<101：Book>，实体B是<302：Book>，他们都出现在第二匹配候选集合MCF中，计算它们之间的相似性S(A，B)具体如下：如果设定V1＝0.5，则词法相似性LS(A，B)为0.5；它们之间字符串相似性SM(A，B)为1.0；它们之间SS(A，B)的值为0.35，则<101：Book>和<302：Book>之间的相似性为0.5+1.0+0.35＝1.85。

(33)转到步骤31遍历任何两个分别来自源本体和目标本体的相同类型实体；

(34)把任何两个有相同类型来自不同本体的实体A和实体B的匹配描述成<A，B，Relation，S(A，B)>的形式，如果A和B分别作为所述步骤2所得到的所述的第二匹配候选集合MCF里某个匹配候选的源实体和目标实体，则关系Relation即为所述第二匹配候选集合MCF中的匹配的关系，否则使用无关系NoRelation，即实体A和实体B的匹配描述成<A，B，NoRelation，S(A，B)>；

例如：对于<101：InBook，302：InBook，被包含，1.5>和<101：Book，302：Book，相等，1.85>这两个匹配，如果阀值设为1.6，则将<101：Book，302：Book，相等，1.85>添加到第三匹配候选集合MCFS中。

SS (A, B) = \frac{counter}{PS (A) . size + PS (B) . size}

例如，计算实体<101：Book>和实体<302：Book>之间语义相似性SS(A，B)，假设属性集合PS(101：Book)为15，属性集合PS(302：Book)为8，如果在第二匹配候选集合MCF中存在8对匹配候选，它们的源实体来自PS(101：Book)并且它们的目标实体来自PS(302：Book)，则

(41)从步骤2所获得的所述第二匹配候选集合MCF中选择具有相等equivalent关系并且所对应的两实体A和B之间的相似性S(A，B)大于设定阈值的匹配候选MC，记为<A，B，equivalent，S(A，B)＞；所述的两实体A和B之间的相似性S(A，B)由步骤32计算获得；

例如，在第二匹配候选集合MCF中有匹配候选<101：InBook，302：InBook，被包含，1.5>和<101：Book，302：Book，相等，1.85>，如果阀值设为1.6，则匹配候选<101：Book，302：Book，相等，1.85>被选中。

(43)对于实体B的最近子实体集cs(B)中的任意一个元素实体C，产生新的匹配候选，即<A，C，include，0>，实体A和实体C是包含关系include，相似度值设为0，并添加到所述的第四匹配候选集合MCFC中；对于实体A的最近子实体集cs(A)中的任意一个元素实体D对，产生新的匹配候选，即<D，B，beIncluded，0>，实体D和实体B是被包含关系beIncluded，相似度值设为0，并添加到所述的第四匹配候选集合MCFC中。例如，对于匹配候选<101：Book，302：Book，相等>，实体<101：Book>的最近子实体集为cs(101：Book)＝{101：Collection，101：Monograph，101：Proceedings}，从而可推出<101：Collection，302：Book，被包含，0.0>，<101：Monograph，302：Book，被包含，0.0>和<101：Proceedings，302：Book，被包含，0.0>等新的匹配候选，并将它们加入到第四匹配候选集合MCFC中；如果实体<302：Book>的最近子实体集为cs(302：Book)＝{)，则没有相应的新匹配候选被加入到第四匹配候选集合MCFC中；

(4201)对于一个实体E，计算其所有的子实体所构成的集合SS；

(4203)重复步骤4202，直到遍历完集合SS中所有的实体。

以2009年国际本体匹配竞赛使用的标准测试集中的

本体101(http://oaei.ontologymatching.org/2011/benchmarks/101/onto.rdf)作为源本体，以

本体301(http://oaei.ontologymatehing.org/2011/benchmarks/301/onto.rdf)、

本体302(http://oaei.ontologymatching.org/2011/benchmarks/302/onto.rdf)、

本体303(http://oaei.ontologymatching.org/2011/benchmarks/303/onto.rdf)和

本体304(http://oaei.ontologymatching.org/2011/benchmarks/302/onto.rdf)作为目标本体，

发明人通过试验测试本发明方法的本体匹配性能，并与国际上其他的本体匹配方法(包括edna、MapPSO、Lily、RiMOM、DSSim、AROMA、GeRoMe、Kosimap、TaxoMap、SOBOM)进行了试验比较，试验结果参见图2。图2中本发明的方法用OMI-DL表示，图中F测度(F-Measure)指标反映了本体匹配准确率和覆盖率的综合值，从图2中可以看出本发明方法的F测度(F-Measure)指标比其他方法都要高。

Claims

1.一种基于本体词法信息和语义信息的本体匹配方法，其特征在于：所述方法包括下列操作步骤：

2.根据权利要求1所述的一种基于本体词法信息和语义信息的本体匹配方法，其特征在于：所述步骤1中的计算来自源本体与目标本体的概念匹配候选集合的具体内容包括下列操作步骤：

(101)得到源本体概念列表CLS，得到目标本体概念列表CLT；

(103)按照设定的实体之间关系的计算方法，计算概念ConceptSource和概念ConceptTarget之间的关系，如果存在关系Relation，则获得如下匹配候选：MC(ConceptSource，ConceptTarget)＝＜ConceptSource，ConceptTarget，Relation＞，并添加到所述的概念匹配候选集合中；关系Relation分为包括include关系、被包括beIncluded关系、相等equivalent关系、不相交disjoint关系四类；(104)转到步骤102直到遍历计算完分别来自源本体概念列表CLS和目标本体概念列表CLT中的任意两个概念。

3.根据权利要求1所述的一种基于本体词法信息和语义信息的本体匹配方法，其特征在于：所述步骤1中的计算来自源本体与目标本体的属性匹配候选集合的具体内容包括下列操作步骤：

(111)得到源本体属性列表PLS，得到目标本体属性列表PLT；

(113)按照设定的实体之间关系的计算方法，计算属性PropertySource和属性PropertyTarget之间的关系，如果存在关系Relation，则获得如下匹配候选：MC(PropertySource，PropertyTarget)＝＜PropertySource，PropertyTarget，Relation＞，并添加到所述的属性匹配候选集合中；关系Relation分为包括include关系、被包括beIncluded关系、相等equivalent关系、不相交disjoint关系四类；(114)转到步骤112直到遍历计算完分别来自源本体属性列表PLS和目标本体属性列表PLT中的任意两个属性。

4.根据权利要求2或3所述的一种基于本体词法信息和语义信息的本体匹配方法，其特征在于：所述步骤103和步骤113中所述设定的实体之间关系的计算方法的具体内容包括以下操作步骤：

5.根据权利要求1所述的一种基于本体词法信息和语义信息的本体匹配方法，其特征在于：所述步骤2中对所获得的第一匹配候选集合MCO中的匹配候选进行循环过滤的具体内容包括下列操作步骤：

6.根据权利要求5所述的一种基于本体词法信息和语义信息的本体匹配方法，其特征在于：所述步骤21中，对所述的第一匹配候选集合MCO进行过滤的具体内容包括下列操作步骤：

7.根据权利要求1所述的一种基于本体词法信息和语义信息的本体匹配方法，其特征在于：所述步骤3中的根据相似性原则对步骤2所获得的所述的第二匹配候选集合MCF进行细化以产生第三匹配候选集合MCFS的具体内容包括下列操作步骤：

(32)按照设定的方法，计算实体A和实体B之间的词法相似性LS(A，B)、语义相似性SS(A，B)和字符串相似性SM(A，B)，然后计算实体A和实体B之间的相似性S(A，B)；所述实体A和实体B之间的词法相似性LS(A，B)的计算方法是：如果所述实体A和实体B是所述步骤2所得到的第二匹配候选集合MCF中的匹配候选，则所述实体A和实体B之间的词法相似性LS(A，B)为一个不大于1的正实数V1，否则为零；所述实体A和实体B之间的相似性S(A，B)就是所述实体A和实体B之间的词法相似性LS(A，B)、语义相似性SS(A，B)和字符串相似性SM(A，B)三者之和；

(34)把任何两个有相同类型来自不同本体的实体A和实体B的匹配描述成＜A，B，Relation，S(A，B)＞的形式，如果A和B分别作为所述步骤2所得到的所述的第二匹配候选集合MCF里某个匹配候选的源实体和目标实体，则关系Relation即为所述第二匹配候选集合MCF中的匹配的关系，否则使用无关系NoRelation，即实体A和实体B的匹配描述成＜A，B，NoRelation，S(A，B)＞；

8.根据权利要求7所述的一种基于本体词法信息和语义信息的本体匹配方法，其特征在于：所述步骤32中的计算实体A和实体B之间的语义相似性SS(A，B)的方法是包括如下操作步骤：

(3202)获得实体A即概念A的所有父实体PA和实体B即概念B的所有父实体PB，定义一个计数器counter，并设该计数器counter的初始值为零；

SS (A, B) = \frac{counter}{PS (A) . size + PS (B) . size}

9.根据权利要求1所述的一种基于本体词法信息和语义信息的本体匹配方法，其特征在于：所述步骤4中根据包含原则对步骤2所获得的所述的第二匹配候选集合MCF进行细化以产生所述第四匹配候选集合MCFC的具体内容包括如下操作步骤：

(41)从步骤2所获得的所述第二匹配候选集合MCF中选择具有相等equivalent关系并且所对应的两实体A和B之间的相似性S(A，B)大于设定阈值的匹配候选MC，记为＜A，B，equivalent，S(A，B)＞；所述的两实体A和B之间的相似性S(A，B)由步骤32计算获得；

(43)对于实体B的最近子实体集cs(B)中的任意一个元素实体C，产生新的匹配候选，即＜A，C，include，0＞，实体A和实体C是包含关系include，相似度值设为0，并添加到所述的第四匹配候选集合MCFC中；对于实体A的最近子实体集cs(A)中的任意一个元素实体D对，产生新的匹配候选，即＜D，B，beIncluded，0＞，实体D和实体B是被包含关系beIncluded，相似度值设为0，并添加到所述的第四匹配候选集合MCFC中。

10.根据权利要求9所述的一种基于本体词法信息和语义信息的本体匹配方法，其特征在于：所述步骤42中所述的计算一个实体最近子实体集的方法的具体内容包括如下操作步骤：

(4201)对于一个实体E，计算其所有的子实体所构成的集合SS；

(4203)重复步骤4202，直到遍历完集合SS中所有的实体。