CN102306177B - 一种多策略组合的本体或实例匹配方法 - Google Patents

一种多策略组合的本体或实例匹配方法 Download PDF

Info

Publication number
CN102306177B
CN102306177B CN 201110247261 CN201110247261A CN102306177B CN 102306177 B CN102306177 B CN 102306177B CN 201110247261 CN201110247261 CN 201110247261 CN 201110247261 A CN201110247261 A CN 201110247261A CN 102306177 B CN102306177 B CN 102306177B
Authority
CN
China
Prior art keywords
matching
matching result
label
similarity
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110247261
Other languages
English (en)
Other versions
CN102306177A (zh
Inventor
李涓子
王志春
赵越
张啸
侯磊
唐杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN 201110247261 priority Critical patent/CN102306177B/zh
Publication of CN102306177A publication Critical patent/CN102306177A/zh
Application granted granted Critical
Publication of CN102306177B publication Critical patent/CN102306177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多策略组合的本体或实例匹配方法,涉及语义万维网领域。所述方法包括步骤:对于两个本体元素或两个实例元素集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到多组匹配结果,对所述多组匹配结果中的每个匹配结果进行投票,根据投票结果对所述多组匹配结果进行过滤,得到初始匹配结果;根据所述初始匹配结果,以及本体元素或者实例元素之间的链接关系,获得新匹配结果,所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果。所述方法提高了最终匹配结果的准确度,有利于更好的解决链接数据模式层和实例层的异构问题。

Description

一种多策略组合的本体或实例匹配方法
技术领域
本发明涉及语义万维网技术领域,特别涉及一种多策略组合的本体或实例匹配方法。
背景技术
语义万维网是当前万维网的扩展,信息的语义在其中被准确定义,从而使机算计能够理解数据的语义信息,使得其对信息的处理更加智能化。万维网之父Tim Berners-Lee提出了在万维网上发布和链接结构化数据的基本准则:(1)使用URI(统一资源定位符)命名所有事物;(2)使用HTTP(超文本传输协议)URI;(3)在URI指向的位置用标准格式提供有用信息;(4)建立指向其他URI的链接。通过这些准则发布的数据被称为链接数据。
由于万维网上数据由不同机构发布,导致了数据模式层和实例层的异构性。本体匹配和实例匹配是分别解决链接数据模式层和实例层异构问题的关键技术。本体匹配的目的是发现不同的模式之间相互等价的元素(概念、属性),实例匹配的目的则是发现不同数据集中指代同一事物的URI。目前国内外已有很多本体匹配方面的研究,大部分研究集中在如何利用多种本体信息计算元素之间的相似度,从而得到本体间等价的元素。已有的本体匹配策略包括基于实体名称的方法、基于本体结构的方法、基于本体实例的方法和基于外部知识库的方法等。为了获得满意的匹配结果,一种有效的方法是组合多个匹配策略的结果。现有的组合方法都是基于相似度操作的方法,先将各个策略得到相似度进行聚合,然后根据聚合的相似度决定匹配结果。常用的相似度聚合方法包括平均值法、最大值法、最小值和加权平均值法等。但是,最近有研究表明,这些组合方法得到的结果高度依赖于所选用的匹配策略,最终所得匹配结果的准确度无法保证。目前实例匹配方法大多借助本体匹配的相关技术,同样存在如何更好的组合多个匹配策略的问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种多策略组合的本体或实例匹配方法,以便更好的解决链接数据模式层和实例层的异构问题。
(二)技术方案
为解决上述技术问题,本发明提供一种多策略组合的本体或实例匹配方法,其包括步骤:
A:对于两个本体元素或两个实例元素集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到多组匹配结果,对所述多组匹配结果中的每个匹配结果进行投票,根据投票结果对所述多组匹配结果进行过滤,得到初始匹配结果;
B:根据所述初始匹配结果,以及本体元素或者实例元素之间的链接关系,获得新匹配结果,所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果。
优选地,所述步骤A包括步骤:
A1:对于两个本体元素或两个实例元素的集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到对应的多个相似度矩阵;
A2:从所述多个相似度矩阵中,分别抽取相似度大于等于第一阈值的一组匹配结果,得到所述多组匹配结果;
A3:对所述多组匹配结果中的每个匹配结果进行投票,得到每个匹配结果的得票数;
A4:查找所述多组匹配结果中互相冲突的匹配结果,在所述互相冲突的匹配结果中,保留得票数最多的匹配结果,删除其余的匹配结果;
A5:重复执行所述步骤A4,直至剩余的匹配结果中没有互相冲突的匹配结果,将最终剩余的匹配结果作为所述初始匹配结果。
优选地,所述步骤A2具体包括:
A21:设定对应某个相似度矩阵的相应组匹配结果的集合R初始为空集;
A22:查找所述相似度矩阵中的最大相似度mij
A23:判断mij是否大于等于第一阈值σ1,如果是,将mij对应的匹配结果并入所述集合R后执行A24,否则,执行A26;
A24:删除所述相似度矩阵中第i行和第j列的所有相似度;
A25:判断所述相似度矩阵是否为空矩阵,如果是,执行A26,否则,执行所述步骤A22;
A26:将集合R中的所有匹配结果作为对应所述相似度矩阵的一组匹配结果;
A27:重复执行所述步骤A21至A26,直至得到对应所述多个相似度矩阵的所述多组匹配结果。
优选地,所述步骤A1中,
对于本体元素,所述不同文本信息包括:名称信息、描述信息和实例信息中的至少两种;所述多个匹配策略与所述不同文本信息对应,其包括:基于名称的匹配策略、基于描述的匹配策略和基于实例的匹配策略中的至少两种;
对于实例元素,所述不同文本信息包括:名称信息、描述信息和属性信息中的至少两种;所述多个匹配策略与所述不同文本信息对应,其包括:基于名称的匹配策略、基于描述的匹配策略和基于属性的匹配策略中的至少两种。
优选地,所述基于名称的匹配策略通过计算本体元素或者实例元素的名称间的编辑距离得到元素间的相似度,元素e1、e2间的相似度Mname(e1,e2)的计算公式如下:
Mname(e1,e2)=Se(label(e1),label(e2)),
其中,label(e1)为元素e1的名称,label(e2)为元素e2的名称,Se(label(e1),label(e2))表示label(e1)所对应的字符串与label(e2)所对应的字符串之间的编辑距离,并且Se(label(e1),label(e2))的计算公式如下:
S e ( label ( e 1 ) , label ( e 2 ) ) = 1 - | { ops } | max ( | label ( e 1 ) | , | label ( e 2 ) | ) ;
其中,|{ops)|为将label(e1)所对应的字符串转化为label(e2)所对应的字符串所需要的删除、替换和插入操作的次数,|label(e1)|表示label(e1)所对应的字符串的长度,|label(e2)|表示label(e2)所对应的字符串的长度。
优选地,所述基于描述的匹配策略通过计算向量空间模型下本体元素或者实例元素的描述信息之间的余玄夹角得到元素间的相似度,元素e1、e2间的基于描述信息的相似度Mmeta(e1,e2)的计算公式如下:
M meta ( e 1 , e 2 ) = S meta ( meta ( e 1 ) , meta ( e 2 ) )
= Σ i = 1 M ω i 1 · ω i 2 Σ i = 1 M ω i 1 2 Σ k = 1 M ω i 2 2
其中,meta(e1)和meta(e2)分别表示元素e1和e2通过rdfs:comment标注的描述信息;
ω ij = tf ij · lg N d f i ,
并且,ωij表示meta(ej)中词i的权重,1≤i≤M,其中tfij是词i在meta(ej)中的出现次数,j∈{1,2},dfi是所有描述信息中包含词i的本体元素或者实例元素的数量,N是所有本体元素或者实例元素的数量。
优选地,所述基于实例的匹配策略通过计算向量空间模型下本体元素实例信息之间的余玄夹角得到元素间的相似度,元素e1、e2间基于实例信息的相似度Minst(e1,e2)的计算公式如下:
M inst ( e 1 , e 2 ) = S inst ( inst ( e 1 ) , inst ( e 2 ) )
= Σ i = 1 M ω i 1 · ω i 2 Σ i = 1 M ω i 1 2 Σ k = 1 M ω i 2 2 ,
其中,inst(e1)和inst(e2)分别表示与e1和e2相关的实例的元数据信息;
ω ij = tf ij · lg N d f i ,
并且,ωij表示inst(ej)中词i的权重,1≤i≤M,tfij表示词i在inst(ej)中的出现次数,j∈{1,2},dfi是所有所述实例的元数据信息中包含词i的本体元素的数量,N是所有本体元素的数量。
优选地,所述基于属性的匹配策略通过计算向量空间模型下实例元素属性值之间的余玄夹角得到元素间的相似度,元素e1、e2间基于属性的相似度Matt(e1,e2)的计算公式如下:
M att ( e 1 , e 2 ) = S att ( att ( e 1 ) , att ( e 2 ) )
= Σ i = 1 M ω i 1 · ω i 2 Σ i = 1 M ω i 1 2 Σ k = 1 M ω i 2 2 ,
其中,att(e1)和att(e2)分别表示e1和e2各自的属性值的集合;
ω ij = tf ij · lg N d f i ,
并且,ωij表示att(ej)中词i的权重,1≤i≤M,tfij是词i在att(ej)中的出现次数,j∈{1,2},dfi是所有属性值的集合包含词i的实例元素的数量,N是所有实例元素的数量。
优选地,所述步骤B具体包括步骤:
B1:根据所述初始匹配结果,将第一本体元素或者实例元素集合E1中未匹配元素构成集合
Figure BDA0000086080880000057
第二本体元素或者实例元素集合E2中未匹配元素构成集合
Figure BDA0000086080880000058
所述初始匹配结果构成集合R;
B2:对于每一个候选匹配结果<e,e′>,
Figure BDA0000086080880000059
Figure BDA00000860808800000510
计算e和e′之间的相似度sim(e,e′);
B3:判断所述相似度sim(e,e′)是否大于等于第二阈值σ2,如果是,将所述候选匹配结果<e,e′>并入集合R;
B4:重复步骤B1、B2、B3,直至达到预先设定的最大重复次数k。
优选地,所述e和e′之间的相似度sim(e,e′)的计算公式如下:
sim ( e , e &prime; ) = | R nbr ( e , e &prime; ) | min ( | N ( e ) | , | N ( e &prime; ) | ) ,
其中,N(e)表示E1中与e关联的元素集合,N(e′)表示E2中与e′关联的元素集合,Rnbr(e,e′)={<g,g′>|<g,g′>∈R,g∈N(e),g′∈N(e′)};|Rnbr(e,e′)|、|N(e)|和|N(e′)|分别表示集合Rnbr(e,e′)、N(e)和N(e′)的大小。
(三)有益效果
本发明所述的多策略组合的本体或实例匹配方法,从不同的匹配策略出发分别得到匹配结果,通过投票机制过滤掉错误的匹配结果,得到初始匹配结果,进而结合元素间的链接关系,获得最终的匹配结果,从而提高了最终匹配结果的准确度,有利于更好的解决链接数据模式层和实例层的异构问题。
附图说明
图1是本发明的多策略组合的本体或实例匹配方法的流程图;
图2是本发明的多策略组合的本体或实例匹配方法的数据流图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明的多策略组合的本体或实例匹配方法流程图,图2是本发明的多策略组合的本体或实例匹配方法的数据流图。如图1、图2所示,该方法包括:
步骤A:对于两个本体元素或两个实例元素集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到多组匹配结果,对所述多组匹配结果中的每个匹配结果进行投票,根据投票结果对所述多组匹配结果进行过滤,得到初始匹配结果。
所述步骤A具体包括:
步骤A1:对于两个本体元素或两个实例元素的集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到对应的多个相似度矩阵。
对于本体元素,所述不同文本信息包括:名称信息、描述信息和实例信息中的至少两种;所述多个匹配策略与所述不同文本信息对应,其包括:基于名称的匹配策略、基于描述的匹配策略和基于实例的匹配策略中的至少两种;
对于实例元素,所述不同文本信息包括:名称信息、描述信息和属性信息中的至少两种;所述多个匹配策略与所述不同文本信息对应,其包括:基于名称的匹配策略、基于描述的匹配策略和基于属性的匹配策略中的至少两种。
当基于本体元素的名称信息执行基于名称的匹配策略时,通过计算本体元素的名称间的编辑距离得到元素间的相似度,元素e1、e2间的相似度Mname(e1,e2)的计算公式如下:
Mname(e1,e2)=Se(label(e1),label(e2)),
其中,label(e1)为元素e1的名称,label(e2)为元素e2的名称,Se(label(e1),label(e2))表示label(e1)所对应的字符串与label(e2)所对应的字符串之间的编辑距离,并且Se(label(e1),label(e2))的计算公式如下:
S e ( label ( e 1 ) , label ( e 2 ) ) = 1 - | { ops } | max ( | label ( e 1 ) | , | label ( e 2 ) | ) ;
其中,|{ops}|为将label(e1)所对应的字符串转化为label(e2)所对应的字符串所需要的删除、替换和插入操作的次数,|label(e1)|表示label(e1)所对应的字符串的长度,|label(e2)|表示label(e2)所对应的字符串的长度。
假设元素e1是第一本体元素集合中的第一个元素,e2是第二本体元素集合中的第二个元素,则上述计算得到的Mname(e1,e2)的值作为对应基于名称的匹配策略的相似度矩阵中第1行第2列的数值m12。(执行其他匹配策略的情况与此类似,后面不再分别说明。)
基于实例元素的名称信息执行基于名称的匹配策略的情况,与所述基于本体元素的名称信息执行基于名称的匹配策略的情况基本相同,在此不再赘述。
当基于本体元素的描述信息执行基于描述的匹配策略时,通过计算向量空间模型下本体元素的描述信息之间的余玄夹角得到元素间的相似度,元素e1、e2间的基于描述信息的相似度Mmeta(e1,e2)的计算公式如下:
M meta ( e 1 , e 2 ) = S meta ( meta ( e 1 ) , meta ( e 2 ) )
= &Sigma; i = 1 M &omega; i 1 &CenterDot; &omega; i 2 &Sigma; i = 1 M &omega; i 1 2 &Sigma; k = 1 M &omega; i 2 2
其中,meta(e1)和meta(e2)分别表示元素e1和e2通过rdfs(Resource Description Framework Schema,一种本体语言):comment标注的描述信息;
&omega; ij = tf ij &CenterDot; lg N d f i ,
并且,ωij表示meta(ej)中词i的权重,1≤i≤M,其中tfij是词i在meta(ej)中的出现次数,j∈{1,2},dfi是两个本体元素集合中所有描述信息中包含词i的本体元素的数量,N是两个本体元素集合所有本体元素的数量。
基于实例元素的描述信息执行基于描述的匹配策略的情况,与所述基于本体元素的不同文本信息执行基于描述的匹配策略的情况基本相同,在此不再赘述。
当基于本体元素的实例信息执行基于实例的匹配策略时,通过计算向量空间模型下本体元素实例信息之间的余玄夹角得到元素间的相似度,元素e1、e2间基于实例信息的相似度Minst(e1,e2)的计算公式如下:
M inst ( e 1 , e 2 ) = S inst ( inst ( e 1 ) , inst ( e 2 ) )
= &Sigma; i = 1 M &omega; i 1 &CenterDot; &omega; i 2 &Sigma; i = 1 M &omega; i 1 2 &Sigma; k = 1 M &omega; i 2 2 ,
其中,inst(e1)和inst(e2)分别表示与e1和e2相关的实例的元数据信息;
&omega; ij = tf ij &CenterDot; lg N d f i ,
并且,ωij表示inst(ej)中词i的权重,1≤i≤M,tfij表示词i在inst(ej)中的出现次数,j∈{1,2},dfi是所有所述实例的元数据信息中包含词i的本体元素的数量,N是所有本体元素的数量。
当基于实例元素的属性信息执行基于属性的匹配策略时,通过计算向量空间模型下实例元素属性值之间的余玄夹角得到元素间的相似度,元素e1、e2间基于属性的相似度Matt(e1,e2)的计算公式如下:
M att ( e 1 , e 2 ) = S att ( att ( e 1 ) , att ( e 2 ) )
= &Sigma; i = 1 M &omega; i 1 &CenterDot; &omega; i 2 &Sigma; i = 1 M &omega; i 1 2 &Sigma; k = 1 M &omega; i 2 2 ,
其中,att(e1)和att(e2)分别表示e1和e2各自的属性值的集合;
&omega; ij = tf ij &CenterDot; lg N d f i ,
并且,ωij表示att(ej)中词i的权重,1≤i≤M,tfij是词i在att(ej)中的出现次数,j∈{1,2},dfi是所有属性值的集合包含词i的实例元素的数量,N是所有实例元素的数量。
步骤A2:从所述多个相似度矩阵中,分别抽取相似度大于等于第一阈值的一组匹配结果,得到所述多组匹配结果。
所述步骤A2具体包括:
步骤A21:设定对应某个相似度矩阵的相应组匹配结果的集合R初始为空集。
步骤A22:查找所述相似度矩阵中的最大相似度mij
步骤A23:判断mij是否大于等于第一阈值σ1,如果是,将mij对应的匹配结果并入所述集合R后执行A24,否则,执行A26。
步骤A24:删除所述相似度矩阵中第i行和第j列的所有相似度;
步骤A25:判断所述相似度矩阵是否为空矩阵,如果是,执行A26,否则,执行所述步骤A22。
步骤A26:将集合R中的所有匹配结果作为对应所述相似度矩阵的一组匹配结果。
步骤A27:重复执行所述步骤A21至A26,直至得到对应所述多个相似度矩阵的所述多组匹配结果。
步骤A3:对所述多组匹配结果中的每个匹配结果进行投票,得到每个匹配结果的得票数。每个匹配结果的初始得票数P为0,在所述多组匹配结果中,所述匹配结果每出现一次,P增加1,直至所述多组匹配结果均被遍历,最后所得P的值为所述匹配结果的得票数。
步骤A4:查找所述多组匹配结果中互相冲突的匹配结果,在所述互相冲突的匹配结果中,保留得票数最多的匹配结果,删除其余的匹配结果。一个本体元素e1只能与唯一的另一个本体元素e2相匹配,但是当分别执行多种匹配策略时可能会出现e1同时和多个本体元素,比如e2和e3,相匹配的情况,即匹配结果中同时出现了<e1,e2>和<e1,e3>,这种情况下,我们称<e1,e2>和<e1,e3>是互相冲突的匹配结果。假设执行基于名称的匹配策略和执行基于描述的匹配策略均得到了匹配结果<e1,e2>,即匹配结果<e1,e2>得票数为2;执行基于实例的匹配策略均得到了匹配结果<e1,e3>,即匹配结果<e1,e3>得票数为1。这种情况下,我们将删除匹配结果<e1,e3>,而保留匹配结果<e1,e3>。
步骤A5:重复执行所述步骤A4,直至剩余的匹配结果中没有互相冲突的匹配结果,将最终剩余的匹配结果作为所述初始匹配结果。
步骤B:根据所述初始匹配结果,以及本体元素或者实例元素之间的链接关系,获得新匹配结果,所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果。
所述步骤B具体包括步骤:
B1:根据所述初始匹配结果,将第一本体元素或者实例元素集合E1中未匹配元素构成集合
Figure BDA0000086080880000111
第二本体元素或者实例元素集合E2中未匹配元素构成集合
Figure BDA0000086080880000112
所述初始匹配结果构成集合R;
B2:对于每一个候选匹配结果<e,e′>,
Figure BDA0000086080880000113
Figure BDA0000086080880000114
计算e和e′之间的相似度sim(e,e′)。所述e和e′之间的相似度sim(e,e′)的计算公式如下:
sim ( e , e &prime; ) = | R nbr ( e , e &prime; ) | min ( | N ( e ) | , | N ( e &prime; ) | ) ,
其中,N(e)表示E1中与e关联的元素集合,N(e′)表示E2中与e′关联的元素集合,Rnbr(e,e′)={<g,g′>|<g,g′>∈R,g∈N(e),g′∈N(e′)};|Rnbr(e,e′)|、|N(e)|和|N(e′)|分别表示集合Rnbr(e,e′)、N(e)和N(e′)的大小。
B3:判断所述相似度sim(e,e′)是否大于等于第二阈值σ2,如果是,将所述候选匹配结果<e,e′>并入集合R;
B4:重复步骤B1、B2、B3,直至达到预先设定的最大重复次数k。所述最大重复次数k的值一般为5。
本发明实施例所述的多策略组合的本体或实例匹配方法,从不同的匹配策略出发分别得到匹配结果,通过投票机制过滤错误的匹配结果,得到初始匹配结果,进而结合元素间的链接关系,获得最终的匹配结果,从而提高了最终匹配结果的准确度,有利于更好的解决链接数据模式层和实例层的异构问题。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (5)

1.一种多策略组合的本体或实例匹配方法,其特征在于,包括步骤:
A:对于两个本体元素或两个实例元素集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到多组匹配结果,对所述多组匹配结果中的每个匹配结果进行投票,根据投票结果对所述多组匹配结果进行过滤,得到初始匹配结果;
所述步骤A包括步骤:
A1:对于两个本体元素或两个实例元素的集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到对应的多个相似度矩阵;
A2:从所述多个相似度矩阵中,分别抽取相似度大于等于第一阈值的一组匹配结果,得到所述多组匹配结果;
A3:对所述多组匹配结果中的每个匹配结果进行投票,得到每个匹配结果的得票数;
A4:查找所述多组匹配结果中互相冲突的匹配结果,在所述互相冲突的匹配结果中,保留得票数最多的匹配结果,删除其余的匹配结果;
A5:重复执行所述步骤A4,直至剩余的匹配结果中没有互相冲突的匹配结果,将最终剩余的匹配结果作为所述初始匹配结果;
B:根据所述初始匹配结果,以及本体元素或者实例元素之间的链接关系,获得新匹配结果,所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果;
所述步骤B具体包括步骤:
B1:根据所述初始匹配结果,将第一本体元素或者实例元素集合E1中未匹配元素构成集合
Figure FDA00002339533600011
第二本体元素或者实例元素集合E2中未匹配元素构成集合
Figure FDA00002339533600012
所述初始匹配结果构成集合R;
B2:对于每一个候选匹配结果<e,e'>,
Figure FDA00002339533600021
计算e和e'之间的相似度sim(e,e′);
B3:判断所述相似度sim(e,e′)是否大于等于第二阈值σ2,如果是,将所述候选匹配结果<e,e'>并入集合R;
B4:重复步骤B1、B2、B3,直至达到预先设定的最大重复次数k。
2.如权利要求1所述的方法,其特征在于,所述步骤A2具体包括:
A21:设定对应某个相似度矩阵的相应组匹配结果的集合R初始为空集;
A22:查找所述相似度矩阵中的最大相似度mij
A23:判断mij是否大于等于第一阈值σ1,如果是,将mij对应的匹配结果并入所述集合R后执行A24,否则,执行A26;
A24:删除所述相似度矩阵中第i行和第j列的所有相似度;
A25:判断所述相似度矩阵是否为空矩阵,如果是,执行A26,否则,执行所述步骤A22;
A26:将集合R中的所有匹配结果作为对应所述相似度矩阵的一组匹配结果;
A27:重复执行所述步骤A21至A26,直至得到对应所述多个相似度矩阵的所述多组匹配结果。
3.如权利要求1所述的方法,其特征在于,所述步骤A1中,
对于本体元素,所述不同文本信息包括:名称信息、描述信息和实例信息中的至少两种;所述多个匹配策略与所述不同文本信息对应,其包括:基于名称的匹配策略、基于描述的匹配策略和基于实例的匹配策略中的至少两种;
对于实例元素,所述不同文本信息包括:名称信息、描述信息和属性信息中的至少两种;所述多个匹配策略与所述不同文本信息对应,其包括:基于名称的匹配策略、基于描述的匹配策略和基于属性的匹配策略中的至少两种。
4.如权利要求3所述的方法,其特征在于,所述基于名称的匹配策略通过计算本体元素或者实例元素的名称间的编辑距离得到元素间的相似度,元素e1、e2间的相似度Mname(e1,e2)的计算公式如下:
Mname(e1,e2)=Se(label(e1),label(e2)),
其中,label(e1)为元素e1的名称,label(e2)为元素e2的名称,Se(label(e1),label(e2))表示label(e1)所对应的字符串与label(e2)所对应的字符串之间的编辑距离,并且Se(label(e1),label(e2))的计算公式如下:
S e ( label ( e 1 ) , label ( e 2 ) ) = 1 - | { ops } | max ( | label ( e 1 ) | , | label ( e 2 ) | ) ;
其中,|{ops}|为将label(e1)所对应的字符串转化为label(e2)所对应的字符串所需要的删除、替换和插入操作的次数,|label(e1)|表示label(e1)所对应的字符串的长度,|label(e2)|表示label(e2)所对应的字符串的长度。
5.如权利要求1所述的方法,其特征在于,所述e和e'之间的相似度sim(e,e′)的计算公式如下:
sim ( e , e &prime; ) = | R nbr ( e , e &prime; ) | min ( | N ( e ) | , | N ( e &prime; ) | ) ,
其中,N(e)表示E1中与e关联的元素集合,N(e′)表示E2中与e′关联的元素集合,Rnbr(e,e′)={<g,g′>|<g,g′>∈R,g∈N(e),g′∈N(e′)};|Rnbr(e,e′)|、|N(e)|和|N(e′)分别表示集合Rnbr(e,e′)、N(e)和N(e′)的大小。
CN 201110247261 2011-08-25 2011-08-25 一种多策略组合的本体或实例匹配方法 Active CN102306177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110247261 CN102306177B (zh) 2011-08-25 2011-08-25 一种多策略组合的本体或实例匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110247261 CN102306177B (zh) 2011-08-25 2011-08-25 一种多策略组合的本体或实例匹配方法

Publications (2)

Publication Number Publication Date
CN102306177A CN102306177A (zh) 2012-01-04
CN102306177B true CN102306177B (zh) 2013-06-05

Family

ID=45380039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110247261 Active CN102306177B (zh) 2011-08-25 2011-08-25 一种多策略组合的本体或实例匹配方法

Country Status (1)

Country Link
CN (1) CN102306177B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268215B (zh) * 2014-09-25 2017-06-06 北京理工大学 一种关联数据查询结果排序方法
CN104699818B (zh) * 2015-03-25 2016-03-02 武汉大学 一种多源异构的多属性poi融合方法
CN106528714B (zh) * 2016-10-26 2018-08-03 广州酷狗计算机科技有限公司 获取文字提示文件的方法及装置
US10671646B2 (en) * 2016-12-22 2020-06-02 Aon Global Operations Ltd (Singapore Branch) Methods and systems for linking data records from disparate databases
CN106777218B (zh) * 2016-12-26 2020-04-28 中央军委装备发展部第六十三研究所 一种基于属性相似度的本体匹配方法
CN107704484B (zh) * 2017-07-25 2020-06-19 深圳壹账通智能科技有限公司 网页错误信息处理方法、装置、计算机设备和存储介质
CN107704602B (zh) * 2017-10-16 2021-02-02 西南大学 基于agrovoc的大规模农业语义本体匹配方法
CN112633013B (zh) * 2021-01-06 2022-08-30 福建工程学院 一种基于异质特性的全局本体元匹配方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135905A (zh) * 2011-03-17 2011-07-27 清华大学 基于用户定制的本体匹配系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452386B (zh) * 2007-11-28 2013-05-15 国际商业机器公司 使用正向推理链执行基于上下文模型的策略的方法及策略引擎

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102135905A (zh) * 2011-03-17 2011-07-27 清华大学 基于用户定制的本体匹配系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Juanzi li, et al.RiMOM: A Dynamic Multistrategy Ontology Alignment Framework.《IEEE》.2009,第21卷第1-13页.
RiMOM: A Dynamic Multistrategy Ontology Alignment Framework;Juanzi li, et al;《IEEE》;20091231;第21卷;第1-13页 *

Also Published As

Publication number Publication date
CN102306177A (zh) 2012-01-04

Similar Documents

Publication Publication Date Title
CN102306177B (zh) 一种多策略组合的本体或实例匹配方法
CN102831121B (zh) 一种网页信息抽取的方法和系统
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN106201465A (zh) 面向开源社区的软件项目个性化推荐方法
CN103136358B (zh) 一种自动抽取论坛数据的方法
CN103838789A (zh) 一种文本相似度计算方法
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN103870506B (zh) 一种网页信息的抽取方法和系统
CN102982168B (zh) 一种基于xml文档的元数据模式匹配方法
CN102289514B (zh) 社会标签自动标注的方法以及社会标签自动标注器
CN102279894A (zh) 基于语义的查找、集成和提供评论信息的方法及搜索系统
CN103942335A (zh) 一种针对网页结构变化的不间断爬虫系统构建方法
CN104615687A (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN104484433B (zh) 一种基于机器学习的图书本体匹配方法
CN104484380A (zh) 个性化搜索方法及装置
CN103678602A (zh) 一种含敏感度计算的网页过滤方法
CN104866471A (zh) 一种基于局部敏感哈希策略的实例匹配方法
Ji et al. Tag tree template for Web information and schema extraction
CN103559199A (zh) 网页信息抽取方法和装置
CN103514292A (zh) 一种基于小样本半监督学习的网页数据抽取方法
CN101706812A (zh) 一种文档的检索方法和装置
CN103365879A (zh) 一种用于获取页面相似度的方法与设备
CN102521325A (zh) 基于频繁关联标签序列的xml结构相似度度量方法
CN101105797A (zh) 一种表格定位的数据挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant