CN102135905B - 基于用户定制的本体匹配系统及方法 - Google Patents

基于用户定制的本体匹配系统及方法 Download PDF

Info

Publication number
CN102135905B
CN102135905B CN201110064824.1A CN201110064824A CN102135905B CN 102135905 B CN102135905 B CN 102135905B CN 201110064824 A CN201110064824 A CN 201110064824A CN 102135905 B CN102135905 B CN 102135905B
Authority
CN
China
Prior art keywords
matching
module
num
attribute
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110064824.1A
Other languages
English (en)
Other versions
CN102135905A (zh
Inventor
李涓子
张啸
王志春
侯磊
李虎
唐杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201110064824.1A priority Critical patent/CN102135905B/zh
Publication of CN102135905A publication Critical patent/CN102135905A/zh
Application granted granted Critical
Publication of CN102135905B publication Critical patent/CN102135905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于用户定制的本体匹配系统,涉及语义万维网技术领域,包括:本体模块,包括原子组件本体操作接口子模块和本体API子模块;原子组件模块,用于通过原子组件本体操作接口子模块调用本体API子模块的本体API实现原子组件;用户接口模块,用于接收用户上传的待匹配本体和自行实现的原子组件;匹配执行模块,用于根据待匹配本体生成匹配任务描述文件,并根据匹配任务描述文件选择原子组件或自行实现的原子组件来执行匹配任务,生成匹配结果。本发明使用户能够根据匹配本体的特征,对这些原子组件进行定制和组装来设计自己需要的本体匹配流程,生成合适的匹配任务并得到精确地匹配结果。

Description

基于用户定制的本体匹配系统及方法
技术领域
本发明涉及语义万维网技术领域,特别涉及一种基于用户定制的本体匹配系统及方法。
背景技术
语义Web由万维网的创始人Tim Berners-Lee提出,是探索新一代互联网发展的重要技术。语义Web的目标在于通过相应技术使得当前万维网上的信息中的语义能够被机器理解,从而使得网络上的数据能够被机器直接或间接地处理。目前语义Web技术已经得到了广泛的发展,并涌现出大量的实际应用,如LinkedData、语义维基等。本体为用户描述特定领域的万维网数据语义提供了基本的概念模型和共享词汇。它作为语义Web中的语义表示形式,是语义Web体系结构中的核心元素,是实现知识共享、协同工作的关键。但是由于现实世界中本体自身与生俱来的分布性和异构性,又极大地限制了数据的共享与集成。为了实现异构本体中的语义互操作,需要在异构本体间建立实体对应关系,这就是本体匹配。
目前国内外已有很多关于本体匹配方法的研究,并且有不少的本体匹配系统被开发出来并得到应用,比较著名的系统包括COMA++,ASMOV,Falcon,Lily,H-Match,CIDER等等,这些系统采用了不同的本体匹配方法或方法组合来发现异构本体匹配中的实体对应关系。但是这些系统并不能在所有的本体匹配任务中都获得令人满意的匹配结果。首先是这些方法和系统往往利用了本体的一部分信息,并不能实现对本体信息的充分探索;其次这些系统的匹配流程一般都是固定的,对于特定的本体并不能进行适当的调整,例如大多数系统都采用了基于实体名称的字符串匹配方法,但是如果本体中的实体名称并没有实际意义,那么再利用这种方法可能对最终结果造成干扰。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何实现对本体信息的充分探索,并根据需求对匹配流程进行组装,以获得精确地匹配结果。
(二)技术方案
为解决上述技术问题,本发明提供了一种基于用户定制的本体匹配系统,包括:
本体模块,包括原子组件本体操作接口子模块和本体API子模块;
与所述本体模块连接的原子组件模块,用于通过原子组件本体操作接口子模块调用本体API子模块的本体API实现用户自行实现的原子组件;
与所述原子组件模块连接的用户接口模块,用于接收用户上传的待匹配本体和用户自行实现的原子组件;
与所述原子组件模块和用户接口模块连接的匹配执行模块,用于根据所述待匹配本体生成匹配任务描述文件,并根据所述匹配任务描述文件选择系统原子组件或所述用户自行实现的原子组件来执行匹配任务,生成匹配结果,所述匹配任务描述文件包括:待匹配本体O1和O2的URI位置、匹配参数和匹配流程。
其中,所述原子组件模块包括的组件类型为:
预处理器,用于在完成实际的匹配操作执行前初始化匹配任务,包括,解析本体、规范化本体中术语、去噪音以及具体的匹配器中所用到的数据结构的建立;
匹配器,用于实现具体的本体匹配方法,所述匹配器包括:基于编辑距离相似度的匹配器、基于WordNet相似度的匹配器、基于向量空间的匹配器及基于相似度传播的匹配器;
匹配结果聚合器,用于对多个本体匹配方法获得的匹配结果进行聚合;
后处理器,用于对初始匹配结果进行处理,从初始结果中提取最终的匹配和对匹配结果进行优化;
匹配结果评估器,用于依据指定的评价指标对优化后的本体匹配结果进行评估。
其中,所述原子组件模块包括描述文件生成子模块,用于生成并存储所述原子组件的描述文件。
其中,所述匹配任务描述文件还包括参数:参考匹配。
本发明还提供了一种基于用户定制的本体匹配方法,包括以下步骤:
S1:接收用户上传的待匹配本体,并根据所述待匹配本体生成匹配任务描述文件;
S2:解析所述匹配任务描述文件,并根据匹配任务描述文件选择原子组件来执行匹配任务,所述匹配任务描述文件包括:待匹配本体O1和O2的URI位置、匹配参数和匹配流程。
其中,所述步骤S2具体包括:
S21:解析待匹配本体O1和O2的序列化文件,为本体中的每个实体生成描述,计算两个本体的名称相似度因子和结构相似度因子;
S22:通过所述名称相似度因子和结构相似度因子选择匹配方法进行匹配,并将匹配结果进行聚合;
S23:对所述聚合的匹配结果进行相似度传播;
S24:对相似度传播后的匹配结果进行选择优化。
其中,所述步骤S21中计算两个本体的名称相似度因子和结构相似度因子的方式为:
F ls ( O 1 , O 2 ) = Num ( Common ( c ) ) + Num ( Common ( p ) ) Num ( c 1 ) + Num ( p 1 ) + Num ( c 2 ) + Num ( p 2 ) ,
F ss ( O 1 , O 2 ) = Num ( Common ( c s ) ) + Num ( Common ( p s ) ) Num ( c 1 s ) + Num ( p 1 s ) + Num ( c 2 s ) + Num ( p 2 s ) ,
其中,c和p分别表示本体中的概念和属性,c1、c2和p1、p2分别表示本体O1和O2中的概念和属性;Common(c)和Common(p)分别表示两个本体中名称相同的概念和属性;分子中Num(Common(c))和Num(Common(p))的和表示名称相同的概念和属性的总数;分母是两个本体中所有概念和属性的总数,cs和ps表示本体中非叶子结点的概念和属性;Common(cs)和Common(ps)分别表是两个本体中子结点数目相同的非叶子结点的概念和属性;分子表示所述相同概念和属性的数目总数,分母则表示两个本体中所有非叶子结点的概念和属性的总数。
其中,所述步骤S22中选择匹配方法时,若选择多个匹配方法,则选择的多个匹配方法并行执行。
其中,所述匹配方法包括:基于编辑距离的匹配方法、基于向量空间的匹配方法、基于WordNet的匹配方法及基于机器学习的匹配方法。
(三)有益效果
本发明本体匹配流程中通过对预先定义的原子组件进行选择组装。并对本体匹配任务和匹配组件进行描述,使用户能够根据匹配本体的特征,对这些原子组件进行定制和组装来设计自己需要的本体匹配流程,生成合适的匹配任务并得到精确地匹配结果。
附图说明
图1是本发明实施例的一种基于用户定制的本体匹配系统结构示意图;
图2是利用图1系统的匹配方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明的基于用户定制的本体匹配系统包括:用户接口模块、匹配执行模块、原子组件模块及本体模块。
本体模块中包括两个部分:原子组件本体操作接口子模块和本体API子模块,分上下两层,上层的原子组件本体操作接口子模块用于提供原子组件实现的本体操作接口,下层的本体API子模块是一些常用的底层本体API,包括Jena API和OWL API等。原子组件本体操作接口子模块对本体匹配过程中需要调用的基本操作进行了抽象,设计了一组通用的接口供本系统中的原子组件调用,即在底层的本体API和原子组件模块中添加了一个中间层,这样设计的优点是原子组件的实现与底层API隔离而不需要针对底层API进行不同的实现;当需要使用新的底层本体API时,只需要增加该API的接口实现,而不需要对代码做出大的调整,使得本发明的系统具有很好的底层API扩展性。在实现原子组件本体操作接口子模块中的过程中,可以针对底层本体API中不适合本体匹配的内容进行调整,从而使API具有更好的可用性。原子组件本体操作接口子模块的主要接口和功能如表1所示。
表1原子组件本体操作接口子模块的本体匹配操作接口
Figure GDA0000396625330000051
原子组件模块连接本体模块,其中包含对原子组件相应的实现。原子组件被分为五种不同的类型:
1、预处理器,主要完成实际的匹配操作执行前的必要初始化工作,例如本体的解析等。另外,本体中术语的规范化、去噪音以及具体匹配方法中所用到的特定数据结构的建立,一般也在预处理阶段完成。
2、匹配器,具体执行本体匹配操作的方法组件,目前本发明系统中实现的匹配器有基于编辑距离相似度的匹配器、基于WordNet相似度的匹配器、基于向量空间的匹配器、基于相似度传播的匹配器等。
3、匹配结果聚合器,对多个本体匹配方法获得的匹配结果进行聚合。
4、后处理器,用于对初始匹配结果进行一些必要处理,包括从初始结果中提取最终的匹配和对匹配结果进行优化等。
5、匹配结果评估器,用于依据指定的评价指标对本体匹配结果进行评估。
原子组件模块中包括描述文件生成子模块,描述文件生成子模块用于每当在原子组件模块中实现一个原子组件,便根据原子组件描述模式生成一个对应的组件描述文件放入基本组件库中,这样可以让用户清楚的了解原子组件的功能,从而方便的实现组装。对于高级用户,本发明系统提供了让用户根据原子组件本体操作接口子模块中的接口自己实现原子组件的功能并组装到匹配流程中,更进一步的提高了该系统的用户可定制性。
匹配执行模块连接原子组件模块和用户接口模块,用于根据用户需求描述,生成匹配任务描述文件,然后对匹配任务进行执行,再将匹配结果返回给用户。匹配任务描述文件包括输入匹配本体O1和O2的位置(URI),匹配参数,参考匹配(可选)和匹配流程。匹配任务描述文件是按照本发明中的任务模式生成的,在任务模式中,将匹配组件抽象为三种不同的类型,表2中给出了三种组件的XML Schema定义:
1、原子组件,在本发明的系统中原子类型组件是串行流程组件和并行流程组件的组成元素,同时也是它们进行匹配流程控制的对象。
2、串行流程组件,本发明的系统中的串行流程组件由若干顺序执行的组件组成,这些组件可以是原子类型的方法组件,如预处理器组件、后处理器组件、匹配器组件;也可以是流程控制组件如并行流程组件。在串行流程组件中的各组件之间有着严格的次序依赖关系,这是因为后一个组件的输入总是依赖于前一个组件的输出。
3、并行流程组件,本发明的系统中的并行流程组件由若干个独立执行的串行流程组件和1个匹配结果聚合器组件组成。其中各个独立执行的串行流程组件可以是单个的原子类型的方法组件,如:预处理器组件、后处理器组件、匹配器组件;也可以是串行流程组件。在各个独立执行的串行流程组件执行完毕后,匹配结果聚合器组件再将其各个串行流程组件执行的结果进行聚合后再输出。在实际应用中,当一个串行流程组件只包含单个原子类型组件时,串行标记<Sequence>可省去。同时,当一个并行流程组件的各个独立执行的串行流程组件的数目少于2个时,匹配结果聚合器组件就失去实际意义,所以就不构成一个并行流程组件。每个任务都被处理为一个最外层的串行流程组件,用户根据任务的逻辑关系在这个外层串行流程组件的内部进行任务组装。由于我们在流程控制组件中定义了统一的输入输出格式,所以执行引擎首先对任务描述文件进行解析,然后在调用具体实现的组件对流程进行执行。本发明还提供了一个缺省的匹配流程供初级用户使用,如图2所示。
表2本发明中流程控制组件定义
Figure GDA0000396625330000071
Figure GDA0000396625330000081
用户接口模块连接原子组件模块,用于提供了基于Web的用户接口。用户通过该接口可以方便的遍历本体匹配任务,上传匹配本体和自行实现的原子组件。
本发明还提供了一种基于用户定制的本体匹配方法,即利用上述系统进行本体匹配的方法,包括:
步骤S1,接收用户上传的待匹配本体,并根据所述待匹配本体生成匹配任务描述文件。
步骤S2,解析所述匹配任务描述文件,并根据匹配任务描述文件执行匹配,所述匹配任务描述文件包括:待匹配本体O1和O2的URI位置、匹配参数和匹配流程。具体流程如图2所示(为本发明的缺省流程,)。
步骤1,预处理。给定两个本体,系统解析本体的序列化文件,为每个实体生成描述。之后计算两个本体的相似度因子,并通过这两个因子进行策略选择。
步骤2,基于文本的方法。这一步中,系统执行若干基于文本信息的映射策略(具体选定何种策略由用户自定或者系统选择,前者优先级高于后者)。每个策略使用不同的本体信息,并得到所有实体对的相似度。目前已有的匹配方法有基于编辑距离、基于向量空间、基于WordNet、基于机器学习等,每一个方法由对应的匹配器组件(包括用户自定义的组件)完成。
步骤3,相似度整合。这一步中,将上一步中得到的相似度结果整合起来,整合权重同样由用户自定和相似度因子二者决定,前者优先于后者。
步骤4,相似度传播。这一步在系统中由相似度传播组件完成。相似度传播组件基于Similarity Flooding算法,本文定义了三种相似度传播算法,即CC(概念-概念传播)、PP(属性-属性传播)和CP(概念-属性传播)。
步骤5、匹配选择与优化。这一步由后处理器实现,除去阈值过滤等,系统还会使用一些启发式规则对映射结果进行调整,剔除一部分“不可信”的匹配结果,将最终的结果存储以备显示和进行必要的用户交互。选择与优化有一些常用的算法,例如利用贪心法或稳定婚姻算法抽取一一映射的结果等;初始结果每个实体对中都会有一个相似度,即在待匹配本体的笛卡尔积上都会有结果,选择优化是从其中选择系统认为正确的结果的过程。
可以看到,步骤2和步骤3构成了一个并行流程组件,再和步骤1、步骤4、步骤5一起构成了整个匹配流程的串行组件。下面对这些步骤进行详细的介绍。
1、本体预处理,主要完成两方面的工作:本体序列化文件的解析和相似度因子的计算。解析工作主要由第三方的API完成,如图1中提及的Jena API、OWL-API等。下面主要讲一下名称相似度因子Fls和结构相似度因子Fss的定义及其对策略选择的影响。
F ls ( O 1 , O 2 ) = Num ( Common ( c ) ) + Num ( Common ( p ) ) Num ( c 1 ) + Num ( p 1 ) + Num ( c 2 ) + Num ( p 2 ) ,
F ss ( O 1 , O 2 ) = Num ( Common ( c s ) ) + Num ( Common ( p s ) ) Num ( c 1 s ) + Num ( p 1 s ) + Num ( c 2 s ) + Num ( p 2 s )
O1和O2为待匹配的本体,其中,c和p分别表示本体中的概念和属性,c1、c2和p1、p2分别表示本体O1和O2中的概念和属性;Common(c)和Common(p)分别表示两个本体中名称相同的概念和属性;分子中Num(Common(c))和Num(Common(p))的和表示名称相同的概念和属性的总数;分母是两个本体中所有概念和属性的总数,cs和ps表示本体中非叶子结点的概念和属性;Common(cs)和Common(ps)分别表是两个本体中子结点数目相同的非叶子结点的概念和属性;分子表示所述相同概念和属性的数目总数,分母则表示两个本体中所有非叶子结点的概念和属性的总数。
两个概念(或属性)结构相似意味着它们拥有相同的子概念(或属性)数量且到各自最顶父概念(或属性)的距离相同。
两个相似度因子对策略选择和聚合权重的设定有着参考价值。当用户未设定匹配流程和上述参数时,通过相似度因子和缺省流程中设定的阈值来确定选取何种方法,相似度因子的阈值是基本确定的,例如名称相似度因子大于0.5就是使用基于编辑距离的方法,该阈值会根据任务的变化有细微的调整。最后的聚合过程权重也可由这两个相似度因子通过运算给出。
2、基于文本的方法的实现。本发明中的缺省流程中使用的基于字符串的方法主要包括以下三种:
(1)基于实体标签的编辑距离的方法;基于编辑距离的方法是将概念/属性的标签看作字符序列,使用字符串比较的方法寻找两个不同名字的相似度,通过计算字符串的匹配度,来反映其语义上的相似性。有很多人对这类方法并比较了相关算法的有效性,由于本体中实体的标签通常比较短(几个单词),所以编辑距离的方法较为适宜。
(2)基于向量空间的方法;首先我们为每个概念和属性构建虚拟文档,虚拟文档即单词及其词频结构的集合。对于概念c,其虚拟文档为概念c及其子概念和实例的描述信息;对于属性p,其虚拟文档为属性p、p的子属性、定义域、值域以及实例的描述信息;对其中文本信息进行必要的分词、提取主干词、停用词过滤等操作后,系统使用TF-IDF得到与虚拟文档对应的带权向量。对于每个单词,其TF值(Term Frequency)在虚拟文档中已经给出:
tf(wi)=count(wi)
为O2中出现的单词,其中,Wi是第i个词,count是计数函数。
计算该单词的IDF(Inverse Document Frequency)值:
idf ( w i ) = log ( Num ( c 2 ) + Num ( p 2 ) + 1 count ( w i ) + 1 )
其中,Num为计数函数,c和p表示概念和属性。构建向量时,使用TF×IDF值作为向量在该维度的值,所以很容易得到每个虚拟文档(即每个实体)对应的向量:
V(e)=(tf(wi)×idf(wi))
其中,wi∈Virtual_Doc(e)。这样计算两个实体e1和e2的相似度就成功的转化为计算两个向量的相似度,采用余弦夹角的方法:
sim ( e 1 , e 2 ) = &Sigma; i = 1 | V | ( V ( e 1 ) i &times; V ( e 2 ) i ) &Sigma; i = 1 | V | ( V ( e 1 ) i 2 &times; &Sigma; i = 1 | V | V ( e 2 ) i 2 )
(3)基于WordNet的方法;WordNet是由Princeton大学GeorgeA.Miller团队设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,而且这些概念都通过特定的关系相互连接。WordNet中概念的关系包括同义、反义、上位、下位、成员、部分整体等关系。这些关系将所有的概念链接起来,组成一个网状结构,由此可以说WordNet是一个知识库或者通用本体。常见的利用WordNet计算相似度的方法有Jiang和Conrath的方法(JC方法)和Lin的方法,它们均在本发明的系统中实现。若用F表示信息量计算函数,F(e)=-logp(e),LCA(e1,e2)为二者的最近公共父节点(最近公共祖先Least Common Ancestors,LCA),那么两种方法的相似度计算分别为:
JC_sim(e1,e2)=F(e1)+F(e2)-2×F(LCA(e1,e2))
Lin _ sim ( e 1 , e 2 ) = 2 &times; F ( LCA ( e 1 , e 2 ) ) F ( e 1 ) + F ( e 2 )
3、相似度传播。本发明的系统将相似度传播算法(SimilarityFlooding)引入到本体匹配中,并进行了一定的改变成为其相似度传播的策略。相似度传播算法是的基本思想是:如果O1和O2中的两个实体比较相似(或不相似),那么与它们相关的实体之间的相似度会受到正面(或负面)的影响。相似度传播策略包含两个主要步骤:建立两两连接图,以及相似度传播。首先每个待匹配的本体被表示为带有标签的有向图(DLG,Directed Labelled Graph)。DLG中的每条边使用三元组表示,其中s和o是源本体和目标本体中的节点,p是边的标签(即关系)。之后,两个DLG被转换为两两连接图(PCG,PairwiseConnectivity Graph)。PCG中每个节点表示两个DLG之间的一个候选映射。然后,RiMOM在PCG的基础上建立相似度传播图(SPG,Similarity Propagation Graph)。RiMOM为SPG中的每条边分配一个权重,用来表示将一对节点的相似度传递到相邻节点对的传递强度。在相似度传播过程中,传播算法从两个DLG的节点对的初始相似度开始,在SPG上迭代计算每对节点的相似度。当两次迭代之间没有相似度发生变化,或迭代达到指定步数时,算法停止,输出所有节点对的相似度。
采用本发明的系统和方法进行了实验,具体实验过程如下:
1、评测指标。评估一个匹配方法的优劣,除了考虑其时间复杂度和空间复杂度,匹配效果也是必须要评价的,一般通过比较匹配的结果和标准匹配结果来得到。我们以查准率precision、查全率recall和F1-Measure来评价实验结果,具体定义如下:
查准率precision:P=系统产生的正确匹配数目/系统产生的匹配数目
查全率recall:R=系统产生的正确匹配数目/标准匹配的数目
F1-Measure:F1=2PR/(P+R)
2、评测数据集介绍。实验测试使用的是OAEI的Beachmarks数据集。OAEI(Ontology Alignment Evaluation Initiative)是一个国际性的协作活动,目标是通过提出若干用于本体映射的数据集,并每年组织一次映射比赛,来建立一套用于映射方法评估的共识。其中的Benchmarks测试用例集包含共51个不同的本体,所有的本体都覆盖了一个相同的领域(参考文献),表示语言为OWL-DL,序列化为RDF/XML。其中大部分的本体是在一个基本的本体(#101)基础上人工修改得到的。这种修改是有目的的修改,以测试匹配工具在某一方面的性能,修改对象主要是:实体名称和描述信息、概念、属性、实例等,修改动作大致为随机替换、删除、断开连接等等。
3、实验结果与分析。
通过对数据集分析,我们可以知道#202本体是在#101的基础上对元素的名称和/或元素的描述信息进行一定的改变而得到的,很显然基于编辑距离的方法这样的改变是无能为力,而基于向量空间的方法可以比较好的应对,所以我们可以很容易制定两个单独使用两种方法的流程进行验证。表3列出了匹配结果。
表3两种方法202号本体匹配结果对比
Precision Recall F1-Measure
编辑距离 7% 1% 2%
向量空间 84% 60% 70%
相反的,#222本体则是在#101的基础上全部保留了元素的名字和相应的描述信息。所不同的是,这些本体是不同类型的结构性信息缺失的组合,在这样的本体上,编辑距离的方法应该很有优势,表4列出了我们对此做的实验结果。
表4两种方法222号本体匹配结果对比
Precision Recall F1-Measure
编辑距离 86% 100% 92%
向量空间 86% 70% 77%
由上述的实验我们可以了解到,用户如果向我们一样对待匹配的数据集有一定的了解,就可以很容易根据待匹配本体的特点的定制相应的匹配流程,从而得到比较满意的结果。
而对于#102~#104本体,在文本和层次结构两方面都基本一样。
表5列出了两种不同匹配方法的匹配结果。
表5不同流程下103号本体匹配结果对比
Figure GDA0000396625330000141
通过观察,可以看出对于#103本体只使用编辑距离的方法可以得到很高的召回率而只用基于向量空间的方法则可以得到比较好的准确率,使用混合策略可以得到一个比较平衡的结果,加之相似度传播效果更佳,这就使得用户可以很容易根据自己的需求定制特定的匹配流程。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (9)

1.一种基于用户定制的本体匹配系统,其特征在于,包括:
本体模块,包括原子组件本体操作接口子模块和本体API子模块;
与所述本体模块连接的原子组件模块,用于通过原子组件本体操作接口子模块调用本体API子模块的本体API实现用户自行实现的原子组件;
与所述原子组件模块连接的用户接口模块,用于接收用户上传的待匹配本体和用户自行实现的原子组件;
与所述原子组件模块和用户接口模块连接的匹配执行模块,用于根据所述待匹配本体生成匹配任务描述文件,并根据所述匹配任务描述文件选择系统原子组件或所述用户自行实现的原子组件来执行匹配任务,生成匹配结果,所述匹配任务描述文件包括:待匹配本体O1和O2的URI位置、匹配参数和匹配流程。
2.如权利要求1所述的基于用户定制的本体匹配系统,其特征在于,所述原子组件模块包括的组件类型为:
预处理器,用于在完成实际的匹配操作执行前初始化匹配任务,包括,解析本体、规范化本体中术语、去噪音以及具体的匹配器中所用到的数据结构的建立;
匹配器,用于实现具体的本体匹配方法,所述匹配器包括:基于编辑距离相似度的匹配器、基于WordNet相似度的匹配器、基于向量空间的匹配器及基于相似度传播的匹配器;
匹配结果聚合器,用于对多个本体匹配方法获得的匹配结果进行聚合;
后处理器,用于对初始匹配结果进行处理,从初始结果中提取最终的匹配和对匹配结果进行优化;
匹配结果评估器,用于依据指定的评价指标对优化后的本体匹配结果进行评估。
3.如权利要求1所述的基于用户定制的本体匹配系统,其特征在于,所述原子组件模块包括描述文件生成子模块,用于生成并存储所述原子组件的描述文件。
4.如权利要求1所述的基于用户定制的本体匹配系统,其特征在于,所述匹配任务描述文件还包括参数:参考匹配。
5.一种基于权利要求1~4中任一项所述的系统的用户定制的本体匹配方法,其特征在于,包括以下步骤:
S1:接收用户上传的待匹配本体,并根据所述待匹配本体生成匹配任务描述文件;
S2:解析所述匹配任务描述文件,并根据匹配任务描述文件选择原子组件来执行匹配任务,所述匹配任务描述文件包括:待匹配本体O1和O2的URI位置、匹配参数和匹配流程。
6.如权利要求5所述的基于用户定制的本体匹配方法,其特征在于,所述步骤S2具体包括:
S21:解析待匹配本体O1和O2的序列化文件,为本体中的每个实体生成描述,计算两个本体的名称相似度因子和结构相似度因子;
S22:通过所述名称相似度因子和结构相似度因子选择匹配方法进行匹配,并将匹配结果进行聚合;
S23:对所述聚合的匹配结果进行相似度传播;
S24:对相似度传播后的匹配结果进行选择优化。
7.如权利要求6所述的基于用户定制的本体匹配方法,其特征在于,所述步骤S21中计算两个本体的名称相似度因子和结构相似度因子的方式为:
F ls ( O 1 , O 2 ) = Num ( Common ( c ) ) + Num ( Common ( p ) ) Num ( c 1 ) + Num ( p 1 ) + Num ( c 2 ) + Num ( p 2 ) ,
F ss ( O 1 , O 2 ) = Num ( Common ( c s ) ) + Num ( Common ( p s ) ) Num ( c 1 s ) + Num ( p 1 s ) um ( c 2 s ) + Num ( p 2 s ) ,
其中,c和p分别表示本体中的概念和属性,c1、c2和p1、p2分别表示本体O1和O2中的概念和属性;Common(c)和Common(p)分别表示两个本体中名称相同的概念和属性;分子中Num(Common(c))和Num(Common(p))的和表示名称相同的概念和属性的总数;分母是两个本体中所有概念和属性的总数,cs和ps表示本体中非叶子结点的概念和属性;Common(cs)和Common(ps)分别表是两个本体中子结点数目相同的非叶子结点的概念和属性;分子表示所述相同概念和属性的数目总数,分母则表示两个本体中所有非叶子结点的概念和属性的总数。
8.如权利要求6所述的基于用户定制的本体匹配方法,其特征在于,所述步骤S22中选择匹配方法时,若选择多个匹配方法,则选择的多个匹配方法并行执行。
9.如权利要求8所述的基于用户定制的本体匹配方法,其特征在于,所述匹配方法包括:基于编辑距离的匹配方法、基于向量空间的匹配方法、基于WordNet的匹配方法及基于机器学习的匹配方法。
CN201110064824.1A 2011-03-17 2011-03-17 基于用户定制的本体匹配系统及方法 Active CN102135905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110064824.1A CN102135905B (zh) 2011-03-17 2011-03-17 基于用户定制的本体匹配系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110064824.1A CN102135905B (zh) 2011-03-17 2011-03-17 基于用户定制的本体匹配系统及方法

Publications (2)

Publication Number Publication Date
CN102135905A CN102135905A (zh) 2011-07-27
CN102135905B true CN102135905B (zh) 2014-04-02

Family

ID=44295697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110064824.1A Active CN102135905B (zh) 2011-03-17 2011-03-17 基于用户定制的本体匹配系统及方法

Country Status (1)

Country Link
CN (1) CN102135905B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306177B (zh) * 2011-08-25 2013-06-05 清华大学 一种多策略组合的本体或实例匹配方法
CN102360394B (zh) * 2011-10-27 2013-01-09 北京邮电大学 一种基于本体词法信息和语义信息的本体匹配方法
CN104133673B (zh) * 2014-07-04 2017-09-26 清华大学 基于用户定制的本体实例匹配系统及方法
US10496528B2 (en) 2015-08-31 2019-12-03 Microsoft Technology Licensing, Llc User directed partial graph execution
CN105278956B (zh) * 2015-09-30 2019-03-05 北京奇虎科技有限公司 一种业务处理模块生成方法和装置
CN106021306B (zh) * 2016-05-05 2019-03-15 上海交通大学 基于本体匹配的案例搜索系统
EP3475888A1 (en) 2016-08-22 2019-05-01 Oracle International Corporation System and method for ontology induction through statistical profiling and reference schema matching
CN108091328B (zh) * 2017-11-20 2021-04-16 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及可读介质
CN112597315B (zh) * 2020-12-28 2023-07-14 中国航天系统科学与工程研究院 一种基于SysML元模型本体的系统模型图谱构建方法
CN112948603B (zh) * 2021-03-08 2023-05-05 北方自动控制技术研究所 一种基于迁移学习的运输投送知识问答方法
CN117110287B (zh) * 2023-10-24 2024-01-16 广州冰泉制冷设备有限责任公司 一种可食用冰球制作质量检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1952882A (zh) * 2006-11-16 2007-04-25 武汉大学 一种基于本体元模型的领域建模方法
CN101944016B (zh) * 2009-07-10 2013-04-10 武汉大学 一种软件服务的语义标识及需求封装方法
CN101710285A (zh) * 2009-11-24 2010-05-19 武汉大学 一种基于领域模型的服务需求获取与建模方法

Also Published As

Publication number Publication date
CN102135905A (zh) 2011-07-27

Similar Documents

Publication Publication Date Title
CN102135905B (zh) 基于用户定制的本体匹配系统及方法
Chavira et al. On probabilistic inference by weighted model counting
Gal Uncertain schema matching
US20170154108A1 (en) Resolution of ambiguous and implicit references using contextual information
Popescul et al. Structural logistic regression for link analysis
CN105210058A (zh) 使用多个引擎来进行图查询处理
CN107103000A (zh) 一种基于关联规则与贝叶斯网络集成的推荐技术
CA2802887A1 (en) Systems of computerized agents and user-directed semantic networking
CN105095433A (zh) 实体推荐方法及装置
KR101987915B1 (ko) 자연어 질의로부터 지식 베이스에 대한 쿼리의 생성에 사용되는 템플릿을 생성하는 시스템 및 이를 포함하는 질의 응답 시스템
Rinaldi et al. A matching framework for multimedia data integration using semantics and ontologies
CN107193882A (zh) RDF数据上基于图匹配的why‑not查询回答方法
Minkov et al. Improving graph-walk-based similarity with reranking: Case studies for personal information management
CN104699767A (zh) 一种面向中文语言的大规模本体映射方法
Zaiss Instance-based ontology matching and the evaluation of matching systems.
An et al. Automatic generation of ontology from the deep web
Maaradji et al. Social web mashups full completion via frequent sequence mining
Calegari et al. Object‐fuzzy concept network: An enrichment of ontologies in semantic information retrieval
Gao et al. Semantic mapping from natural language questions to OWL queries
Yu et al. A structured ontology construction by using data clustering and pattern tree mining
CN107436919B (zh) 一种基于本体和boss的云制造标准服务建模方法
Freitas et al. A multidimensional semantic space for data model independent queries over RDF data
CN104133673B (zh) 基于用户定制的本体实例匹配系统及方法
Christoffersen SPARQL Extension Ranking-Collaborative filtering for OptiqueVQS-queries
KR20120073651A (ko) 키워드 검색을 위한 sparql 질의 처리 수행 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant