CN102637163A - 一种基于语义的多层次本体匹配的控制方法及系统 - Google Patents

一种基于语义的多层次本体匹配的控制方法及系统 Download PDF

Info

Publication number
CN102637163A
CN102637163A CN2011100031720A CN201110003172A CN102637163A CN 102637163 A CN102637163 A CN 102637163A CN 2011100031720 A CN2011100031720 A CN 2011100031720A CN 201110003172 A CN201110003172 A CN 201110003172A CN 102637163 A CN102637163 A CN 102637163A
Authority
CN
China
Prior art keywords
semantic
similarity
value
entity elements
control method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100031720A
Other languages
English (en)
Inventor
吕钊
梁璐
曹艳娇
李琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN2011100031720A priority Critical patent/CN102637163A/zh
Publication of CN102637163A publication Critical patent/CN102637163A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种新颖的本体语义匹配方法,该方法综合考虑了本体的结构特征和语义特征,从三个方面对待匹配的本体进行测度。首先,对本体1和本体2进行预处理,如分词、归类或删除等操作;然后借助基于语义词典的语义相似度算法分别计算两个本体的元素相似度、基于属性的结构相似度和基于关系的结构相似度;最后加权平均三种相似度,并根据预先设定的阈值给出匹配结果。这种方法具有较强的语义性,因为它考虑了本体中概念的语义特征和本体结构中的语义特征,且在三种相似度计算中都应用了基于语义词典的语义相似性测度方法,因此能很好地挖掘出待匹配本体的语义特征,因此利用此方法进行本体匹配的结果很好。

Description

一种基于语义的多层次本体匹配的控制方法及系统
技术领域
本发明涉及自然语言处理(NLP)的技术领域,具体说是基于语义字典来对两个本体从三个层次进行语义测度的方法。更具体地,本发明涉及一种在信息检索、机器翻译、知识管理系统应用中对两个本体进行基于语义的多层次匹配的控制方法以及相应的控制系统。
背景技术
本体作为语义Web的核心技术,已经得到了广泛的应用。但是由于本体开发自身具有分布式的特点,对于同一个领域,不同用户建立的本体也不相同,所以导致了在一个领域出现了许多不同的本体。这些本体是异构的,它们之间往往不能互相通信,用户之间也不能相互理解。为了更有效地使用和重用本体,以完成信息交换与集成的任务就必须找出不同本体之间的映射关系,即本体匹配技术。
本体匹配(Ontology Matching)是解决异构本体之间相互通信,发现不同本体之间实体元素映射关系的关键技术,对于实现基于不同本体的应用之间的交互具有重要意义。随着本体应用需求的增大,本体的数量急剧增加,所以迫切需要一些方法和工具能自动或者半自动地完成大量的本体匹配工作。
目前,本体匹配方法分为元素层次(Element-level)和结构层次(Structure-level)两类。元素层次又分为基于语法(Syntactic)的方法和基于外部信息(External)的方法;结构层次分为基于语法的方法、基于语义(Semantics)的方法、基于外部信息的方法。
本体匹配主要分为五个步骤:本体实例(概念、关系、属性等)提取、相似度计算、语义提取、人工干预、匹配输出。其中相似度计算是核心技术。对于相似度计算可以从自然语言、字符串、本体结构信息、本体推理等多角度进行。实际系统大多是采用多种相似度方法相结合的方法,因为单一标准匹配结果不够精确。多种匹配算法相结合,可以发掘出本体多方面的信息,是匹配结果更加准确。
目前提出的本体匹配方法有各自不同的特点,但是通过分析研究这些方法和系统,有如下两点值得改进和关注:首先是本体匹配的核心算法,概念相似度计算,如何发掘概念中的语义信息,提出合理的相似度计算模型,能够提高本体匹配的精度;其次如何利用本体自身的语义信息和本体的结构信息,提高匹配的精度。
本发明的目的至少在于对上述两点进行改进。
发明内容
本发明提出了一种基于语义字典的本体匹配框架,其中包括:针对本体语义特征和结构特征,提出从三个层次来测度两个本体匹配结果,即从元素层次,属性层次和关系层次。
针对现有技术中的缺陷,本发明的目的是提供一种在信息检索、机器翻译、知识管理系统应用中对两个本体进行的基于语义的多层次匹配的控制方法以及相应的控制系统。
根据本发明的一个方面,提供一种在信息检索、机器翻译、知识管理系统应用中对对两个本体间的基于语义的多层次匹配控制方法,其用于对至少第一本体与第二本体的语义匹配度进行测量,其包括如下步骤:
a.计算所述第一本体与第二本体中的所有实体元素对的语义相似度值;
b.计算所述第一本体与第二本体中的概念相似度值;
c.计算所述第一本体与第二本体的概念关系相似度值;
d.对上述三个相似度值,分别赋予不同的权重,将加权后的三个相似度值的合值,作为两概念的相似度值,其中所述三个相似度值的权重之和为1;
e.按上述方法计算出所有实体元素对的相似度值,然后加权后求合值,将计算结果作为所述第一本体与第二本体的相似度值;以及
f.将所述第一本体与第二本体的相似度值与预先设定的本体相似度阈值进行比较,并将比较结果作为所述第一本体与第二本体的匹配度。
优选地,本发明提供的上述控制方法还可以通过如下方式实现:首先对第一本体和第二本体进行预处理;然后分别计算两个本体的元素相似度、基于属性的结构相似度和基于关系的结构相似度;最后加权三种相似度后,并根据阈值给出匹配结果。其具体操作步骤如下:
第一步:通过对第一本体和第二本体的解析,提取两个本体中的实体元素,如概念、属性和实例等;对这些实体元素的描述信息进行预处理,如分词、归类或删除等操作;
第二步:运行元素层次匹配模块:即将第一本体中的所有实体元素和第二本体中的所有实体元素进行比较,如果实体元素对名字一样,则返回1,否则计算实体元素对的语义相似度。
第三步:运行基于属性的匹配模块:即针对第一本体和第二本体中各概念,提取各概念的属性列表,计算两个属性列表中各属性间的语义相似度的平均值,作为这两个概念的相似度值。
第四步:运行基于关系的结构相似度模块:针对第一本体和第二本体中的两个概念,分别提取与这两个概念相连的所有关系,以及这些关系所连接的其他概念,利用所提取出的关系和概念计算两个概念关系相似度。
第五步:第二步,第三步和第四步分别从本体的元素层次、本体的属性层次和本体中关系三方面计算所要匹配的两个本体的相似度,最后,对这三种方法计算的相似度值进行加权后求合值,得出最终两个本体的相似度值。
第六步:根据预先设定的本体相似度阈值,输出两个本体的匹配结果。
根据本发明的另一个方面,还提供一种在信息检索、机器翻译、知识管理系统中用于对所使用的本体间进行基于语义的多层次匹配的控制系统,其特征在于,根据上述控制方法实现对两个本体的基于语义多层次匹配。
与背景技术相比,本发明主要有以下优点:
(1)语义性强:在本体的元素层次相似度计算、本体的属性层次相似度计算和本体的关系相似度计算中,都应用了基于语义词典的语义相似性的测度方法,所以本发明在本体匹配过程中体现了较强的语义性。
(2)匹配结果好:本发明所提出的本体匹配方法,分别针对第一本体和第二本体的元素层次,属性层次和关系层次进行语义度量,充分考虑了两个所述本体的结构特征和语义特征,因此其匹配结果好。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明的一个具体实施方式的,第一本体的样例的示意图;
图2示出根据本发明的一个具体实施方式的,第二本体的样例的示意图;
图3示出根据本发明的第一实施例的,一种在语义词典应用中对基于语义的多层次本体匹配的控制方法的流程图;以及
图4示出根据本发明的第二实施例的,一种在语义词典应用中对基于语义的多层次本体匹配的控制方法的示意图。
具体实施方式
图1示出根据本发明的一个具体实施方式的,第一本体的样例的示意图。具体地,本领域技术人员理解,在本具体实施方式中,所述第一本体被划分为三个层次,其中第一本体的第一层为“Electronics”,其下属的第二层包括“Personal_computer”以及“Photo_and_Cameras”,该两层的关系为“Is_a”的关系,即所述第二层“Is_a”所述第一层的关系。进一步地,与所述“Personal_computer”对应的所述第三层包括“Microprocessors”以及“Accessories”,其关系为第三层为“Part_of”第二层的关系。类似地,与所述“Photo_and_Cameras”对应的所述第三层包括“Name”、“Quantity”以及“Price”,其关系为第三层为“Attitude_of”第二层的关系。基于图1,本领域技术人员可以理解所述第一本体的内容,在此不予赘述。
类似地,图2示出根据本发明的一个具体实施方式的,第二本体的样例的示意图。具体地,本领域技术人员理解,在本具体实施方式中,所述第二本体被划分为三个层次,其中第一本体的第一层为“Electronics”,其下属的第二层包括“PC”以及“Photo_and_Cameras”,该两层的关系为“Is_a”的关系,即所述第二层“Is_a”所述第一层的关系。进一步地,与所述“PC”对应的所述第三层包括“PC_Board”,其关系为第三层为“Part_of”第二层的关系。类似地,与所述“Photo_and_Cameras”对应的所述第三层包括“Brand”、“Amount”以及“Price”。基于图2,本领域技术人员可以理解所述第二本体的内容,在此不予赘述。
具体地,本领域技术人员理解,可以通过现有技术实现
具体地,图3示出根据本发明的第一实施例的,一种在具体应用中对两个本体进行的基于语义的多层次匹配的控制方法的流程图。首先执行步骤S101:计算所述第一本体与第二本体中的所有实体元素对的语义相似度值。具体地,本领域技术人员可以参考现有技术实现计算所有实体元素对的语义相似度值的过程,在此不予赘述。
其次进入步骤S102:计算所述第一本体与第二本体中的概念的相似度值。具体地,本领域技术人员可以参考现有技术实现计算上述概念的相似度值的过程,在此不予赘述。
然后执行步骤S103:计算所述第一本体与第二本体的概念关系相似度值。具体地,本领域技术人员可以参考现有技术实现计算上述的概念关系相似度值的过程,在此不予赘述。本领域技术人员理解,所述概念关系优选地指本体的各层次之间的逻辑关系,例如图1所示的“Is_a”、“Part_of”、“Attribute_of”等即为所述的概念关系,在此不予赘述。
接下来进入步骤S104:对上述三个相似度值,分别赋予不同的权重,将加权后的三个相似度值的合值,作为两个概念的相似度值,其中所述三个相似度值的权重之和为1。具体地,本领域技术人员可以根据不同实施需要来设定不同的权重,并应保证三个权重之和为1。例如,在本实施例中,将所述所有实体元素对的语义相似度值的权重设定为0.3、将所述概念的相似度值的权重设定为0.2、将所述概念关系相似度值的权重设定为0.5。类似地,本领域技术人员结合现有技术以及上述实施例可以通过不同变化例设定不同的权重,在此不予赘述。
然后进入步骤S105:按上述方法计算出所有实体元素对的相似度值,将三个相似度值与三个权重分别相乘后求合值,将计算结果作为所述第一本体与第二本体的相似度值。即,按上述方法计算出所有实体对的相似度值,然后加权后求合值,将计算结果作为所述第一本体与第二本体的相似度值。具体地,本领域技术人员可以参考现有技术实现计算所有实体元素对的语义相似度值、求和值的过程,在此不予赘述。
最后执行步骤S106:将所述第一本体与第二本体的相似度值与预先设定的本体相似度阈值进行比较,并将比较结果作为所述第一本体与第二本体的匹配度。具体地,本领域技术人员理解,匹配度需要一个标本予以衡量,相应地,可以预先设定一个本体相似度阈值,并将其作为比较标本。通过上述步骤S105确定所述第一本体与第二本体的相似度值后,即可以通过比较算法进行比较,以实现本步骤。而在一个变化例中,所述本体相似度阈值由一个第三方系统动态地给出,而本发明提供的控制系统通过向所述第三方系统发出请求后获得该第三方系统所给出的所述本体相似度阈值。本领域技术人员理解,可以根据不同的实施需要实现不同变化例,在此不予赘述。
进一步地,本领域技术人员理解,在一个变化例中,在所述步骤S101之前还包括如下步骤:i.对所述第一本体与第二本体进行预处理。更进一步地,本领域技术人员理解,在一个具体的变化例中,所述步骤i可以包括如下步骤:
i1.对所述第一本体与第二本体分别进行解析,提取对应于所述第一本体与所述第二本体的实体元素;
i2.对所述第一本体的实体元素与所述第二本体的实体元素进行预处理,其中,所述预处理结果将至少作为后续步骤S101的处理内容。
本领域技术人员理解,上述实体元素至少包括如下元素中的任一种或任多种:所述本体的概念;所述本体的属性;以及所述本体的实例。具体地,本领域技术人员理解,所述本体的概念可以参考图1中的Electronics、Personal_computer等内容,所述本体的属性可以参考图1中的Name、Quantity、Price等;又例如,图2中PC是Eelctronics的一个实例,即其可以作为所述本体的实例,在此不予赘述。
更进一步地,本领域技术人员理解,在一个变化例中,所述步骤包括如下步骤:
i21.对实体元素的描述信息进行分词处理;
i22.删除分词后的不能体现语义关系和/或重复的词语。
更进一步地,本领域技术人员理解,在一个变化例中,所述步骤步骤i21和所述步骤i22之间还包括如下步骤:对所述分词后的词语进行归类处理。
本领域技术人员理解,上述不能体现语义关系的词语至少包括如下词语中的任一种或任多种:语气词;助词;以及叹词。
更进一步地,在图3所示实施例的一个变化例中,所述步骤S101包括如下步骤:
a1.确定所述第一本体的所有实体元素对,并确定所述第二本体的所有实体元素对;
a2.对所述所有实体元素对进行比较;
a3.若任一实体元素对的名字相一致,则实体元素对间的相似度值为1,否则计算所述实体元素对的相似度值。
进一步地,本领域技术人员理解,所述步骤a3中的计算所述实体元素对的相似度值的步骤包括如下步骤:利用基于语义词典的语义相似度测度算法计算所述实体元素对的语义相似度值。
更进一步地,在图3所示实施例的一个变化例中,所述步骤S102包括如下步骤:
b1.确定所述第一本体中的各概念的属性列表,并确定所述第二本体的各概念的属性列表;
b2.计算所述两个属性列表中各属性间的语义相似度的平均值,将所述平均值作为所述第一本体与第二本体中的概念的相似度值。
本领域技术人员理解,上述步骤b2中的计算所述两个属性列表中各属性间的语义相似度的平均值的步骤包括如下步骤:利用基于语义词典的语义相似度测度算法计算所述两个属性列表中各属性间的语义相似度的平均值。
更进一步地,本领域技术人员理解,在一个变化例中,所述步骤c包括如下步骤:
c1.确定所述第一本体的一个概念,并确定所述第二本体的一个概念;
c2.分别提取所述第一本体以及第二本体中与这两个概念相连的所有关系;
c3.利用所提取出的所有关系并结合基于语义词典的语义相关度算法计算两个概念关系的相似度值。
本领域技术人员理解,上述步骤c2还包括如下步骤:分别提取所述所有关系所连接的其他概念;其中,相应地,所述步骤c3包括如下步骤:利用所提取出的所有关系、所述概念并结合基于语义词典的语义相关度算法计算两个概念关系的相似度值。
针对上述实施例以及变化例,本领域技术人员可以参考现有技术实现这些内容,在此不予赘述。
图4示出根据本发明的第二实施例的,一种在信息检索、机器翻译、知识管理系统语义词典应用中对两个本体进行对基于语义的多层次本体匹配的控制方法的示意图。
本发明提出的一种基于语义的多层次本体匹配的方法包括如下步骤:首先对第一本体和第二本体进行预处理;然后分别计算两个本体的元素相似度、基于属性的结构相似度和基于关系的结构相似度;最后加权三种相似度后求合值,并根据阈值给出匹配结果。
具体操作步骤如下:
第一步:通过对第一本体和第二本体的解析,提取两个本体中的实体元素,如概念、属性和实例等;对这些实体元素的描述信息进行预处理,如分词、归类或删除等操作。利用分词软件对这些描述信息进行分词处理,然后将其中的语气词、助词、叹词等一些不能体现语义关系的词去掉并且删除重复的词语。本领域技术人员理解,可以参考现有技术实现提取实体的步骤,例如至少可以参考“M.Ehrig and Y.Sure.Ontology mapping-an integrated approach.In Proceedings of theEuropean Semantic Web Symposium(ESWS),2004,p76-91.”、“M.Ehrig and S.Staab.QOM:Quick ontology mapping.In Proceedings ofthe International Semantic Web Conference(ISWC),2004,p683-697.”来实现这样的过程,在此不予赘述。
第二步:运行元素层次匹配模块,即将第一本体中的所有实体元素和第二本体中的所有实体元素进行比较,如果实体元素对名字一样,则返回1,否则利用基于语义词典的语义相似度测度算法计算实体对的语义相似度。本领域技术人员理解,优选地,可以通过如下算法实现所述计算实体元素对的语义相似度过程:
步骤1:输入两个实体元素e1,e2
步骤2:在WordNet中寻找e1和e2的最低公共父节点lso(e1,e2);
步骤3:寻找e1,e2,lso(e1,e2)的语义路径;
步骤4:计算e1,e2,lso(e1,e2)的语义路径的转移概率;
步骤5:计算语义距离distJC(e1,e2);
步骤6:输入相似度值simelement(e1,e2)=simNEW(e1,e2)。
第三步:运行基于属性的匹配模块,即针对第一本体和第二本体中各概念,提取各概念的属性列表,利用基于语义词典的语义相似度测度算法计算2个属性列表中各属性间的语义相似度的平均值,作为这两个概念的相似度值。本领域技术人员理解,本步骤的核心思想是如果两个概念的属性(property)相似,则这两个概念相似。优选地,可以通过如下具体算法实现本步骤:
步骤1:输入两个概念e1,e2
步骤2:提取概念e1,e2的所有属性列表p(e1),p(e2);
步骤3:
Figure BDA0000043179930000101
将计算结果存储为二维矩阵;
步骤4:利用公式
Figure BDA0000043179930000102
计算属性相似度;
步骤5:输出相似度值simproperty(e1,e2)。
第四步:运行基于关系的结构相似度模块,即针对所述第一本体和第二本体中两个概念,分别提取所述两个本体中与这两个概念相连的所有关系,以及这些关系所连接的其他概念,利用所提取出的关系和概念并结合基于语义词典的语义相关度算法计算两个概念的关系相似度。优选地,本领域技术人员理解,
对于给定概念e1,所有与e1相连接的概念集合记为r(e1)={(r11,e11),(r12,e12),……,(r1n,e1n)}。其中r1i表示关系,e1i表示通过关系r1i与e1相连接的概念。常见的关系有is-a(sub-class)、has-a、part-of、contains等。在匹配过程中,只有当关系名称相同时,才能进行相似度的传递。
另外is-a关系是一种可以继承的关系。所以在提取概念e的关系时,需要把is-a关系相连接的子概念的所有关系都提取出来,并添加到r(e)中。优选地,具体完成本步骤的算法如下:
步骤1:输入两个概念e1,e2
步骤2:提取与e1,e2相连的所有关系,以及这些关系所连接的概念,分别存入集合r(e1)和r(e2);
步骤3:比较r(e1)和r(e2)中所有元素,对于任意的r1i=r2j,采用下述计算元素的相似度的方法计算simNEW(e1i,e2j),存入数组R中;
Figure BDA0000043179930000111
步骤5:输入相似度值simrelation(e1,e2)。
第五步:第二步,第三步和第四步分别从第一本体和第二本体的元素层次、本体的属性层次和本体的关系三方面计算所述两个本体的相似度,最后,对这三种方法计算的相似度值进行加权后求合值,得出最终两个本体的相似度值。具体地,可以参考如下公式完成加权求和的过程:
sim(e1,e2)=w1*simelement(e1,e2)+w2*simproperty(e1,e2)+w3*simrelation(e1,e2)
其中w1+w2+w3=1。
第六步:根据预先设定的本体相似度阈值,输出两个本体的匹配结果。
参考上述实施例以及变化例,本领域技术人员理解,优选地,在本发明中,采用如下公式来实现计算相似度,例如上述的实体元素对的语义相似度值、所述第一本体与第二本体的概念的相似度值、所述第一本体与第二本体的概念关系相似度值。优选地,该公式如下:
sim NEW ( w 1 , w 2 )
= k β dist JC ( w 1 , w 2 ) + β + ( 1 - k ) ( 2 × log p ( lso ( w 1 , w 2 ) ) log p ( w 1 ) + log p ( w 2 ) )
= kβ IC ( w 1 ) + IC ( w 2 ) - 2 × IC ( lso ( w 1 , w 2 ) ) + β
+ ( 1 - k ) ( 2 × log p ( lso ( w 1 , w 2 ) ) log p ( w 1 ) + log p ( w 2 ) )
其中,distJC(w1,w2)是由Jiang和Conrath提出的测量语义距离的方法,至少可以参考Jiang J.,Conrath D.,Semantic similarity based oncorpus statistics and lexical taxonomy,Proceedings of InternationalConference on Research in Computational Linguistics,Taiwan,1997,p19-33,在此不予赘述。k∈[0,1]表示权重。
Figure BDA0000043179930000125
是语义距离和语义相似度的转换公式。β是可调参数。lso(w1,w2)表示最底层公共父节点,
Figure BDA0000043179930000126
是w的转移概率,ei是wi-1到wi的有向边,
Figure BDA0000043179930000127
hypo(wi-1)表示节点wi-1在WordNet中直接的hypomyms(子节点)集合。
Figure BDA0000043179930000128
表示两个单词之间公共信息所占的比率。比率越大,相似度越大。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (15)

1.一种在信息检索、机器翻译、知识管理系统应用中基于语义的多层次本体匹配的控制方法,其用于对至少第一本体与第二本体的语义匹配度进行测量,其特征在于,包括如下步骤:
a.计算所述第一本体与第二本体中的所有实体元素对的语义相似度值;
b.计算所述第一本体与第二本体中的概念的相似度值;
c.计算所述第一本体与第二本体的概念关系相似度值;
d.对上述三个相似度值,分别赋予不同的权重,将加权后的三个相似度值的合值,作为两概念的相似度值,其中所述三个相似度值的权重之和为1;
e.按上述方法计算出所有实体对的相似度值,然后加权后求合值,将计算结果作为所述第一本体与第二本体的相似度值;
f.将所述第一本体与第二本体的相似度值与预先设定的本体相似度阈值进行比较,并将比较结果作为所述第一本体与第二本体的匹配度。
2.根据权利要求1所述的控制方法,其特征在于,在所述步骤a之前还包括如下步骤:
i.对所述第一本体与第二本体进行预处理。
3.根据权利要求2所述的控制方法,其特征在于,所述步骤i包括如下步骤:
i1.对所述第一本体与第二本体分别进行解析,提取对应于所述第一本体与所述第二本体的实体元素;
i2.对所述第一本体的实体元素与所述第二本体的实体元素进行预处理,其中,所述预处理结果将至少作为后续步骤a的处理内容。
4.根据权利要求3所述的控制方法,其特征在于,所述实体元素至少包括如下元素中的任一种或任多种:
-所述本体的概念;
-所述本体的属性;以及
-所述本体的实例。
5.根据权利要求3或4所述的控制方法,其特征在于,所述步骤i2包括如下步骤:
i21.对实体元素的描述信息进行分词处理;
i22.删除分词后的不能体现语义关系和/或重复的词语。
6.根据权利要求5所述的控制方法,其特征在于,所述步骤i21和所述步骤i22之间还包括如下步骤:
-对所述分词后的词语进行归类处理。
7.根据权利要求5或6所述的控制方法,其特征在于,所述的不能体现语义关系的词语至少包括如下词语中的任一种或任多种:
-语气词;
-助词;以及
-叹词。
8.根据权利要求1至7中任一项所述的控制方法,其中,所述步骤a包括如下步骤:
a1.确定所述第一本体的所有实体元素对,并确定所述第二本体的所有实体元素对;
a2.对所述所有实体元素对进行比较;
a3.若任一实体元素对的名字相一致,则实体元素对间的相似度值为1,否则计算所述实体元素对的相似度值。
9.根据权利要求8所述的控制方法,其特征在于,所述步骤a3中的计算所述实体元素对的相似度值的步骤包括如下步骤:
-利用基于语义词典的语义相似度测度算法计算所述实体元素对的语义相似度值。
10.根据权利要求1至9中任一项所述的控制方法,其中,所述步骤b包括如下步骤:
b1.确定所述第一本体中的各概念的属性列表,并确定所述第二本体的各概念的属性列表;
b2.计算所述两个属性列表中各属性间的语义相似度的平均值,将所述平均值作为所述第一本体与第二本体中的概念的相似度值。
11.根据权利要求10所述的控制方法,其特征在于,所述步骤b2中的计算所述两个属性列表中各属性间的语义相似度的平均值的步骤包括如下步骤:
-利用基于语义词典的语义相似度测度算法计算所述两个属性列表中各属性间的语义相似度的平均值。
12.根据权利要求1至11中任一项所述的控制方法,其中,所述步骤c包括如下步骤:
c1.确定所述第一本体的一个概念,并确定所述第二本体的一个概念;
c2.分别提取所述第一本体以及第二本体中与这两个概念相连的所有关系;
c3.利用所提取出的所有关系并结合基于语义词典的语义相关度算法计算两个概念关系的相似度值。
13.根据权利要求12所述的控制方法,其特征在于,所述步骤c2还包括如下步骤:
-分别提取所述所有关系所连接的其他概念;
其中,所述步骤c3包括如下步骤:
-利用所提取出的所有关系、所述概念并结合基于语义词典的语义相关度算法计算两个概念关系的相似度值。
14.根据权利要求1至13中任一项所述的控制方法,其中,根据如下公式计算所述相似度值:
sim NEW ( w 1 , w 2 )
= k β dist JC ( w 1 , w 2 ) + β + ( 1 - k ) ( 2 × log p ( lso ( w 1 , w 2 ) ) log p ( w 1 ) + log p ( w 2 ) )
= kβ IC ( w 1 ) + IC ( w 2 ) - 2 × IC ( lso ( w 1 , w 2 ) ) + β
+ ( 1 - k ) ( 2 × log p ( lso ( w 1 , w 2 ) ) log p ( w 1 ) + log p ( w 2 ) )
其中,k∈[0,1]表示权重。
Figure FDA0000043179920000041
是语义距离和语义相似度的转换公式。β是可调参数。lso(w1,w2)表示最底层公共父节点,是w的转移概率,ei是wi-1到wi的有向边,
Figure FDA0000043179920000043
hypo(wi-1)表示节点wi-1在WordNet中直接的hypomyms(子节点)集合,
Figure FDA0000043179920000044
表示两个单词之间公共信息所占的比率。
15.一种在信息检索、机器翻译、知识管理系统中用于对所使用的本体间进行基于语义的多层次匹配的控制系统,其特征在于,根据上述权利要求1至14中任一项所述的控制方法实现基于语义的多层次本体匹配。
CN2011100031720A 2011-01-09 2011-01-09 一种基于语义的多层次本体匹配的控制方法及系统 Pending CN102637163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100031720A CN102637163A (zh) 2011-01-09 2011-01-09 一种基于语义的多层次本体匹配的控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100031720A CN102637163A (zh) 2011-01-09 2011-01-09 一种基于语义的多层次本体匹配的控制方法及系统

Publications (1)

Publication Number Publication Date
CN102637163A true CN102637163A (zh) 2012-08-15

Family

ID=46621560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100031720A Pending CN102637163A (zh) 2011-01-09 2011-01-09 一种基于语义的多层次本体匹配的控制方法及系统

Country Status (1)

Country Link
CN (1) CN102637163A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462323A (zh) * 2014-12-02 2015-03-25 百度在线网络技术(北京)有限公司 语义相似度计算方法、搜索结果处理方法和装置
CN104462060A (zh) * 2014-12-03 2015-03-25 百度在线网络技术(北京)有限公司 通过计算机实现的计算文本相似度和搜索处理方法及装置
CN105224591A (zh) * 2015-08-14 2016-01-06 深圳市海那边科技有限公司 一种智能化移民信息匹配方法及服务器
CN105630751A (zh) * 2015-12-28 2016-06-01 厦门优芽网络科技有限公司 一种快速比对文本内容的方法与系统
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
CN106650940A (zh) * 2016-12-26 2017-05-10 东软集团股份有限公司 一种领域知识库构建方法及装置
CN107644029A (zh) * 2016-07-20 2018-01-30 平安科技(深圳)有限公司 信息查询方法及信息查询装置
CN107704602A (zh) * 2017-10-16 2018-02-16 西南大学 基于agrovoc的大规模农业语义本体匹配方法
CN107885737A (zh) * 2017-12-27 2018-04-06 传神语联网网络科技股份有限公司 一种人机互动翻译方法及系统
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN108376140A (zh) * 2017-06-30 2018-08-07 勤智数码科技股份有限公司 基于模糊匹配的政务数据梳理方法及装置
CN109213750A (zh) * 2017-06-30 2019-01-15 勤智数码科技股份有限公司 一种基于知识库标签的信息资源推荐方法
CN110472059A (zh) * 2018-05-11 2019-11-19 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机可读存储介质
CN110795607A (zh) * 2019-10-29 2020-02-14 中国人民解放军32181部队 一种基于多级相似度计算的装备保障数据匹配方法及系统
CN110874412A (zh) * 2018-08-31 2020-03-10 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN111198971A (zh) * 2020-01-15 2020-05-26 北京百度网讯科技有限公司 搜索方法、搜索装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147324A (ja) * 1994-11-24 1996-06-07 Nippon Telegr & Teleph Corp <Ntt> 単語間意味類似性判別方法
CN101315632A (zh) * 2008-07-17 2008-12-03 上海交通大学 基于上下文感知的智能门户系统
CN101329666A (zh) * 2008-06-18 2008-12-24 南京大学 基于语料库及树型结构模式匹配的汉语句法自动分析方法
JP2010271870A (ja) * 2009-05-20 2010-12-02 Yahoo Japan Corp 連続絵文字等解析装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147324A (ja) * 1994-11-24 1996-06-07 Nippon Telegr & Teleph Corp <Ntt> 単語間意味類似性判別方法
CN101329666A (zh) * 2008-06-18 2008-12-24 南京大学 基于语料库及树型结构模式匹配的汉语句法自动分析方法
CN101315632A (zh) * 2008-07-17 2008-12-03 上海交通大学 基于上下文感知的智能门户系统
JP2010271870A (ja) * 2009-05-20 2010-12-02 Yahoo Japan Corp 連続絵文字等解析装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
肖文芳: "基于相似度计算的本体映射研究与实现", 《中国优秀硕士学位论文全文数据库》, no. 06, 25 December 2007 (2007-12-25), pages 18 - 27 *
马驰等: "基于相似度计算的本体映射框架", 《计算机工程》, vol. 35, no. 12, 30 June 2009 (2009-06-30), pages 61 - 63 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462323B (zh) * 2014-12-02 2018-02-27 百度在线网络技术(北京)有限公司 语义相似度计算方法、搜索结果处理方法和装置
CN104462323A (zh) * 2014-12-02 2015-03-25 百度在线网络技术(北京)有限公司 语义相似度计算方法、搜索结果处理方法和装置
CN104462060B (zh) * 2014-12-03 2017-08-01 百度在线网络技术(北京)有限公司 通过计算机实现的计算文本相似度和搜索处理方法及装置
CN104462060A (zh) * 2014-12-03 2015-03-25 百度在线网络技术(北京)有限公司 通过计算机实现的计算文本相似度和搜索处理方法及装置
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
CN106156082B (zh) * 2015-03-31 2019-09-20 华为技术有限公司 一种本体对齐方法及装置
CN105224591A (zh) * 2015-08-14 2016-01-06 深圳市海那边科技有限公司 一种智能化移民信息匹配方法及服务器
CN105630751A (zh) * 2015-12-28 2016-06-01 厦门优芽网络科技有限公司 一种快速比对文本内容的方法与系统
CN107644029A (zh) * 2016-07-20 2018-01-30 平安科技(深圳)有限公司 信息查询方法及信息查询装置
CN108090077B (zh) * 2016-11-23 2021-08-31 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN106650940A (zh) * 2016-12-26 2017-05-10 东软集团股份有限公司 一种领域知识库构建方法及装置
CN106650940B (zh) * 2016-12-26 2019-01-22 东软集团股份有限公司 一种领域知识库构建方法及装置
CN108376140A (zh) * 2017-06-30 2018-08-07 勤智数码科技股份有限公司 基于模糊匹配的政务数据梳理方法及装置
CN109213750A (zh) * 2017-06-30 2019-01-15 勤智数码科技股份有限公司 一种基于知识库标签的信息资源推荐方法
CN109213750B (zh) * 2017-06-30 2024-04-16 勤智数码科技股份有限公司 一种基于知识库标签的信息资源推荐方法
CN107704602B (zh) * 2017-10-16 2021-02-02 西南大学 基于agrovoc的大规模农业语义本体匹配方法
CN107704602A (zh) * 2017-10-16 2018-02-16 西南大学 基于agrovoc的大规模农业语义本体匹配方法
CN107885737A (zh) * 2017-12-27 2018-04-06 传神语联网网络科技股份有限公司 一种人机互动翻译方法及系统
CN107885737B (zh) * 2017-12-27 2021-04-27 传神语联网网络科技股份有限公司 一种人机互动翻译方法及系统
CN110472059A (zh) * 2018-05-11 2019-11-19 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机可读存储介质
CN110874412A (zh) * 2018-08-31 2020-03-10 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN110874412B (zh) * 2018-08-31 2022-07-26 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN110795607A (zh) * 2019-10-29 2020-02-14 中国人民解放军32181部队 一种基于多级相似度计算的装备保障数据匹配方法及系统
CN111198971A (zh) * 2020-01-15 2020-05-26 北京百度网讯科技有限公司 搜索方法、搜索装置和电子设备

Similar Documents

Publication Publication Date Title
CN102637163A (zh) 一种基于语义的多层次本体匹配的控制方法及系统
Yan et al. A retrospective of knowledge graphs
US10169454B2 (en) Unsupervised ontology-based graph extraction from texts
WO2017076263A1 (zh) 融合知识库处理方法和装置及知识库管理系统、存储介质
WO2022068493A1 (zh) 异常用户审核方法、装置、电子设备和存储介质
Zhou et al. New model of semantic similarity measuring in wordnet
CN103761264B (zh) 基于商品评论文档集的概念层次创建方法
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
JP2017514256A (ja) オントロジアライナ方法、セマンティックマッチング方法及び装置
CN105631018B (zh) 基于主题模型的文章特征抽取方法
Li et al. An efficient method for high quality and cohesive topical phrase mining
CN101814067A (zh) 对自然语言内容中的信息含量进行定量估算的系统和方法
Oliveira et al. Automatic discovery of fuzzy synsets from dictionary definitions
JP5504097B2 (ja) 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置
CN105740448A (zh) 面向话题的多微博时序文摘方法
Wang et al. Text similarity calculation method based on hybrid model of LDA and TF-IDF
Jin et al. Knowledge based image annotation refinement
Quintero et al. Dis-c: conceptual distance in ontologies, a graph-based approach
Wali et al. Sentence similarity computation based on WordNet and VerbNet
WO2012133941A1 (en) Method for matching elements in schemas of databases using bayesian network
Qin et al. A new measure of word semantic similarity based on wordnet hierarchy and dag theory
Sanprasit et al. A semantic approach to automated design and construction of star schemas.
Musyaffa et al. IOTA: Interlinking of heterogeneous multilingual open fiscal DaTA
CN112507189B (zh) 基于BiLSTM-CRF模型的金融用户画像信息提取方法及系统
Li et al. A novel semantic similarity measure within sentences

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120815