CN110472059A - 一种本体匹配方法、装置和计算机可读存储介质 - Google Patents

一种本体匹配方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN110472059A
CN110472059A CN201810450235.9A CN201810450235A CN110472059A CN 110472059 A CN110472059 A CN 110472059A CN 201810450235 A CN201810450235 A CN 201810450235A CN 110472059 A CN110472059 A CN 110472059A
Authority
CN
China
Prior art keywords
matched
ontology
vector
virtual
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810450235.9A
Other languages
English (en)
Inventor
游树娟
李小涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810450235.9A priority Critical patent/CN110472059A/zh
Publication of CN110472059A publication Critical patent/CN110472059A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种本体匹配方法、装置和计算机可读存储介质,所述方法包括:分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。

Description

一种本体匹配方法、装置和计算机可读存储介质
技术领域
本发明涉及移动通信技术领域,尤其涉及一种本体匹配方法、装置和计算机可读存储介质。
背景技术
现有的本体匹配方案主要包含手动匹配和自动化匹配两类。手动匹配由领域专家利用本体编辑软件根据自己掌握的领域知识来寻找本体间的匹配关系,进而实现本体的组合。自动化的本体匹配方法主要分为两种:基于语义特征的本体匹配方法,以及基于语义特征和结构特征的匹配方法。其中,基于语义特征的匹配方法是通过计算不同本体中元素(类、属性)本身的相似度,确定可能的本体匹配关系。基于语义和结构特征的匹配方法不仅计算元素本身的相似度,而且考虑了本体中元素的上下位关系即元素之间子类、父类元素之间的相似度。
上述两种自动化的本体匹配方法本质上都是通过计算词语相似度实现的,只考虑了本体中元素描述信息中词语之间的相似度,并没有考虑本体元素描述信息整体的上下文语义。其次,基于语义特征和结构特征的匹配方法虽然考虑了本体的层次结构信息,但是只考虑了父类、子类等直接上下位结构关系,并没有考虑间接上下位关系对本体相似度的影响。
发明内容
有鉴于此,本发明实施例期望提供一种本体匹配方法、装置和计算机可读存储介质。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种本体匹配方法,该方法包括:
分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;
基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;
基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;
确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。
其中,所述待匹配元素的三种虚拟文档包括:
待匹配元素本身的虚拟文档、待匹配元素直接上下位元素的虚拟文档,以及待匹配元素三层以内的所有间接上下位元素的虚拟文档。
其中,所述获取第一本体和第二本体中待匹配元素的三种虚拟文档,包括:
获取第一本体中待匹配元素A本身的虚拟文档DA1、待匹配元素A直接上下位元素的虚拟文档DA2,以及待匹配元素A三层以内的所有间接上下位元素的虚拟文档DA3
获取第二本体中待匹配元素B本身的虚拟文档DB1、待匹配元素B直接上下位元素的虚拟文档DB2,以及待匹配元素B三层以内的所有间接上下位元素的虚拟文档DB3
可选的,所述基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前,该方法还包括:
基于语料库训练一个doc2vec向量模型。
其中,所述基于三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度,包括:
确定第一本体中待匹配元素A的虚拟文档DA1的向量XA1与第二本体中待匹配元素B的虚拟文档DB1的向量XB1之间的余弦距离、虚拟文档DA2的向量XA2与虚拟文档DB2的向量XB2之间的余弦距离,以及虚拟文档DA3的向量XA3与虚拟文档DB3的向量XB3之间的余弦距离;
对所述三种余弦距离进行加权求和,得到第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度。
其中,所述第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度,表示为:
其中,所述sim表示相似度的值;所述表示权值,
其中,所述确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射,包括:
将确定的所述第一本体中待匹配元素与第二本体中待匹配元素之间的相似度与相似度的预设阈值进行比较,如果确定的所述相似度的值大于预设阈值,则将两个本体中相应的待匹配元素进行映射。
本发明实施例还提供了一种本体匹配装置,该装置包括:
获取模块,用于分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;
向量确定模块,用于基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;
相似度确定模块,用于基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;
匹配模块,用于确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。
本发明实施例还提供了一种本体匹配装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的本体匹配方法、装置和计算机可读存储介质,分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。本发明实施例基于本体元素本身的描述信息、元素直接上下位元素的描述信息以及间接上下位描述信息等三种虚拟文档进行本体匹配,相比现有的描述信息更加全面丰富;同时,这三种虚拟文档不仅代表了本体的直接上下位结构关系,而且考虑了本体间接上下位结构关系,使得本体结构信息更加丰富;其次,该方法利用了doc2vec模型的推理功能,不再是对描述信息中单个词语之间的相似度计算,而是考虑本体元素描述信息整体的上下文语义(即虚拟文档的相似度),使得语义信息更加丰富,相应提高了本体的匹配精度。
附图说明
图1为本发明实施例所述本体匹配方法流程示意图一;
图2为本发明实施例所述本体匹配装置结构示意图;
图3为本发明实施例所述相似度确定模块的装置结构示意图;
图4为本发明实施例所述本体匹配方法流程示意图二;
图5为本发明实施例所述基于相似度值进行本体匹配方法示意图。
具体实施方式
下面结合附图和实施例对本发明进行描述。
本发明实施例提供了一种本体匹配方法,如图1所述,该方法包括:
步骤101:分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;
步骤102:基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;
步骤103:基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;
步骤104:确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。
本发明实施例基于本体元素本身的描述信息、元素直接上下位元素的描述信息以及间接上下位描述信息等三种虚拟文档进行本体匹配,相比现有的描述信息更加全面丰富、本体结构信息更加丰富;而且,该方法利用了doc2vec模型的推理功能,不再是对描述信息中单个词语之间的相似度计算,而是考虑本体元素描述信息整体的上下文语义(即虚拟文档的相似度),使得语义信息更加丰富,相应提高了本体的匹配精度。
本发明实施例中,所述待匹配元素的三种虚拟文档包括:
待匹配元素本身的虚拟文档、待匹配元素直接上下位元素的虚拟文档,以及待匹配元素三层以内的所有间接上下位元素的虚拟文档。
其中,所述本体中的待匹配元素分为类和属性两种;其中,类是对领域内某类物体的概念层次的抽象,如对所有温度传感器、湿度传感器等传感器抽象为“传感器”类,属性是对类与类之间关系的描述,如温度传感器和传感器之间具有“子类”的属性关系,即温度传感器是传感器的子类。虽然类与属性的三种虚拟文档的组成内容不完全相同,但是后续处理过程是相同的,因此后续处理过程对类和属性统称为本体中的待匹配元素。
本发明实施例中,所述获取第一本体和第二本体中待匹配元素的三种虚拟文档,包括:
获取第一本体中待匹配元素A本身的虚拟文档DA1、待匹配元素A直接上下位元素的虚拟文档DA2,以及待匹配元素A三层以内的所有间接上下位元素的虚拟文档DA3
获取第二本体中待匹配元素B本身的虚拟文档DB1、待匹配元素B直接上下位元素的虚拟文档DB2,以及待匹配元素B三层以内的所有间接上下位元素的虚拟文档DB3
本发明一个实施例中,所述基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前,该方法还包括:
基于语料库训练一个doc2vec向量模型。
本发明实施例中,所述基于三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度,包括:
确定第一本体中待匹配元素A的虚拟文档DA1的向量XA1与第二本体中待匹配元素B的虚拟文档DB1的向量XB1之间的余弦距离、虚拟文档DA2的向量XA2与虚拟文档DB2的向量XB2之间的余弦距离,以及虚拟文档DA3的向量XA3与虚拟文档DB3的向量XB3之间的余弦距离;
对所述三种余弦距离进行加权求和,得到第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度。
上述方案中,所述第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度,可表示为:
其中,所述sim表示相似度的值;所述表示权值,此处可分别取值为0.6,0.3,0.1,因为距离待匹配元素越近的元素,提供的信息越重要。
本发明实施例中,所述确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射,包括:
将确定的所述第一本体中待匹配元素与第二本体中待匹配元素之间的相似度与相似度的预设阈值进行比较,如果确定的所述相似度的值大于预设阈值,则将两个本体中相应的待匹配元素进行映射。
为了实现上述实施例的方法,本发明实施例还提供了一种本体匹配装置,如图2所示,该装置包括:
获取模块201,用于分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;
向量确定模块202,用于基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;
相似度确定模块203,用于基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;
匹配模块204,用于确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。
本发明实施例基于本体元素本身的描述信息、元素直接上下位元素的描述信息以及间接上下位描述信息等三种虚拟文档进行本体匹配,相比现有的描述信息更加全面丰富、本体结构信息更加丰富;而且,该方法利用了doc2vec模型的推理功能,不再是对描述信息中单个词语之间的相似度计算,而是考虑本体元素描述信息整体的上下文语义(即虚拟文档的相似度),使得语义信息更加丰富,相应提高了本体的匹配精度。
本发明实施例中,所述待匹配元素的三种虚拟文档包括:
待匹配元素本身的虚拟文档、待匹配元素直接上下位元素的虚拟文档,以及待匹配元素三层以内的所有间接上下位元素的虚拟文档。
其中,所述本体中的待匹配元素分为类和属性两种;其中,类是对领域内某类物体的概念层次的抽象,如对所有温度传感器、湿度传感器等传感器抽象为“传感器”类,属性是对类与类之间关系的描述,如温度传感器和传感器之间具有“子类”的属性关系,即温度传感器是传感器的子类。虽然类与属性的三种虚拟文档的组成内容不完全相同,但是后续处理过程是相同的,因此后续处理过程对类和属性统称为本体中的待匹配元素。
本发明实施例中,所述获取模块201获取第一本体和第二本体中待匹配元素的三种虚拟文档,包括:
获取第一本体中待匹配元素A本身的虚拟文档DA1、待匹配元素A直接上下位元素的虚拟文档DA2,以及待匹配元素A三层以内的所有间接上下位元素的虚拟文档DA3
获取第二本体中待匹配元素B本身的虚拟文档DB1、待匹配元素B直接上下位元素的虚拟文档DB2,以及待匹配元素B三层以内的所有间接上下位元素的虚拟文档DB3
本发明一个实施例中,所述向量确定模块202基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前,
还用于基于语料库训练一个doc2vec向量模型。
本发明实施例中,如图3所示,所述相似度确定模块203包括:
余弦距离确定单元2031,用于确定第一本体中待匹配元素A的虚拟文档DA1的向量XA1与第二本体中待匹配元素B的虚拟文档DB1的向量XB1之间的余弦距离、虚拟文档DA2的向量XA2与虚拟文档DB2的向量XB2之间的余弦距离,以及虚拟文档DA3的向量XA3与虚拟文档DB3的向量XB3之间的余弦距离;
加权求和单元2032,用于对所述三种余弦距离进行加权求和,得到第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度。
上述方案中,所述第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度,可表示为:
其中,所述sim表示相似度的值;所述表示权值,此处可分别取值为0.6,0.3,0.1,因为距离待匹配元素越近的元素,提供的信息越重要。
本发明实施例中,所述相似度确定模块203确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射,包括:
将确定的所述第一本体中待匹配元素与第二本体中待匹配元素之间的相似度与相似度的预设阈值进行比较,如果确定的所述相似度的值大于预设阈值,则将两个本体中相应的待匹配元素进行映射。
本发明实施例提供了一种本体匹配装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;
基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;
基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;
确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。
其中,所述待匹配元素的三种虚拟文档包括:
待匹配元素本身的虚拟文档、待匹配元素直接上下位元素的虚拟文档,以及待匹配元素三层以内的所有间接上下位元素的虚拟文档。
所述获取第一本体和第二本体中待匹配元素的三种虚拟文档时,所述处理器还用于运行所述计算机程序时,执行:
获取第一本体中待匹配元素A本身的虚拟文档DA1、待匹配元素A直接上下位元素的虚拟文档DA2,以及待匹配元素A三层以内的所有间接上下位元素的虚拟文档DA3
获取第二本体中待匹配元素B本身的虚拟文档DB1、待匹配元素B直接上下位元素的虚拟文档DB2,以及待匹配元素B三层以内的所有间接上下位元素的虚拟文档DB3
所述基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前,所述处理器还用于运行所述计算机程序时,执行:
基于语料库训练一个doc2vec向量模型。
所述基于三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度时,所述处理器还用于运行所述计算机程序时,执行:
确定第一本体中待匹配元素A的虚拟文档DA1的向量XA1与第二本体中待匹配元素B的虚拟文档DB1的向量XB1之间的余弦距离、虚拟文档DA2的向量XA2与虚拟文档DB2的向量XB2之间的余弦距离,以及虚拟文档DA3的向量XA3与虚拟文档DB3的向量XB3之间的余弦距离;
对所述三种余弦距离进行加权求和,得到第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度。
其中,所述第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度,表示为:
其中,所述sim表示相似度的值;所述表示权值,
所述确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射时,所述处理器还用于运行所述计算机程序时,执行:
将确定的所述第一本体中待匹配元素与第二本体中待匹配元素之间的相似度与相似度的预设阈值进行比较,如果确定的所述相似度的值大于预设阈值,则将两个本体中相应的待匹配元素进行映射。
需要说明的是:上述实施例提供的装置在进行本体匹配时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将设备的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的装置与相应方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机、平板设备、个人数字助理等。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,执行:
分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;
基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;
基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;
确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。
其中,所述待匹配元素的三种虚拟文档包括:
待匹配元素本身的虚拟文档、待匹配元素直接上下位元素的虚拟文档,以及待匹配元素三层以内的所有间接上下位元素的虚拟文档。
所述获取第一本体和第二本体中待匹配元素的三种虚拟文档时,所述计算机程序被处理器运行时,还执行:
获取第一本体中待匹配元素A本身的虚拟文档DA1、待匹配元素A直接上下位元素的虚拟文档DA2,以及待匹配元素A三层以内的所有间接上下位元素的虚拟文档DA3
获取第二本体中待匹配元素B本身的虚拟文档DB1、待匹配元素B直接上下位元素的虚拟文档DB2,以及待匹配元素B三层以内的所有间接上下位元素的虚拟文档DB3
所述基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前,所述计算机程序被处理器运行时,还执行:
基于语料库训练一个doc2vec向量模型。
所述基于三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度时,所述计算机程序被处理器运行时,还执行:
确定第一本体中待匹配元素A的虚拟文档DA1的向量XA1与第二本体中待匹配元素B的虚拟文档DB1的向量XB1之间的余弦距离、虚拟文档DA2的向量XA2与虚拟文档DB2的向量XB2之间的余弦距离,以及虚拟文档DA3的向量XA3与虚拟文档DB3的向量XB3之间的余弦距离;
对所述三种余弦距离进行加权求和,得到第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度。
其中,所述第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度,表示为:
其中,所述sim表示相似度的值;所述表示权值,
所述确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射时,所述计算机程序被处理器运行时,还执行:
将确定的所述第一本体中待匹配元素与第二本体中待匹配元素之间的相似度与相似度的预设阈值进行比较,如果确定的所述相似度的值大于预设阈值,则将两个本体中相应的待匹配元素进行映射。
下面结合场景实施例对本发明进行描述。
从相关技术可知,本体(ontology)是用于描述一个领域的术语集合,具有层次结构化的特点,能够提供对该领域知识的共同理解,确定领域内共同认可的词汇,以及领域特定的概念(类)定义和概念之间的关系(属性),在人与人之间、人与机器之间达到共享。但是,由于本体开发自身具有分布式的特点,对于同一个领域,不同用户建立的本体也会不同,所以导致了在同一领域出现了许多异构的本体。这些异构本体之间往往阻碍了知识的互通和共享,用户之间也不能相互理解。为了有效的实现本体间知识的共享,就必须计算本体元素之间的相似度,找到本体之间的映射关系,实现本体的匹配。
本体匹配(ontology Matching)是指计算两个不同本体元素之间的相似度,通过相似度的值来判断本体中实体之间的语义关系,实现本体元素之间的语义映射过程。本体匹配是实现异构本体之间的知识共享的主要技术,发现不同本体中实体的语义关系,最后实现本体集成。集成后的本体可以支撑更为复杂的智能应用。
本实施例提出了一种基于虚拟文档和doc2vec的本体匹配方法,利用本体全面的描述信息、结构信息以及描述信息表达的整体语义实现本体的精确匹配。如图4所示,该方法包括:
步骤401:基于语料库训练一个doc2vec向量模型;
这里,首先基于语料库利用doc2vec训练一个doc2vec向量模型,可根据词语的语言和应用领域选择语料库,通常选择维基百科。
从相关技术可知,doc2vec是基于语料库利用了神经网络模型对文章或段落训练一个向量模型的技术。输入不仅是邻域窗口内的几个词语,还加入了语料库文本的全局信息,将全局的上下文语境以及邻域词语一起训练神经网络模型,相当于每次在预测单词的概率时,都利用了整个句子的语义。Doc2vec模型将每篇文章、或一段文本映射为一个文本向量,该模型可以具有更强的语义特性,具有上下文"语义分析"能力。
步骤402:获取本体待匹配元素的三种虚拟文档;
可知本体中的元素分为类和属性两种,类是对领域内某类物体的概念层次的抽象,如对所有温度传感器、湿度传感器等传感器抽象为“传感器”类,属性是对类与类之间关系的描述,如温度传感器和传感器之间具有“子类”的属性关系,即温度传感器是传感器的子类。因为类和属性具有不同的特性,本方案分别对类和属性虚拟文档的获取进行了不同的处理,从而最终得到的本体匹配关系是概念与概念之间是否等价,以及属性与属性之间是否等价的关系。
其中,所述类的三种虚拟文档包括:待匹配元素(类)本身的虚拟文档、待匹配元素(类)直接上下位元素的虚拟文档,以及待匹配元素(类)所有间接上下位元素的虚拟文档。对于本体中的类来说,待匹配元素(类)本身的虚拟文档是指:由该类的名称、标记、注释等描述信息组成;待匹配元素(类)直接上下位元素的虚拟文档是指:由该类直接子类、父类以及该类直接连接的属性的名称、标记、注释等描述信息组成;待匹配元素(类)所有间接上下位元素的虚拟文档是指:由该类三层以内的所有间接子类和父类的名称、标记、注释等描述信息组成,一般认为三层以外的元素提供的信息较少,可以不做考虑。
其中,属性的三种虚拟文档包括:待匹配元素(属性)本身的虚拟文档、待匹配元素(属性)直接上下位元素的虚拟文档,以及待匹配元素(属性)所有间接上下位元素的虚拟文档。对于本体中的属性来说,待匹配元素(属性)本身的虚拟文档是指:由该属性的名称、标记、注释等描述信息组成;待匹配元素(属性)直接上下位元素的虚拟文档是指:由该属性直接关联的两个类的名称、标记、注释等描述信息组成;待匹配元素(属性)所有间接上下位元素的虚拟文档是指:由该属性三层以内所有间接关联的子类和父类的名称、标记、注释等描述信息组成。
虽然类与属性的三种虚拟文档的组成内容不完全相同,但是后续处理过程是相同的,因此后续过程对本体中的类和属性统称为本体元素(本体待匹配元素)。因此分别获取两个本体中待匹配元素A(属于第一本体)和B(属于第二本体)的三种虚拟文档:待匹配元素本身的虚拟文档DA1、DB1、待匹配元素直接上下位元素的虚拟文档DA2、DB2,以及待匹配元素所有间接上下位元素的虚拟文档DA3、DB3
步骤403:基于doc2vec向量模型获得三种虚拟文档的向量;
这里,可基于doc2vec向量模型获得待匹配元素A的虚拟文档DA1、DA2、DA3所对应的三种虚拟文档向量XA1、XA2、XA3;获得待匹配元素B的虚拟文档DB1、DB2、DB3所对应的三种虚拟文档向量XB1、XB2、XB3
步骤404:基于加权求和的方式计算两个本体中待匹配元素之间的相似度;
具体的,计算两个本体待匹配元素A和待匹配元素B之间所对应的虚拟文档向量的余弦距离,即虚拟文档的相似度;然后对三种虚拟文档的相似度进行加权求和,最终得到待匹配元素A与待匹配元素B之间的相似度,可表示如下:
其中,所述此处可分别取值为0.6,0.3,0.1,因为距离待匹配元素越近的元素,提供的信息越重要,所以,
步骤405:根据计算所得的所述相似度值,完成本体匹配;
这里,可利用步骤404的结果计算两个本体间所有概念(类)和属性的相似度,可设置相似度阈值,将计算得到的相似度值大于阈值的待匹配元素进行映射,删除相似度值较小的匹配关系。可将本体1和本体2之间的匹配问题抽象成二分图的最大匹配问题,节点为概念(类)和属性,两个图的节点之间权重为相似度值,利用匈牙利算法求解,最终得到本体的匹配关系,如图5所示,其中,1_1、1_2、1_3、1_4为本体1(第一本体)中的节点,2_1、2_2、2_3、2_4为本体2(第二本体)中的节点,图中节点间的实线表示计算得到的相似度值大于阈值,则进行映射;图中节点间的虚线表示计算得到的相似度值小于阈值,则放弃映射匹配操作。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种本体匹配方法,其特征在于,该方法包括:
分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;
基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;
基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;
确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。
2.根据权利要求1所述的方法,其特征在于,所述待匹配元素的三种虚拟文档包括:
待匹配元素本身的虚拟文档、待匹配元素直接上下位元素的虚拟文档,以及待匹配元素三层以内的所有间接上下位元素的虚拟文档。
3.根据权利要求2所述的方法,其特征在于,所述获取第一本体和第二本体中待匹配元素的三种虚拟文档,包括:
获取第一本体中待匹配元素A本身的虚拟文档DA1、待匹配元素A直接上下位元素的虚拟文档DA2,以及待匹配元素A三层以内的所有间接上下位元素的虚拟文档DA3
获取第二本体中待匹配元素B本身的虚拟文档DB1、待匹配元素B直接上下位元素的虚拟文档DB2,以及待匹配元素B三层以内的所有间接上下位元素的虚拟文档DB3
4.根据权利要求1所述的方法,其特征在于,所述基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前,该方法还包括:
基于语料库训练一个doc2vec向量模型。
5.根据权利要求3所述的方法,其特征在于,所述基于三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度,包括:
确定第一本体中待匹配元素A的虚拟文档DA1的向量XA1与第二本体中待匹配元素B的虚拟文档DB1的向量XB1之间的余弦距离、虚拟文档DA2的向量XA2与虚拟文档DB2的向量XB2之间的余弦距离,以及虚拟文档DA3的向量XA3与虚拟文档DB3的向量XB3之间的余弦距离;
对所述三种余弦距离进行加权求和,得到第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度。
6.根据权利要求5所述的方法,其特征在于,所述第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度,表示为:
其中,所述sim表示相似度的值;所述表示权值,
7.根据权利要求1所述的方法,其特征在于,所述确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射,包括:
将确定的所述第一本体中待匹配元素与第二本体中待匹配元素之间的相似度与相似度的预设阈值进行比较,如果确定的所述相似度的值大于预设阈值,则将两个本体中相应的待匹配元素进行映射。
8.一种本体匹配装置,其特征在于,该装置包括:
获取模块,用于分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;
向量确定模块,用于基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;
相似度确定模块,用于基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;
匹配模块,用于确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。
9.一种本体匹配装置,其特征在于,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1-7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
CN201810450235.9A 2018-05-11 2018-05-11 一种本体匹配方法、装置和计算机可读存储介质 Pending CN110472059A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810450235.9A CN110472059A (zh) 2018-05-11 2018-05-11 一种本体匹配方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810450235.9A CN110472059A (zh) 2018-05-11 2018-05-11 一种本体匹配方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110472059A true CN110472059A (zh) 2019-11-19

Family

ID=68504592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810450235.9A Pending CN110472059A (zh) 2018-05-11 2018-05-11 一种本体匹配方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110472059A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078595A1 (en) * 2010-09-24 2012-03-29 Nokia Corporation Method and apparatus for ontology matching
CN102637163A (zh) * 2011-01-09 2012-08-15 华东师范大学 一种基于语义的多层次本体匹配的控制方法及系统
CN106202543A (zh) * 2016-07-27 2016-12-07 苏州家佳宝妇幼医疗科技有限公司 基于机器学习的本体匹配方法和系统
CN106227798A (zh) * 2016-07-21 2016-12-14 福州职业技术学院 一种基于紧凑协同进化算法的本体匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078595A1 (en) * 2010-09-24 2012-03-29 Nokia Corporation Method and apparatus for ontology matching
CN102637163A (zh) * 2011-01-09 2012-08-15 华东师范大学 一种基于语义的多层次本体匹配的控制方法及系统
CN106227798A (zh) * 2016-07-21 2016-12-14 福州职业技术学院 一种基于紧凑协同进化算法的本体匹配方法
CN106202543A (zh) * 2016-07-27 2016-12-07 苏州家佳宝妇幼医疗科技有限公司 基于机器学习的本体匹配方法和系统

Similar Documents

Publication Publication Date Title
Meinshausen et al. Methods for causal inference from gene perturbation experiments and validation
CN110032641B (zh) 计算机执行的、利用神经网络进行事件抽取的方法及装置
US10043514B2 (en) Intelligent contextually aware digital assistants
US10318884B2 (en) Venue link detection for social media messages
May Petry et al. MARC: a robust method for multiple-aspect trajectory classification via space, time, and semantic embeddings
US20190114362A1 (en) Searching Online Social Networks Using Entity-based Embeddings
US20190220471A1 (en) Methods and Systems for Interacting with Mobile Device
US20160379106A1 (en) Human-computer intelligence chatting method and device based on artificial intelligence
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
US20190034816A1 (en) Methods and system for associating locations with annotations
CN110119473A (zh) 一种目标文件知识图谱的构建方法及装置
CN112015896B (zh) 基于人工智能的情感分类方法、以及装置
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN110619050A (zh) 意图识别方法及设备
CN110851609A (zh) 表示学习方法及装置
CN105580043A (zh) 用于推荐系统的基于强度的建模
CN110110218B (zh) 一种身份关联方法及终端
de Graaff et al. Automated semantic trajectory annotation with indoor point-of-interest visits in urban areas
Chipofya et al. A metaheuristic approach for efficient and effective sketch-to-metric map alignment
CN112257959A (zh) 用户风险预测方法、装置、电子设备及存储介质
CN112214595A (zh) 类别确定方法、装置、设备及介质
CN116127348A (zh) 文本标签生成、模型训练、文本分类方法及相关设备
US20240273886A1 (en) Data enhancement method and device
Zhou et al. Familiarity-dependent computational modelling of indoor landmark selection for route communication: a ranking approach
CN111125550B (zh) 兴趣点分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191119

RJ01 Rejection of invention patent application after publication