CN110472059A

CN110472059A - 一种本体匹配方法、装置和计算机可读存储介质

Info

Publication number: CN110472059A
Application number: CN201810450235.9A
Authority: CN
Inventors: 游树娟; 李小涛
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2019-11-19

Abstract

本发明实施例提供了一种本体匹配方法、装置和计算机可读存储介质，所述方法包括：分别获取第一本体和第二本体中待匹配元素的三种虚拟文档；基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量；基于所述三种虚拟文档的向量，确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度；确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射。

Description

一种本体匹配方法、装置和计算机可读存储介质

技术领域

本发明涉及移动通信技术领域，尤其涉及一种本体匹配方法、装置和计算机可读存储介质。

背景技术

现有的本体匹配方案主要包含手动匹配和自动化匹配两类。手动匹配由领域专家利用本体编辑软件根据自己掌握的领域知识来寻找本体间的匹配关系，进而实现本体的组合。自动化的本体匹配方法主要分为两种：基于语义特征的本体匹配方法，以及基于语义特征和结构特征的匹配方法。其中，基于语义特征的匹配方法是通过计算不同本体中元素(类、属性)本身的相似度，确定可能的本体匹配关系。基于语义和结构特征的匹配方法不仅计算元素本身的相似度，而且考虑了本体中元素的上下位关系即元素之间子类、父类元素之间的相似度。

上述两种自动化的本体匹配方法本质上都是通过计算词语相似度实现的，只考虑了本体中元素描述信息中词语之间的相似度，并没有考虑本体元素描述信息整体的上下文语义。其次，基于语义特征和结构特征的匹配方法虽然考虑了本体的层次结构信息，但是只考虑了父类、子类等直接上下位结构关系，并没有考虑间接上下位关系对本体相似度的影响。

发明内容

有鉴于此，本发明实施例期望提供一种本体匹配方法、装置和计算机可读存储介质。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种本体匹配方法，该方法包括：

分别获取第一本体和第二本体中待匹配元素的三种虚拟文档；

基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量；

基于所述三种虚拟文档的向量，确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度；

确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射。

其中，所述待匹配元素的三种虚拟文档包括：

待匹配元素本身的虚拟文档、待匹配元素直接上下位元素的虚拟文档，以及待匹配元素三层以内的所有间接上下位元素的虚拟文档。

其中，所述获取第一本体和第二本体中待匹配元素的三种虚拟文档，包括：

获取第一本体中待匹配元素A本身的虚拟文档D_A1、待匹配元素A直接上下位元素的虚拟文档D_A2，以及待匹配元素A三层以内的所有间接上下位元素的虚拟文档D_A3；

获取第二本体中待匹配元素B本身的虚拟文档D_B1、待匹配元素B直接上下位元素的虚拟文档D_B2，以及待匹配元素B三层以内的所有间接上下位元素的虚拟文档D_B3。

可选的，所述基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前，该方法还包括：

基于语料库训练一个doc2vec向量模型。

其中，所述基于三种虚拟文档的向量，确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度，包括：

确定第一本体中待匹配元素A的虚拟文档D_A1的向量X_A1与第二本体中待匹配元素B的虚拟文档D_B1的向量X_B1之间的余弦距离、虚拟文档D_A2的向量X_A2与虚拟文档D_B2的向量X_B2之间的余弦距离，以及虚拟文档D_A3的向量X_A3与虚拟文档D_B3的向量X_B3之间的余弦距离；

对所述三种余弦距离进行加权求和，得到第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度。

其中，所述第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度，表示为：

其中，所述sim表示相似度的值；所述表示权值，且

其中，所述确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射，包括：

将确定的所述第一本体中待匹配元素与第二本体中待匹配元素之间的相似度与相似度的预设阈值进行比较，如果确定的所述相似度的值大于预设阈值，则将两个本体中相应的待匹配元素进行映射。

本发明实施例还提供了一种本体匹配装置，该装置包括：

获取模块，用于分别获取第一本体和第二本体中待匹配元素的三种虚拟文档；

向量确定模块，用于基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量；

相似度确定模块，用于基于所述三种虚拟文档的向量，确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度；

匹配模块，用于确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射。

本发明实施例还提供了一种本体匹配装置，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行上述方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例提供的本体匹配方法、装置和计算机可读存储介质，分别获取第一本体和第二本体中待匹配元素的三种虚拟文档；基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量；基于所述三种虚拟文档的向量，确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度；确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射。本发明实施例基于本体元素本身的描述信息、元素直接上下位元素的描述信息以及间接上下位描述信息等三种虚拟文档进行本体匹配，相比现有的描述信息更加全面丰富；同时，这三种虚拟文档不仅代表了本体的直接上下位结构关系，而且考虑了本体间接上下位结构关系，使得本体结构信息更加丰富；其次，该方法利用了doc2vec模型的推理功能，不再是对描述信息中单个词语之间的相似度计算，而是考虑本体元素描述信息整体的上下文语义(即虚拟文档的相似度)，使得语义信息更加丰富，相应提高了本体的匹配精度。

附图说明

图1为本发明实施例所述本体匹配方法流程示意图一；

图2为本发明实施例所述本体匹配装置结构示意图；

图3为本发明实施例所述相似度确定模块的装置结构示意图；

图4为本发明实施例所述本体匹配方法流程示意图二；

图5为本发明实施例所述基于相似度值进行本体匹配方法示意图。

具体实施方式

下面结合附图和实施例对本发明进行描述。

本发明实施例提供了一种本体匹配方法，如图1所述，该方法包括：

步骤101：分别获取第一本体和第二本体中待匹配元素的三种虚拟文档；

步骤102：基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量；

步骤103：基于所述三种虚拟文档的向量，确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度；

步骤104：确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射。

本发明实施例基于本体元素本身的描述信息、元素直接上下位元素的描述信息以及间接上下位描述信息等三种虚拟文档进行本体匹配，相比现有的描述信息更加全面丰富、本体结构信息更加丰富；而且，该方法利用了doc2vec模型的推理功能，不再是对描述信息中单个词语之间的相似度计算，而是考虑本体元素描述信息整体的上下文语义(即虚拟文档的相似度)，使得语义信息更加丰富，相应提高了本体的匹配精度。

本发明实施例中，所述待匹配元素的三种虚拟文档包括：

其中，所述本体中的待匹配元素分为类和属性两种；其中，类是对领域内某类物体的概念层次的抽象，如对所有温度传感器、湿度传感器等传感器抽象为“传感器”类，属性是对类与类之间关系的描述，如温度传感器和传感器之间具有“子类”的属性关系，即温度传感器是传感器的子类。虽然类与属性的三种虚拟文档的组成内容不完全相同，但是后续处理过程是相同的，因此后续处理过程对类和属性统称为本体中的待匹配元素。

本发明实施例中，所述获取第一本体和第二本体中待匹配元素的三种虚拟文档，包括：

本发明一个实施例中，所述基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前，该方法还包括：

基于语料库训练一个doc2vec向量模型。

本发明实施例中，所述基于三种虚拟文档的向量，确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度，包括：

上述方案中，所述第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度，可表示为：

其中，所述sim表示相似度的值；所述表示权值，且此处可分别取值为0.6,0.3,0.1，因为距离待匹配元素越近的元素，提供的信息越重要。

本发明实施例中，所述确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射，包括：

为了实现上述实施例的方法，本发明实施例还提供了一种本体匹配装置，如图2所示，该装置包括：

获取模块201，用于分别获取第一本体和第二本体中待匹配元素的三种虚拟文档；

向量确定模块202，用于基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量；

相似度确定模块203，用于基于所述三种虚拟文档的向量，确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度；

匹配模块204，用于确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射。

本发明实施例中，所述待匹配元素的三种虚拟文档包括：

本发明实施例中，所述获取模块201获取第一本体和第二本体中待匹配元素的三种虚拟文档，包括：

本发明一个实施例中，所述向量确定模块202基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前，

还用于基于语料库训练一个doc2vec向量模型。

本发明实施例中，如图3所示，所述相似度确定模块203包括：

余弦距离确定单元2031，用于确定第一本体中待匹配元素A的虚拟文档D_A1的向量X_A1与第二本体中待匹配元素B的虚拟文档D_B1的向量X_B1之间的余弦距离、虚拟文档D_A2的向量X_A2与虚拟文档D_B2的向量X_B2之间的余弦距离，以及虚拟文档D_A3的向量X_A3与虚拟文档D_B3的向量X_B3之间的余弦距离；

加权求和单元2032，用于对所述三种余弦距离进行加权求和，得到第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度。

本发明实施例中，所述相似度确定模块203确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射，包括：

本发明实施例提供了一种本体匹配装置，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行：

基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量；

其中，所述待匹配元素的三种虚拟文档包括：

所述获取第一本体和第二本体中待匹配元素的三种虚拟文档时，所述处理器还用于运行所述计算机程序时，执行：

所述基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前，所述处理器还用于运行所述计算机程序时，执行：

基于语料库训练一个doc2vec向量模型。

所述基于三种虚拟文档的向量，确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度时，所述处理器还用于运行所述计算机程序时，执行：

其中，所述sim表示相似度的值；所述表示权值，且

所述确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射时，所述处理器还用于运行所述计算机程序时，执行：

需要说明的是：上述实施例提供的装置在进行本体匹配时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将设备的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与相应方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行：

基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量；

其中，所述待匹配元素的三种虚拟文档包括：

所述获取第一本体和第二本体中待匹配元素的三种虚拟文档时，所述计算机程序被处理器运行时，还执行：

所述基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前，所述计算机程序被处理器运行时，还执行：

基于语料库训练一个doc2vec向量模型。

所述基于三种虚拟文档的向量，确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度时，所述计算机程序被处理器运行时，还执行：

其中，所述sim表示相似度的值；所述表示权值，且

所述确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射时，所述计算机程序被处理器运行时，还执行：

下面结合场景实施例对本发明进行描述。

从相关技术可知，本体(ontology)是用于描述一个领域的术语集合，具有层次结构化的特点，能够提供对该领域知识的共同理解，确定领域内共同认可的词汇，以及领域特定的概念(类)定义和概念之间的关系(属性)，在人与人之间、人与机器之间达到共享。但是，由于本体开发自身具有分布式的特点，对于同一个领域，不同用户建立的本体也会不同，所以导致了在同一领域出现了许多异构的本体。这些异构本体之间往往阻碍了知识的互通和共享，用户之间也不能相互理解。为了有效的实现本体间知识的共享，就必须计算本体元素之间的相似度，找到本体之间的映射关系，实现本体的匹配。

本体匹配(ontology Matching)是指计算两个不同本体元素之间的相似度，通过相似度的值来判断本体中实体之间的语义关系，实现本体元素之间的语义映射过程。本体匹配是实现异构本体之间的知识共享的主要技术，发现不同本体中实体的语义关系，最后实现本体集成。集成后的本体可以支撑更为复杂的智能应用。

本实施例提出了一种基于虚拟文档和doc2vec的本体匹配方法，利用本体全面的描述信息、结构信息以及描述信息表达的整体语义实现本体的精确匹配。如图4所示，该方法包括：

步骤401：基于语料库训练一个doc2vec向量模型；

这里，首先基于语料库利用doc2vec训练一个doc2vec向量模型，可根据词语的语言和应用领域选择语料库，通常选择维基百科。

从相关技术可知，doc2vec是基于语料库利用了神经网络模型对文章或段落训练一个向量模型的技术。输入不仅是邻域窗口内的几个词语，还加入了语料库文本的全局信息，将全局的上下文语境以及邻域词语一起训练神经网络模型，相当于每次在预测单词的概率时，都利用了整个句子的语义。Doc2vec模型将每篇文章、或一段文本映射为一个文本向量，该模型可以具有更强的语义特性，具有上下文"语义分析"能力。

步骤402：获取本体待匹配元素的三种虚拟文档；

可知本体中的元素分为类和属性两种，类是对领域内某类物体的概念层次的抽象，如对所有温度传感器、湿度传感器等传感器抽象为“传感器”类，属性是对类与类之间关系的描述，如温度传感器和传感器之间具有“子类”的属性关系，即温度传感器是传感器的子类。因为类和属性具有不同的特性，本方案分别对类和属性虚拟文档的获取进行了不同的处理，从而最终得到的本体匹配关系是概念与概念之间是否等价，以及属性与属性之间是否等价的关系。

其中，所述类的三种虚拟文档包括：待匹配元素(类)本身的虚拟文档、待匹配元素(类)直接上下位元素的虚拟文档，以及待匹配元素(类)所有间接上下位元素的虚拟文档。对于本体中的类来说，待匹配元素(类)本身的虚拟文档是指：由该类的名称、标记、注释等描述信息组成；待匹配元素(类)直接上下位元素的虚拟文档是指：由该类直接子类、父类以及该类直接连接的属性的名称、标记、注释等描述信息组成；待匹配元素(类)所有间接上下位元素的虚拟文档是指：由该类三层以内的所有间接子类和父类的名称、标记、注释等描述信息组成，一般认为三层以外的元素提供的信息较少，可以不做考虑。

其中，属性的三种虚拟文档包括：待匹配元素(属性)本身的虚拟文档、待匹配元素(属性)直接上下位元素的虚拟文档，以及待匹配元素(属性)所有间接上下位元素的虚拟文档。对于本体中的属性来说，待匹配元素(属性)本身的虚拟文档是指：由该属性的名称、标记、注释等描述信息组成；待匹配元素(属性)直接上下位元素的虚拟文档是指：由该属性直接关联的两个类的名称、标记、注释等描述信息组成；待匹配元素(属性)所有间接上下位元素的虚拟文档是指：由该属性三层以内所有间接关联的子类和父类的名称、标记、注释等描述信息组成。

虽然类与属性的三种虚拟文档的组成内容不完全相同，但是后续处理过程是相同的，因此后续过程对本体中的类和属性统称为本体元素(本体待匹配元素)。因此分别获取两个本体中待匹配元素A(属于第一本体)和B(属于第二本体)的三种虚拟文档：待匹配元素本身的虚拟文档D_A1、D_B1、待匹配元素直接上下位元素的虚拟文档D_A2、D_B2，以及待匹配元素所有间接上下位元素的虚拟文档D_A3、D_B3。

步骤403：基于doc2vec向量模型获得三种虚拟文档的向量；

这里，可基于doc2vec向量模型获得待匹配元素A的虚拟文档D_A1、D_A2、D_A3所对应的三种虚拟文档向量X_A1、X_A2、X_A3；获得待匹配元素B的虚拟文档D_B1、D_B2、D_B3所对应的三种虚拟文档向量X_B1、X_B2、X_B3。

步骤404：基于加权求和的方式计算两个本体中待匹配元素之间的相似度；

具体的，计算两个本体待匹配元素A和待匹配元素B之间所对应的虚拟文档向量的余弦距离，即虚拟文档的相似度；然后对三种虚拟文档的相似度进行加权求和，最终得到待匹配元素A与待匹配元素B之间的相似度，可表示如下：

其中，所述此处可分别取值为0.6,0.3,0.1，因为距离待匹配元素越近的元素，提供的信息越重要，所以，

步骤405：根据计算所得的所述相似度值，完成本体匹配；

这里，可利用步骤404的结果计算两个本体间所有概念(类)和属性的相似度，可设置相似度阈值，将计算得到的相似度值大于阈值的待匹配元素进行映射，删除相似度值较小的匹配关系。可将本体1和本体2之间的匹配问题抽象成二分图的最大匹配问题，节点为概念(类)和属性，两个图的节点之间权重为相似度值，利用匈牙利算法求解，最终得到本体的匹配关系，如图5所示，其中，1_1、1_2、1_3、1_4为本体1(第一本体)中的节点，2_1、2_2、2_3、2_4为本体2(第二本体)中的节点，图中节点间的实线表示计算得到的相似度值大于阈值，则进行映射；图中节点间的虚线表示计算得到的相似度值小于阈值，则放弃映射匹配操作。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种本体匹配方法，其特征在于，该方法包括：

基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量；

2.根据权利要求1所述的方法，其特征在于，所述待匹配元素的三种虚拟文档包括：

3.根据权利要求2所述的方法，其特征在于，所述获取第一本体和第二本体中待匹配元素的三种虚拟文档，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前，该方法还包括：

基于语料库训练一个doc2vec向量模型。

5.根据权利要求3所述的方法，其特征在于，所述基于三种虚拟文档的向量，确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度，包括：

6.根据权利要求5所述的方法，其特征在于，所述第一本体中待匹配元素A与第二本体中待匹配元素B之间的相似度，表示为：

其中，所述sim表示相似度的值；所述表示权值，且

7.根据权利要求1所述的方法，其特征在于，所述确定所述相似度大于预设阈值时，将两个本体中相应的待匹配元素进行映射，包括：

8.一种本体匹配装置，其特征在于，该装置包括：

9.一种本体匹配装置，其特征在于，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1-7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。