CN109993190B

CN109993190B - 一种本体匹配方法、装置和计算机存储介质

Info

Publication number: CN109993190B
Application number: CN201810002846.7A
Authority: CN
Inventors: 李小涛; 游树娟
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2021-05-11
Anticipated expiration: 2038-01-02
Also published as: CN109993190A

Abstract

本发明实施例公开了一种本体匹配方法、装置和计算机存储介质。所述方法包括：获得第一本体和第二本体之间属于第一类型的匹配关系的特征向量，基于所述特征向量和所述第一类型对应的分类模型确定所述匹配关系的置信度；基于所述置信度确定所述匹配关系是否成立；当确定所述匹配关系成立时，基于所述匹配关系和所述置信度按照二分图模型进行处理，获得所述第一本体和所述第二本体之间属于所述第一类型的最大匹配关系，生成候选匹配关系集合；对所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，生成匹配关系集合。

Description

一种本体匹配方法、装置和计算机存储介质

技术领域

本发明涉及文本匹配技术，具体涉及一种本体匹配方法、装置和计算机存储介质。

背景技术

为解决异构本体之间的相互通信的问题，可采用本体匹配的方式确定本体之间的元素的相似度，通过相似度的值来判断本体中实体之间的语义关系，实现本体的语义之间的映射过程。

通常情况下，本体匹配可采用手动匹配方式和基于词语相似度的自动化匹配方式实现。手动匹配由领域专家通过本体编辑软件，根据自身掌握的领域知识，发现本体间的元素的匹配关系。自动化匹配方式则通过计算不同本体中的概念词汇和属性词汇之间的相似度，确定可能的本体匹配关系。

然而，手动匹配方式通常需要本领域内的专家或者辅助技术人员才能完成，工作效率较低，而且局限于领域专家自身的经验，使得组合后的模型表达的客观性下降。而基于词语相似度的自动化匹配方式由于基于本体之间概念词汇和属性词汇之间的相似度，存在精确度不高的问题；而且确定的匹配关系中存在着一些错误匹配，这些错误匹配将导致两个本体集成为一个本体后，存在着错误的逻辑关系，使得本体匹配不能通过一致性检验，造成知识表达准确性的下降，降低了本体匹配的应用价值。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种本体匹配方法、装置和计算机存储介质。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种本体匹配方法，所述方法包括：

获得第一本体和第二本体之间属于第一类型的匹配关系的特征向量，基于所述特征向量和所述第一类型对应的分类模型确定所述匹配关系的置信度；

基于所述置信度确定所述匹配关系是否成立；

当确定所述匹配关系成立时，基于所述匹配关系和所述置信度按照二分图模型进行处理，获得所述第一本体和所述第二本体之间属于所述第一类型的最大匹配关系，生成候选匹配关系集合；

对所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，生成匹配关系集合。

上述方案中，所述方法还包括：获得样本数据；所述样本数据包括本体和另一本体之间的多个样本匹配关系；

获得所述样本数据中每个样本匹配关系的样本特征向量；

基于所述样本特征向量通过机器学习算法训练获得第一类型的分类模型。

上述方案中，所述获得所述样本数据中每个样本匹配关系的样本特征向量，包括：

获得对应于第一类型的样本匹配关系中属于所述本体的第一元素和属于所述另一本体的第二元素；

基于对应于所述第一类型的词向量模型分别获得所述第一元素和所述第二元素对应的第一词向量和第二词向量；

基于所述第一词向量和所述第二词向量确定所述第一元素和所述第二元素之间的第一相似度；

基于对应于所述第一类型的文本向量模型分别获得所述本体和所述另一本体分别对应的第一文本向量和第二文本向量；

基于所述第一文本向量和所述第二文本向量确定所述本体和所述另一本体之间的第二相似度；

基于所述第一相似度和所述第二相似度获得对应样本匹配关系的样本特征向量。

上述方案中，所述样本特征向量包括：对应于概念类型的第一样本特征向量以及对应于属性类型的第二样本特征向量；

所述基于所述样本特征向量通过机器学习算法训练获得第一类型的分类模型，包括：

基于所述第一样本特征向量通过机器学习算法训练获得概念类型的第一分类模型，基于所述第二样本特征向量通过所述机器学习算法训练获得属性类型的第二分类模型；所述第一类型为所述概念类型或所述属性类型。

上述方案中，所述对所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，包括：

对所述候选匹配关系集合中的候选匹配关系对应的置信度按照由大到小的顺序进行排序；

从排序后的候选匹配关系集合中逐一选取候选匹配关系并进行合并，获得候选合并元素；

通过推理机判断所述候选合并元素的逻辑关系是否出现错误，以及判断所述候选匹配关系与在先通过一致性校验的候选匹配关系是否相交；

当所述候选合并元素的逻辑关系未出现错误，以及所述候选匹配关系与在先通过一致性校验的候选匹配关系不相交时，确定所述候选合并元素对应的候选匹配关系通过一致性校验。

本发明实施例还提供了一种本体匹配装置，所述装置包括：获取单元、确定单元、匹配单元和校验单元；其中，

所述获取单元，用于获得第一本体和第二本体之间属于第一类型的匹配关系的特征向量；

所述确定单元，用于基于所述获取单元获得的所述特征向量和所述第一类型对应的分类模型确定所述匹配关系的置信度；基于所述置信度确定所述匹配关系是否成立；

所述匹配单元，用于当所述确定单元确定所述匹配关系成立时，基于所述匹配关系和所述置信度按照二分图模型进行处理，获得所述第一本体和所述第二本体之间属于所述第一类型的最大匹配关系，生成候选匹配关系集合；

所述校验单元，用于对所述匹配单元生成的所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，生成匹配关系集合。

上述方案中，所述装置还包括模型训练单元；

所述获取单元，还用于获得样本数据；所述样本数据包括本体和另一本体之间的多个样本匹配关系；获得所述样本数据中每个样本匹配关系的样本特征向量；

所述模型训练单元，用于基于所述获取单元获得的所述样本特征向量通过机器学习算法训练获得第一类型的分类模型。

上述方案中，所述获取单元，用于获得对应于第一类型的样本匹配关系中属于所述本体的第一元素和属于所述另一本体的第二元素；基于对应于所述第一类型的词向量模型分别获得所述第一元素和所述第二元素对应的第一词向量和第二词向量；基于所述第一词向量和所述第二词向量确定所述第一元素和所述第二元素之间的第一相似度；基于对应于所述第一类型的文本向量模型分别获得所述本体和所述另一本体分别对应的第一文本向量和第二文本向量；基于所述第一文本向量和所述第二文本向量确定所述本体和所述另一本体之间的第二相似度；基于所述第一相似度和所述第二相似度获得对应样本匹配关系的样本特征向量。

所述模型训练单元，用于基于所述第一样本特征向量通过机器学习算法训练获得概念类型的第一分类模型，基于所述第二样本特征向量通过所述机器学习算法训练获得属性类型的第二分类模型；所述第一类型为所述概念类型或所述属性类型。

上述方案中，所述校验单元，用于对所述候选匹配关系集合中的候选匹配关系对应的置信度按照由大到小的顺序进行排序；从排序后的候选匹配关系集合中逐一选取候选匹配关系并进行合并，获得候选合并元素；通过推理机判断所述候选合并元素的逻辑关系是否出现错误，以及判断所述候选匹配关系与在先通过一致性校验的候选匹配关系是否相交；当所述候选合并元素的逻辑关系未出现错误，以及所述候选匹配关系与在先通过一致性校验的候选匹配关系不相交时，确定所述候选合并元素对应的候选匹配关系通过一致性校验。

本发明实施例还提供了一种计算机存储介质，其上存储有计算机指令，该指令被处理器执行时实现本发明实施例所述本体匹配方法的步骤。

本发明实施例还提供了一种本体匹配装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明实施例所述本体匹配方法的步骤。

本发明实施例提供的本体匹配方法、装置和计算机存储介质，所述方法包括：获得第一本体和第二本体之间属于第一类型的匹配关系的特征向量，基于所述特征向量和所述第一类型对应的分类模型确定所述匹配关系的置信度；基于所述置信度确定所述匹配关系是否成立；当确定所述匹配关系成立时，基于所述匹配关系和所述置信度按照二分图模型进行处理，获得所述第一本体和所述第二本体之间属于所述第一类型的最大匹配关系，生成候选匹配关系集合；对所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，生成匹配关系集合。采用本发明实施例的技术方案，通过分类模型自动判断本体之间是否存在匹配关系；通过二分图处理方式获得最大匹配关系；通过一致性校验排除错误的匹配关系，且保留正确的匹配关系，从而提升了本体间的匹配关系的自动化确定的准确性，提高了知识表达准确性，在另一方面也提升了本体匹配的应用价值。

附图说明

图1为本发明实施例的本体匹配方法的流程示意图；

图2为本发明实施例的本体匹配方法中的分类模型获得方法的流程示意图；

图3为本发明实施例的本体匹配方法中的二分图模型处理方法的示意图；

图4为本发明实施例的本体匹配装置的一种组成结构示意图；

图5为本发明实施例的本体匹配装置的另一种组成结构示意图；

图6为本发明实施例的本体匹配装置的硬件组成结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

实施例一

本发明实施例提供了一种本体匹配方法。图1为本发明实施例的本体匹配方法的流程示意图；如图1所示，所述方法包括：

步骤101：获得第一本体和第二本体之间属于第一类型的匹配关系的特征向量，基于所述特征向量和所述第一类型对应的分类模型确定所述匹配关系的置信度。

步骤102：基于所述置信度确定所述匹配关系是否成立。

步骤103：当确定所述匹配关系成立时，基于所述匹配关系和所述置信度按照二分图模型进行处理，获得所述第一本体和所述第二本体之间属于所述第一类型的最大匹配关系，生成候选匹配关系集合。

步骤104：对所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，生成匹配关系集合。

本发明实施例中，本体(ontology)用于表示一个领域的术语集合，即组成一个主题领域的词语以及词语间的关系，作为一种实施方式，所述词语间的关系例如父子关系，例如，“车”可作为父概念，“摩托车”可作为该父概念下的一种子概念，则“车”与“摩托车”可作为一种父子关系。则本实施例中的本体匹配(ontology Matching)是计算两个不同本体中元素之间的相似度，基于相似度判断本体中元素之间的语义关系，实现本体的语义之间的映射过程；其中，元素可以为本体中的一个词。

本发明实施例中，所述第一本体或所述第二本体中的元素可按照概念和属性进行归类，从而获得所述第一本体或所述第二本体中属于概念类型的元素集合以及属于属性的元素集合；其中，概念可理解为文本，属性可理解为概念之间的关系。则本实施例中的所述第一类型为概念类型或属性类型。

作为一种实施方式，所述获得第一本体和第二本体之间属于第一类型的匹配关系的特征向量，包括：分别提取所述第一本体和所述第二本体中属于所述第一类型的元素的上下文信息，基于所述上下文信息确定属于所述第一类型的匹配关系的特征向量。其中，以所述第一类型为概念类型为例，所述上下文信息包括但不限于概念标签、父概念集合、子概念集合等信息。

本实施例中，预先获得第一类型对应的分类模型，将所述特征向量输入至所述分类模型中，获得所述特征向量对应的匹配关系的置信度。可以理解，对于概念类型，对应有概念分类模型，对于属性类型，对应有属性分类模型。

在一实施例中，所述方法还包括：获得样本数据；所述样本数据包括本体和另一本体之间的多个样本匹配关系；获得所述样本数据中每个样本匹配关系的样本特征向量；基于所述样本特征向量通过机器学习算法训练获得第一类型的分类模型。

其中，所述获得所述样本数据中每个样本匹配关系的样本特征向量，包括：获得对应于第一类型的样本匹配关系中属于所述本体的第一元素和属于所述另一本体的第二元素；基于对应于所述第一类型的词向量模型分别获得所述第一元素和所述第二元素对应的第一词向量和第二词向量；基于所述第一词向量和所述第二词向量确定所述第一元素和所述第二元素之间的第一相似度；基于对应于所述第一类型的文本向量模型分别获得所述本体和所述另一本体分别对应的第一文本向量和第二文本向量；基于所述第一文本向量和所述第二文本向量确定所述本体和所述另一本体之间的第二相似度；基于所述第一相似度和所述第二相似度获得对应样本匹配关系的样本特征向量。

所述样本特征向量包括：对应于概念类型的第一样本特征向量以及对应于属性类型的第二样本特征向量；则所述基于所述样本特征向量通过机器学习算法训练获得第一类型的分类模型，包括：基于所述第一样本特征向量通过机器学习算法训练获得概念类型的第一分类模型，基于所述第二样本特征向量通过所述机器学习算法训练获得属性类型的第二分类模型；所述第一类型为所述概念类型或所述属性类型。

图2为本发明实施例的本体匹配方法中的分类模型获得方法的流程示意图；如图2所示，本发明实施例的分类模型获得方法可包括：

步骤201：训练获得词向量模型以及获得文本向量模型。这里，作为一种示例，可采用word2vec方法训练获得词向量模型，采用doc2vec方法训练获得文本向量模型。Word2vec等词语维度的词向量模型是通过训练神经网络模型，将每一个词映射成一个固定长度的n维向量。doc2vec等文章或段落维度的文本向量表示模型同样利用了神经网络模型，但是其输入不只是邻域窗口内的几个词语，还加入了语料库文本的全局信息，将全局的上下文语境以及邻域词语一起训练神经网络模型，相当于每次在预测词语的概率时，都利用了整个句子的语义，从而将每篇文章或一段文本映射为一个文本向量。

步骤202：基于所述词向量模型获得样本数据中属于所述本体中的第一元素对应的第一词向量，以及属于所述另一本体中的第二元素对应的第二词向量，基于所述第一词向量和所述第二词向量确定所述第一元素和所述第二元素之间的第一相似度。其中，所述第一元素可以是所述本体中对应于第一类型的元素集合中的任一元素；相应的，所述第二元素可以是所述另一本体中对应于所述第一类型的元素集合中的任一元素。所述第一类型为概念类型或属性类型。

步骤203：基于所述文本向量模型分别获得所述本体和所述另一本体分别对应的第一文本向量和第二文本向量，基于所述第一文本向量和所述第二文本向量确定所述本体和所述另一本体之间的第二相似度。

本发明实施例中，样本本体之间的概念类型的样本匹配关系的样本特征向量包括：概念之间的相似度、父概念集合文本的相似度、子概念集合之文本的相似度、属性关系集合文本的相似度、标签label文本相似度和comment评论文本的相似度。样本本体之间的属性类型的样本匹配关系的样本特征向量包括：属性之间的相似度，父属性集合文本的相似度，子属性集合文本的相似度，属性label文本的相似度，comment文本的相似度。其中，概念之间的相似度和属性之间的相似度由于是两个词语之间的相似度，则可通过词向量模型获得对应的词向量，进一步可通过计算词向量之间的余弦距离确定第一元素和第二元素之间的第一相似度。当然，所述第一相似度的计算方式不限于采用余弦距离的计算方式，还可采用例如计算欧式距离、杰卡德相似性度量等方式确定所述第一相似度。而概念类型对应的样本特征向量和属性类型对应的样本特征向量中，出上述概念之间的相似度和属性之间的相似度以外的其他维度的参数均为文本的相似度值，则可通过文本向量模型获得本体和另一本体分别对应的第一文本向量和第二文本向量，进一步可通过计算第一文本向量和第二文本向量之间的余弦距离确定本体之间的第二相似度。

步骤204：基于所述第一相似度和所述第二相似度获得对应样本匹配关系的样本特征向量。

这里，基于获得的对应于词语的第一相似度以及对应于文本的第二相似度确定对应于第一类型的样本特征向量。

步骤205：基于所述样本特征向量和对应的标签数据通过机器学习算法训练获得分类模型。

本发明实施例中，样本数据包括本体之间的多个样本匹配关系，其中包括本体之间元素与元素的匹配以及对应的标签数据；作为一种实施方式，可采用开源的OAEI本体匹配竞赛提供的基准匹配集合作为训练样本数据集。本实施例中，以概念类型为例，将概念类型对应的样本匹配关系作为正样本，将其他不匹配的数据作为负样本，通过所述机器学习算法训练获得概念类型的第一分类模型；同理，获得属性类型的第二分类模型。

本发明实施例中，将属于第一类型的匹配关系的特征向量输入至所述第一类型对应的分类模型中，获得所述特征向量对应的置信度，基于所述置信度确定所述匹配关系是否成立。作为一种实施方式，当所述置信度为正数时，判定所述匹配关系成立，相应的，当所述置信度为负数时，判定所述匹配关系不成立。

本发明实施例中，由于两个本体之间的匹配关系集合中不能出现一个本体中的概念和另外一个本体中的多个概念同时等价的情况，最终一个本体中的概念和属性最多只能出现在一个匹配关系中，并且希望保留的匹配关系总的置信度尽可能最大。则当确定所述匹配关系成立时，基于所述匹配关系和所述置信度按照二分图模型进行处理，二分图中以概念或属性作为节点，节点之间的权重为对应的相似度，可采用匈牙利算法进行求解获得最大的匹配关系。如图2所示，以概念类型对应的元素集合为例，1_1、1_2、1_3和1_4分别表示本体1对应的四个元素节点，2_1、2_2、2_3和2_4分别表示本体2对应的四个元素节点，图中的线(包括实线和虚线)均表示元素节点之间的匹配关系；实际应用中，本体1对应的每个元素节点均可匹配至少一个第二语种对应的元素节点，例如1_1元素节点可与2_1元素节点和2_3元素节点具有匹配关系；则本发明实施例中，基于置信度采用匈牙利算法进行求解，获得如图2中实线所示的元素节点之间的最大匹配关系。

本发明实施例中，确定最大匹配关系后，将确定的最大匹配关系生成候选匹配关系集合，以进行一致性校验，排除错误的匹配关系。

本发明实施例中，所述对所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，包括：对所述候选匹配关系集合中的候选匹配关系对应的置信度按照由大到小的顺序进行排序；从排序后的候选匹配关系集合中逐一选取候选匹配关系并进行合并，获得候选合并元素；通过推理机判断所述候选合并元素的逻辑关系是否出现错误，以及判断所述候选匹配关系与在先通过一致性校验的候选匹配关系是否相交；当所述候选合并元素的逻辑关系未出现错误，以及所述候选匹配关系与在先通过一致性校验的候选匹配关系不相交时，确定所述候选合并元素对应的候选匹配关系通过一致性校验。

具体的，将候选匹配关系集合记为S1，首先将S1中的候选匹配关系按照置信度由大到小进行排序，基于排序顺序逐一选取候选匹配关系并进行元素合并，即按照置信度由大到小的顺序逐一选取候选匹配关系；例如候选匹配关系为元素1和元素2匹配，则将元素1和元素2合并，校验合并后的元素1和元素2是否出现逻辑错误。

实际应用中，可通过Jena的Pallet推理机判断候选合并元素的逻辑关系是否出现错误。对于第一条候选匹配关系，即置信度最大的候选匹配关系，若确定该候选匹配关系合并后的候选合并元素未出现错误，则可判定该候选匹配关系通过一致性校验。对于第二条候选匹配关系，已通过一致性校验的第一条候选匹配关系则作为在先通过一致性校验的候选匹配关系。对于除了已通过一致性校验的候选匹配关系后的其他候选匹配关系，除了需要通过推理机判断对应的候选合并元素的逻辑关系是否出现错误，还需要判断该候选匹配关系与已经通过一致性校验的候选匹配关系是否相交；其中，判断候选匹配关系是否相交，即判断概念是否相同，或者属性是否相同。当所述候选合并元素的逻辑关系未出现错误，以及所述候选匹配关系与在先通过一致性校验的候选匹配关系不相交时，确定所述候选合并元素对应的候选匹配关系通过一致性校验。

采用本发明实施例的技术方案，通过分类模型自动判断本体之间是否存在匹配关系；通过二分图处理方式获得最大匹配关系；通过一致性校验排除错误的匹配关系，且保留正确的匹配关系。

例如，本来不相交(disjoint)的两个概念由于错误的匹配关系，造成了两个概念重新建立的联系。本来在一个本体中的父概念A和子概念B，由于错误的匹配关系，造成集成后本体中概念B成为概念A的父概念，与原本体中的知识结构相违背。存在逻辑错误的本体，造成知识表达准确性的下降，降低了本体的应用价值。物联网本体的错误匹配造成的影响相对互联网中本体的匹配更为严重。因为在互联网领域，本体匹配错误影响的是信息的检索质量，而物联网本体主要应用是支撑设备的智能交互，错误的匹配关系导致设备交互关系发生改变，产生设备的无操作。因此本体匹配关系正确性检测同样非常重要。

因此采用本发明实施例的技术方案，提升了本体间的匹配关系的自动化确定的准确性，提高了知识表达准确性，在另一方面也提升了本体匹配的应用价值。

实施例二

本发明实施例还提供了一种本体匹配装置。图4为本发明实施例的本体匹配装置的一种组成结构示意图；如图4所示，所述装置包括：获取单元31、确定单元32、匹配单元33和校验单元34；其中，

所述获取单元31，用于获得第一本体和第二本体之间属于第一类型的匹配关系的特征向量；

所述确定单元32，用于基于所述获取单元31获得的所述特征向量和所述第一类型对应的分类模型确定所述匹配关系的置信度；基于所述置信度确定所述匹配关系是否成立；

所述匹配单元33，用于当所述确定单元32确定所述匹配关系成立时，基于所述匹配关系和所述置信度按照二分图模型进行处理，获得所述第一本体和所述第二本体之间属于所述第一类型的最大匹配关系，生成候选匹配关系集合；

所述校验单元34，用于对所述匹配单元33生成的所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，生成匹配关系集合。

在一实施例中，如图5所示，所述装置还包括模型训练单元35；

所述获取单元31，还用于获得样本数据；所述样本数据包括本体和另一本体之间的多个样本匹配关系；获得所述样本数据中每个样本匹配关系的样本特征向量；

所述模型训练单元35，用于基于所述获取单元31获得的所述样本特征向量通过机器学习算法训练获得第一类型的分类模型。

本实施例中，所述获取单元31，用于获得对应于第一类型的样本匹配关系中属于所述本体的第一元素和属于所述另一本体的第二元素；基于对应于所述第一类型的词向量模型分别获得所述第一元素和所述第二元素对应的第一词向量和第二词向量；基于所述第一词向量和所述第二词向量确定所述第一元素和所述第二元素之间的第一相似度；基于对应于所述第一类型的文本向量模型分别获得所述本体和所述另一本体分别对应的第一文本向量和第二文本向量；基于所述第一文本向量和所述第二文本向量确定所述本体和所述另一本体之间的第二相似度；基于所述第一相似度和所述第二相似度获得对应样本匹配关系的样本特征向量。

本发明实施例中，所述样本特征向量包括：对应于概念类型的第一样本特征向量以及对应于属性类型的第二样本特征向量；

所述模型训练单元35，用于基于所述第一样本特征向量通过机器学习算法训练获得概念类型的第一分类模型，基于所述第二样本特征向量通过所述机器学习算法训练获得属性类型的第二分类模型；所述第一类型为所述概念类型或所述属性类型。

本发明实施例中，所述校验单元34，用于对所述候选匹配关系集合中的候选匹配关系对应的置信度按照由大到小的顺序进行排序；从排序后的候选匹配关系集合中逐一选取候选匹配关系并进行合并，获得候选合并元素；通过推理机判断所述候选合并元素的逻辑关系是否出现错误，以及判断所述候选匹配关系与在先通过一致性校验的候选匹配关系是否相交；当所述候选合并元素的逻辑关系未出现错误，以及所述候选匹配关系与在先通过一致性校验的候选匹配关系不相交时，确定所述候选合并元素对应的候选匹配关系通过一致性校验。

本发明实施例中，所述本体匹配装置中的获取单元31、确定单元32、匹配单元33、校验单元34和模型训练单元35，在实际应用中均可由中央处理器(CPU，CentralProcessing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)实现。

需要说明的是：上述实施例提供的本体匹配装置在进行本体匹配时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的本体匹配装置与本体匹配方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

实施例三

本发明实施例还提供了电子设备，图6为本发明实施例的电子设备的硬件组成结构示意图，如图6所示，所述电子设备包括存储器42、处理器41及存储在存储器42上并可在处理器41上运行的计算机程序，所述处理器41执行所述程序时实现：获得第一本体和第二本体之间属于第一类型的匹配关系的特征向量，基于所述特征向量和所述第一类型对应的分类模型确定所述匹配关系的置信度；基于所述置信度确定所述匹配关系是否成立；当确定所述匹配关系成立时，基于所述匹配关系和所述置信度按照二分图模型进行处理，获得所述第一本体和所述第二本体之间属于所述第一类型的最大匹配关系，生成候选匹配关系集合；对所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，生成匹配关系集合。

在一实施例中，所述处理器41执行所述程序时实现：获得样本数据；所述样本数据包括本体和另一本体之间的多个样本匹配关系；获得所述样本数据中每个样本匹配关系的样本特征向量；基于所述样本特征向量通过机器学习算法训练获得第一类型的分类模型。

在一实施例中，所述处理器41执行所述程序时实现：获得对应于第一类型的样本匹配关系中属于所述本体的第一元素和属于所述另一本体的第二元素；基于对应于所述第一类型的词向量模型分别获得所述第一元素和所述第二元素对应的第一词向量和第二词向量；基于所述第一词向量和所述第二词向量确定所述第一元素和所述第二元素之间的第一相似度；基于对应于所述第一类型的文本向量模型分别获得所述本体和所述另一本体分别对应的第一文本向量和第二文本向量；基于所述第一文本向量和所述第二文本向量确定所述本体和所述另一本体之间的第二相似度；基于所述第一相似度和所述第二相似度获得对应样本匹配关系的样本特征向量。

在一实施例中，所述样本特征向量包括：对应于概念类型的第一样本特征向量以及对应于属性类型的第二样本特征向量；所述处理器41执行所述程序时实现：基于所述第一样本特征向量通过机器学习算法训练获得概念类型的第一分类模型，基于所述第二样本特征向量通过所述机器学习算法训练获得属性类型的第二分类模型；所述第一类型为所述概念类型或所述属性类型。

在一实施例中，所述处理器41执行所述程序时实现：对所述候选匹配关系集合中的候选匹配关系对应的置信度按照由大到小的顺序进行排序；从排序后的候选匹配关系集合中逐一选取候选匹配关系并进行合并，获得候选合并元素；通过推理机判断所述候选合并元素的逻辑关系是否出现错误，以及判断所述候选匹配关系与在先通过一致性校验的候选匹配关系是否相交；当所述候选合并元素的逻辑关系未出现错误，以及所述候选匹配关系与在先通过一致性校验的候选匹配关系不相交时，确定所述候选合并元素对应的候选匹配关系通过一致性校验。

本实施例中，电子设备中的各个组件通过总线系统43耦合在一起。可理解，总线系统43用于实现这些组件之间的连接通信。总线系统43除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统43。

可以理解，存储器42可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器42旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器41中，或者由处理器41实现。处理器41可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器41可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器42，处理器41读取存储器42中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

实施例四

在示例性实施例中，本发明实施例还提供了一种计算机存储介质，例如包括计算机程序的存储器42，上述计算机程序可由电子设备的处理器41执行，以完成前述方法所述步骤。计算机存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

本发明实施例提供的计算机存储介质，其上存储有计算机指令，该指令被处理器执行时实现：获得第一本体和第二本体之间属于第一类型的匹配关系的特征向量，基于所述特征向量和所述第一类型对应的分类模型确定所述匹配关系的置信度；基于所述置信度确定所述匹配关系是否成立；当确定所述匹配关系成立时，基于所述匹配关系和所述置信度按照二分图模型进行处理，获得所述第一本体和所述第二本体之间属于所述第一类型的最大匹配关系，生成候选匹配关系集合；对所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，生成匹配关系集合。

在一实施例中，该指令被处理器执行时实现：获得样本数据；所述样本数据包括本体和另一本体之间的多个样本匹配关系；获得所述样本数据中每个样本匹配关系的样本特征向量；基于所述样本特征向量通过机器学习算法训练获得第一类型的分类模型。

在一实施例中，该指令被处理器执行时实现：获得对应于第一类型的样本匹配关系中属于所述本体的第一元素和属于所述另一本体的第二元素；基于对应于所述第一类型的词向量模型分别获得所述第一元素和所述第二元素对应的第一词向量和第二词向量；基于所述第一词向量和所述第二词向量确定所述第一元素和所述第二元素之间的第一相似度；基于对应于所述第一类型的文本向量模型分别获得所述本体和所述另一本体分别对应的第一文本向量和第二文本向量；基于所述第一文本向量和所述第二文本向量确定所述本体和所述另一本体之间的第二相似度；基于所述第一相似度和所述第二相似度获得对应样本匹配关系的样本特征向量。

在一实施例中，所述样本特征向量包括：对应于概念类型的第一样本特征向量以及对应于属性类型的第二样本特征向量；该指令被处理器执行时实现：基于所述第一样本特征向量通过机器学习算法训练获得概念类型的第一分类模型，基于所述第二样本特征向量通过所述机器学习算法训练获得属性类型的第二分类模型；所述第一类型为所述概念类型或所述属性类型。

在一实施例中，该指令被处理器执行时实现：对所述候选匹配关系集合中的候选匹配关系对应的置信度按照由大到小的顺序进行排序；从排序后的候选匹配关系集合中逐一选取候选匹配关系并进行合并，获得候选合并元素；通过推理机判断所述候选合并元素的逻辑关系是否出现错误，以及判断所述候选匹配关系与在先通过一致性校验的候选匹配关系是否相交；当所述候选合并元素的逻辑关系未出现错误，以及所述候选匹配关系与在先通过一致性校验的候选匹配关系不相交时，确定所述候选合并元素对应的候选匹配关系通过一致性校验。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种本体匹配方法，其特征在于，所述方法包括：

获得第一本体和第二本体之间属于第一类型的匹配关系的特征向量，基于所述特征向量和所述第一类型对应的分类模型确定所述匹配关系的置信度；基于所述置信度确定所述匹配关系是否成立；

对所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，生成匹配关系集合；

所述获得第一本体和第二本体之间属于第一类型的匹配关系的特征向量，包括：

获得对应于第一类型的匹配关系中属于所述第一本体的第一目标元素和属于所述第二本体的第二目标元素；

基于所述第一类型的词向量模型分别获取所述第一目标元素和所述第二目标元素对应的第一目标词向量和第二目标词向量；

基于所述第一目标词向量和所述第二目标词向量确定所述第一目标元素和所述第二目标元素之间的第一目标相似度；

基于对应于所述第一类型的文本向量模型分别获得所述第一本体和第二本体分别对应的第一目标文本向量和第二目标文本向量；

基于所述第一目标文本向量和所述第二目标文本向量确定所述第一本体和所述第二本体之间的第二目标相似度；

基于所述第一目标相似度和所述第二目标相似度获得对应所述第一类型的匹配关系的特征向量。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获得样本数据；所述样本数据包括本体和另一本体之间的多个样本匹配关系；

获得所述样本数据中每个样本匹配关系的样本特征向量；

3.根据权利要求2所述的方法，其特征在于，所述获得所述样本数据中每个样本匹配关系的样本特征向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述样本特征向量包括：对应于概念类型的第一样本特征向量以及对应于属性类型的第二样本特征向量；

5.根据权利要求1所述的方法，其特征在于，所述对所述候选匹配关系集合中的候选匹配关系合并后进行一致性校验，获得一致性校验通过后的候选匹配关系，包括：

6.一种本体匹配装置，其特征在于，所述装置包括：获取单元、确定单元、匹配单元和校验单元；其中，

所述获取单元，还用于获得对应于第一类型的匹配关系中属于所述第一本体的第一目标元素和属于所述第二本体的第二目标元素；基于所述第一类型的词向量模型分别获取所述第一目标元素和所述第二目标元素对应的第一目标词向量和第二目标词向量；基于所述第一目标词向量和所述第二目标词向量确定所述第一目标元素和所述第二目标元素之间的第一目标相似度；基于对应于所述第一类型的文本向量模型分别获得所述第一本体和第二本体分别对应的第一目标文本向量和第二目标文本向量；基于所述第一目标文本向量和所述第二目标文本向量确定所述第一本体和所述第二本体之间的第二目标相似度；基于所述第一目标相似度和所述第二目标相似度获得对应所述第一类型的匹配关系的特征向量；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括模型训练单元；

8.根据权利要求7所述的装置，其特征在于，所述获取单元，用于获得对应于第一类型的样本匹配关系中属于所述本体的第一元素和属于所述另一本体的第二元素；基于对应于所述第一类型的词向量模型分别获得所述第一元素和所述第二元素对应的第一词向量和第二词向量；基于所述第一词向量和所述第二词向量确定所述第一元素和所述第二元素之间的第一相似度；基于对应于所述第一类型的文本向量模型分别获得所述本体和所述另一本体分别对应的第一文本向量和第二文本向量；基于所述第一文本向量和所述第二文本向量确定所述本体和所述另一本体之间的第二相似度；基于所述第一相似度和所述第二相似度获得对应样本匹配关系的样本特征向量。

9.根据权利要求7所述的装置，其特征在于，所述样本特征向量包括：对应于概念类型的第一样本特征向量以及对应于属性类型的第二样本特征向量；

10.根据权利要求6所述的装置，其特征在于，所述校验单元，用于对所述候选匹配关系集合中的候选匹配关系对应的置信度按照由大到小的顺序进行排序；从排序后的候选匹配关系集合中逐一选取候选匹配关系并进行合并，获得候选合并元素；通过推理机判断所述候选合并元素的逻辑关系是否出现错误，以及判断所述候选匹配关系与在先通过一致性校验的候选匹配关系是否相交；当所述候选合并元素的逻辑关系未出现错误，以及所述候选匹配关系与在先通过一致性校验的候选匹配关系不相交时，确定所述候选合并元素对应的候选匹配关系通过一致性校验。

11.一种计算机存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至5任一项所述本体匹配方法的步骤。

12.一种本体匹配装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5任一项所述本体匹配方法的步骤。