CN110874412B - 一种本体匹配方法、装置和计算机存储介质 - Google Patents
一种本体匹配方法、装置和计算机存储介质 Download PDFInfo
- Publication number
- CN110874412B CN110874412B CN201811011459.6A CN201811011459A CN110874412B CN 110874412 B CN110874412 B CN 110874412B CN 201811011459 A CN201811011459 A CN 201811011459A CN 110874412 B CN110874412 B CN 110874412B
- Authority
- CN
- China
- Prior art keywords
- ontology
- concept
- concepts
- document
- meaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 73
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 231100000870 cognitive problem Toxicity 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种本体匹配方法、装置和计算机存储介质。所述方法包括:分别获得第一本体和第二本体中的概念对应的义项;其中,所述第一本体中包括的多个第一概念;所述第二本体中包括多个第二概念;分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档;其中,所述第一概念对应的第一义项对应第一主题文档;所述第二概念对应的第二义项对应第二主题文档;提取所述第一主题文档的第一文档向量,提取所述第二主题文档的第二文档向量;计算所述第一文档向量和所述第二文档向量之间的相似度值;当所述相似度值超过相似度阈值时,确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配。
Description
技术领域
本发明涉及文本匹配技术,具体涉及一种本体匹配方法、装置和计算机存储介质。
背景技术
为解决异构本体之间的相互通信的问题,可采用本体匹配的方式确定本体之间的元素的相似度,通过相似度的值来判断不同本体中实体之间的语义关系,实现本体之间的语义之间的映射过程。
通常情况下,本体匹配可采用手动匹配方式和基于词语相似度的自动化匹配方式实现。手动匹配由领域专家通过本体编辑软件,根据自身掌握的领域知识,发现本体间的元素的匹配关系。自动化匹配方式则通过计算不同本体中的概念词汇之间的相似度,确定可能的本体匹配关系。
然而,手动匹配方式通常需要本领域内的专家或者辅助技术人员才能完成,工作效率较低,而且局限于领域专家自身的经验,使得组合后的模型表达的客观性下降。而基于词语相似度的自动化匹配方式均没有考虑本体中的概念所表达的真正语义信息。例如,以“苹果”一词为例,它既可以表示一种水果,又可以表示一个科技公司。如果在一个本体中,“苹果”表达的是水果,在另一个本体中,“苹果”表达的是科技公司,虽然根据词语相似度算法,两者属于等价的概念,但由于表达的语义完全不相关,因此并不能建立等价的匹配关系。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种本体匹配方法、装置和计算机存储介质。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种本体匹配方法,所述方法包括:
分别获得第一本体和第二本体中的概念对应的义项;其中,所述第一本体中包括的多个第一概念;所述第二本体中包括多个第二概念;
分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档;其中,所述主题文档的内容包括对应义项的含义和/或解释说明;所述第一概念对应的第一义项对应第一主题文档;所述第二概念对应的第二义项对应第二主题文档;
提取所述第一主题文档的第一文档向量,提取所述第二主题文档的第二文档向量;
计算所述第一文档向量和所述第二文档向量之间的相似度值;
当所述相似度值超过相似度阈值时,确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配。
上述方案中,所述分别获得第一本体和第二本体中的概念对应的义项,包括:
分别对所述第一本体和所述第二本体中包括的多个概念进行拓扑排序;
基于拓扑排序后的概念结构将所述多个概念转换为贝叶斯网络,使得每个概念作为所述贝叶斯网络中的一个节点;
获得所述多个概念中每个概念对应的所有义项,基于每个概念对应的所有义项确定每个节点对应的状态;
确定多个节点对应的状态组合,所述状态组合中包括每个节点的一个状态;
计算每个状态组合的概率值,基于概率值最大的组合分别确定所述第一本体和所述第二本体中的概念对应的义项。
上述方案中,所述计算每个状态组合的概率,包括:
计算所述贝叶斯网络中具有单向连接关系的节点的状态之间的条件概率,基于所述状态之间的条件概率确定每个状态组合的概率。
上述方案中,所述获得所述多个概念中每个概念对应的所有义项,包括:
基于预设语料库获得所述多个概念中每个概念对应的所有义项。
上述方案中,所述分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档,包括:
基于预设语料库中已通过义项主题进行标识的多个主题文档,分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档。
上述方案中,所述计算所述第一文档向量和所述第二文档向量之间的相似度值,包括:
计算所述第一文档向量和所述第二文档向量之间的余弦距离,基于所述余弦距离确定所述第一文档向量和所述第二文档向量之间的相似度值。
上述方案中,所述方法还包括:确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配后,基于所述第一本体和所述第二本体中的概念之间的匹配关系采用二分图模型进行处理,获得所述第一本体和所述第二本体之间的最大匹配关系,获得满足匹配关系的最大匹配关系集合。
本发明实施例还提供了一种本体匹配装置,所述装置包括:第一获取单元、第二获取单元、提取单元、计算匹配单元;其中,
所述第一获取单元,用于分别获得第一本体和第二本体中的概念对应的义项;其中,所述第一本体中包括的多个第一概念;所述第二本体中包括多个第二概念;
所述第二获取单元,用于分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档;其中,所述主题文档的内容包括对应义项的含义和/或解释说明;所述第一概念对应的第一义项对应第一主题文档;所述第二概念对应的第二义项对应第二主题文档;
所述提取单元,用于提取所述第一主题文档的第一文档向量,提取所述第二主题文档的第二文档向量;
所述计算匹配单元,用于计算所述第一文档向量和所述第二文档向量之间的相似度值;当所述相似度值超过相似度阈值时,确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配。
上述方案中,所述第一获取单元,用于分别对所述第一本体和所述第二本体中包括的多个概念进行拓扑排序;基于拓扑排序后的概念结构将所述多个概念转换为贝叶斯网络,使得每个概念作为所述贝叶斯网络中的一个节点;获得所述多个概念中每个概念对应的所有义项,基于每个概念对应的所有义项确定每个节点对应的状态;确定多个节点对应的状态组合,所述状态组合中包括每个节点的一个状态;计算每个状态组合的概率值,基于概率值最大的组合分别确定所述第一本体和所述第二本体中的概念对应的义项。
上述方案中,所述第一获取单元,用于计算所述贝叶斯网络中具有单向连接关系的节点的状态之间的条件概率,基于所述状态之间的条件概率确定每个状态组合的概率。
上述方案中,所述第一获取单元,用于基于预设语料库获得所述多个概念中每个概念对应的所有义项。
上述方案中,所述第二获取单元,用于基于预设语料库中已通过义项主题进行标识的多个主题文档,分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档。
上述方案中,所述计算匹配单元,用于计算所述第一文档向量和所述第二文档向量之间的余弦距离,基于所述余弦距离确定所述第一文档向量和所述第二文档向量之间的相似度值。
上述方案中,所述计算匹配单元,还用于确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配后,基于所述第一本体和所述第二本体中的概念之间的匹配关系采用二分图模型进行处理,获得所述第一本体和所述第二本体之间的最大匹配关系,获得满足匹配关系的最大匹配关系集合。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述方法的步骤。
本发明实施例还提供了一种本体匹配装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明实施例所述方法的步骤。
本发明实施例提供的本体匹配方法、装置和计算机存储介质,所述方法包括:分别获得第一本体和第二本体中的概念对应的义项;其中,所述第一本体中包括的多个第一概念;所述第二本体中包括多个第二概念;分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档;其中,所述第一概念对应的第一义项对应第一主题文档;所述第二概念对应的第二义项对应第二主题文档;提取所述第一主题文档的第一文档向量,提取所述第二主题文档的第二文档向量;计算所述第一文档向量和所述第二文档向量之间的相似度值;当所述相似度值超过相似度阈值时,确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配。采用本发明实施例的技术方案,一方面实现了本体之间的自动匹配,另一方面,通过对本体中的概念对应的义项的识别,也即获得概念在本体中的真实语义,并基于义项判断本体之间概念之间的相似度,从而提升了本体间的匹配关系的自动化确定的准确性,提高了知识表达准确性,在另一方面也提升了本体匹配的应用价值。
附图说明
图1为本发明实施例的本体匹配方法的流程示意图;
图2为本发明实施例的本体匹配方法中义项的获得方式的流程示意图;
图3a为本发明实施例的本体匹配方法中的概念的拓扑排序示意图;
图3b为本发明实施例的本体匹配方法中将拓扑排序后的概念转换为贝叶斯网络的示意图;
图4为本发明实施例的本体匹配方法中概念的义项认知示意图;
图5为本发明实施例的本体匹配装置的组成结构示意图;
图6为本发明实施例的本体匹配装置的硬件组成结构示意图。
具体实施方式
在针对本发明实施例进行详细说明之前,首先对本发明实施例中涉及到的专业词语进行简要的解释说明。
本发明实施例中,本体(Ontology)用于表示一个领域的术语集合,其组织结构是层次结构化的,可以作为一个知识库的骨架和基础,用来获取、描述和表示相关领域的知识。本体能够提供对该领域知识的共同理解,确定领域内共同认可的词汇(类),以及领域特定的概念定义和概念之间的关系(属性),在人与人之间以及人与机器之间达到共享。本体作为知识的一种表现方式,对于实现物联网智能化场景以和提高互联网数据检索质量具有重要的作用。
本体匹配(Ontology Matching)是指计算两个不同本体元素之间的相似度的,通过相似度的值来判断本体中实体之间的语义关系,实现本体的语义之间的映射过程。本体匹配技术就是解决异构本体之间的相互通信的问题,发现不同本体中实体的语义关系,最后实现本体集成等应用。本体匹配技术能够有效实现知识模型的复用和组合,从而完成知识的扩容和按需组合,支撑更为复杂的智能应用。在物联网智能化场景中,如智能家居,每个家庭中部署的设备的各不相同,为每个家庭均创建一个本体作为设备的基础知识会浪费很多人力,而且创建的本体只适用于单个家庭。利用本体匹配技术,可以充分利用现有的智能家居本体资源,根据包含家庭中的设备元素的离散本体进行组合,从而快速的构建适用于不同智能家居的本体,提高了本体构建效率已经本体的复用性。本体匹配的另外一个应用是在互联网搜索引擎领域的知识图谱的构建。知识图谱本质上是一种更大规模的本体,为网络上的各种资源建立关联。知识图谱由于其体系庞大,无法由人手动完成创建。目前通用的方法是从各个网页自动地抽取出局部的本体模型,然后对其进行不断地组合,构成整个知识图谱。本体匹配技术在其中起到了非常核心的作用。
下面结合附图及具体实施例对本发明作进一步详细的说明。
本发明实施例提供了一种本体匹配方法。图1为本发明实施例的本体匹配方法的流程示意图;如图1所示,所述方法包括:
步骤101:分别获得第一本体和第二本体中的概念对应的义项;其中,所述第一本体中包括的多个第一概念;所述第二本体中包括多个第二概念。
步骤102:分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档;其中,所述主题文档的内容包括对应义项的含义和/或解释说明;所述第一概念对应的第一义项对应第一主题文档;所述第二概念对应的第二义项对应第二主题文档。
步骤103:提取所述第一主题文档的第一文档向量,提取所述第二主题文档的第二文档向量。
步骤104:计算所述第一文档向量和所述第二文档向量之间的相似度值。
步骤105:当所述相似度值超过相似度阈值时,确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配。
本实施例中,概念可作为本体中的词,而义项可作为词表达的含义。例如,“apple”可作为本体中的概念,而作为概念的“apple”的义项可以是苹果公司,或者为一种水果,或者为电影等等。
本发明的一种实施例中,如图2所示,本实施例中所述分别获得第一本体和第二本体中的概念对应的义项,包括:
步骤201:分别对所述第一本体和所述第二本体中包括的多个概念进行拓扑排序;
步骤202:基于拓扑排序后的概念结构将所述多个概念转换为贝叶斯网络,使得每个概念作为所述贝叶斯网络中的一个节点;
步骤203:获得所述多个概念中每个概念对应的所有义项,基于每个概念对应的所有义项确定每个节点对应的状态;
步骤204:确定多个节点对应的状态组合,所述状态组合中包括每个节点的一个状态;
步骤205:计算每个状态组合的概率值,基于概率值最大的组合分别确定所述第一本体和所述第二本体中的概念对应的义项。
本实施例中基于贝叶斯网络对本体中的概念对应的义项进行获取。贝叶斯网络是一系列变量的联合概率分布的图形表示。一般包含两个部分,一个部分是贝叶斯网络结构图,这是一个有向无环图(DAG),其中图中的每个节点代表相应的变量,节点之间的连接关系代表了贝叶斯网络的条件独立语义。另一部分是节点和节点之间的条件概率表,也是一系列的概率值。如果一个贝叶斯网络提供了足够的条件概率值,足以计算任何给定的联合概率,就称它是可计算或可推理的。在贝叶斯网络中,已知某些变量的取值,称为证据变量记为E。证据E=e的一个解释指的是网络中全部变量的一个与E=e相一致的状态组合,联合概率最大的那个解释称为最大可能解释。当没有证据变量时,最大可能解释为最大联合概率对应的状态组合。
则本实施例中,以第一本体为例,首先将第一本体中包括的多个概念进行拓扑排序;其中,拓扑排序按照特定规则,例如父概念在子概念之前,属性关系的定义域概念在值域概念之前等等。例如,“车”可作为父概念,“摩托车”可作为该父概念下的一种子概念,则“车”与“摩托车”可作为一种父子关系。图3a为本发明实施例的本体匹配方法中的概念的拓扑排序示意图;如图3a所示,假设本体中包括概念A至概念G,且概念之间均为父子关系;概念A可作为概念B和概念C的父概念,概念B可作为概念D和概念E的父概念,概念C可作为概念F和概念G的父概念。
本实施例中,基于拓扑排序后的概念结构将所述多个概念转换为贝叶斯网络,例如基于图3a所示的拓扑排序后的概念结构将概念A至概念G转换为贝叶斯网络;在贝叶斯网络中,每个节点均表示一个概念。图3b为本发明实施例的本体匹配方法中将拓扑排序后的概念转换为贝叶斯网络的示意图;如图3b所示,贝叶斯网络中的节点按照拓扑排序后的概念的顺序排列;并且,确定节点之间的单向连接关系。
本实施例中,获得所述多个概念中每个概念对应的所有义项,也即初始化贝叶斯网络中各节点的状态变量。基于每个概念对应的所有义项确定每个节点对应的状态;其中,每个节点可对应至少一个状态。作为一种实施方式,所述获得所述多个概念中每个概念对应的所有义项,包括:基于预设语料库获得所述多个概念中每个概念对应的所有义项。
作为一种示例,以预设语料库为维基(Wiki)百科语料库为例,维基(Wiki)百科语料库中预先存储有概念的所有义项,某一概念的所有义项可通过词义消歧页面被用户搜索并浏览到。例如通过某一词义消歧页面的网址https://en.wikipedia.org/wiki/Apple_(disambiguation),可以得到概念“apple”的所以义项,例如表示电影的The_Apple_(1980_film),表示公司的Apple_Inc等。
本实施例中,确定贝叶斯网络中所包括的多个节点(所有节点)对应的状态组合,所述状态组合中包括每个节点的一个状态;可以理解,例如节点A包括状态A1和状态A2(即概念A包括义项A1和义项A2),状态B包括状态B1和状态B2(概念B包括义项B1和义项B2),则状态组合可以使状态A1状态B1、状态A1状态B2、状态A2状态B1和状态A2状态B2。
本实施例中,通过计算贝叶斯网络中节点的状态之间的条件概率,确定状态组合的概率。作为一种实施方式,所述计算每个状态组合的概率,包括:计算所述贝叶斯网络中具有单向连接关系的节点的状态之间的条件概率,基于所述状态之间的条件概率确定每个状态组合的概率。
作为一种示例,节点的状态之间的条件概率满足以下公式(1):
其中,义项之间的相似度可通过分别获得两个义项对应的主题文档,分别获得两个主题文档对应的文档向量,计算两个文档向量之间的余弦距离确定对应的义项之间的相似度,详细过程可参照后续描述。
贝叶斯网络的求解主要包含结构和参数两部分,结构直接从本体转换过来,由于本体概念间的依赖关系已知,因此不需要学习贝叶斯网络;而各节点状态之间的条件概率可通过前述公式(1)得到。因此本体中概念对应的义项的认知问题转换为使得公式(1)的联合概率最大的变量取值问题。则本实施例中,状态组合的概率满足以下公式(2):
其中,P(xi|pai)可通过公式(1)计算获得。pai是xi的所有父节点。这里,在贝叶斯网络中,当一个节点的父节点给定后,除了该节点的后代节点外,与其余所有节点之间条件独立。
实际应用中,上述公式(2)的求解方法可包括变量消元和团树传播等精确推理求解法,以及以随机抽样法(蒙特卡洛方法)为代表的近似求解法。作为一种示例,当网络中节点较多时,一般选择近似求解方法,求解可通过FullBNT-1.0.4工具箱完成。
图4为本发明实施例的本体匹配方法中概念的义项认知示意图;如图4所示,每个矩形框表示一个概念,矩形框中的圆形表示概念的一个义项,本体的概念的义项的认知过程就是确定每个概念在本体中对应的义项。例如图4所示,概念B在本体中表达是其第3个义项。
采用以上技术方案,可获得第一本体中的第一概念对应的第一义项,以及第二本体中的第二概念对应的第一义项。
本发明的一种实施例中,所述分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档,包括:基于预设语料库中已通过义项主题进行标识的多个主题文档,分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档。
本实施例中,基于预设语料库中预先通过义项主题进行标识的多个主题文档,获得第一概念的第一义项对应的第一主题文档,以及获得第二概念的第二义项对应的第二主题文档。以预设语料库为维基(Wiki)百科语料库为例,维基(Wiki)百科语料库中预先对每个主题文档通过义项主题进行标识,例如,https://en.wikipedia.org/wiki/Apple_Inc对应的主题文档通过Apple_Inc标识,文档描述苹果公司。可以理解,主题文档可以理解为语料库中的词条(即概念)对应的解释内容,每个词条对应的解释内容可通过一个网页被用户搜索并浏览到。
本实施例中,获得第一概念的第一义项对应的第一主题文档,以及获得第二概念的第二义项对应的第二主题文档后,分别获得所述第一主题文档的第一文档向量,获得所述第二主题文档的第二文档向量。
在一实施例中,所述方法还包括:对预设语料库中的主题文档进行训练,获得每个主题文档对应的文档向量。作为一种示例,可采用Doc2vec算法对预设语料库中的主题文档进行训练,获得主题文档对应的文档向量,基于预设语料库中所有的主题文档对应的文档向量生成文档向量模型。基于此,可通过查找文档向量模型,获得第一主题文档的第一文档向量,以及获得第二主题文档的第二文档向量。
本发明的一种实施例中,所述计算所述第一文档向量和所述第二文档向量之间的相似度值,包括:计算所述第一文档向量和所述第二文档向量之间的余弦距离,基于所述余弦距离确定所述第一文档向量和所述第二文档向量之间的相似度值。当所述相似度值超过相似度阈值时,确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配。相应的,当所述相似度值未超过相似度阈值时,确定所述第一本体中的第一概念与所述第二本体中的第二概念不匹配。
在另一实施例中,所述方法还包括:确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配后,基于所述第一本体和所述第二本体中的概念之间的匹配关系采用二分图模型进行处理,获得所述第一本体和所述第二本体之间的最大匹配关系,获得满足匹配关系的最大匹配关系集合。
本实施例中,由于两个本体之间的匹配关系集合中不能出现一个本体中的概念和另外一个本体中的多个概念同时等价的情况,最终一个本体中的概念最多只能出现在一个匹配关系中,并且希望保留的匹配关系总的置信度尽可能最大。则当确定所述匹配关系成立时,基于所述匹配关系和所述置信度按照二分图模型进行处理,二分图中以概念作为节点,节点之间的权重为对应的相似度,可采用匈牙利算法进行求解获得最大的匹配关系。
采用本发明实施例的技术方案,一方面实现了本体之间的自动匹配,另一方面,通过对本体中的概念对应的义项的识别,也即获得概念在本体中的真实语义,并基于义项判断本体之间概念之间的相似度,具体是基于预设语料库、Doc2vec算法的义项相似度的计算以及贝叶斯网络获得概念在本体中的义项,从而提升了本体间的匹配关系的自动化确定的准确性,提高了知识表达准确性,在另一方面也提升了本体匹配的应用价值。
本发明实施例还提供了一种本体匹配装置,图5为本发明实施例的本体匹配装置的组成结构示意图;如图5所示,所述装置包括:第一获取单元31、第二获取单元32、提取单元33、计算匹配单元34;其中,
所述第一获取单元31,用于分别获得第一本体和第二本体中的概念对应的义项;其中,所述第一本体中包括的多个第一概念;所述第二本体中包括多个第二概念;
所述第二获取单元32,用于分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档;其中,所述主题文档的内容包括对应义项的含义和/或解释说明;所述第一概念对应的第一义项对应第一主题文档;所述第二概念对应的第二义项对应第二主题文档;
所述提取单元33,用于提取所述第一主题文档的第一文档向量,提取所述第二主题文档的第二文档向量;
所述计算匹配单元34,用于计算所述第一文档向量和所述第二文档向量之间的相似度值;当所述相似度值超过相似度阈值时,确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配。
在本发明的一种实施方式中,所述第一获取单元31,用于分别对所述第一本体和所述第二本体中包括的多个概念进行拓扑排序;基于拓扑排序后的概念结构将所述多个概念转换为贝叶斯网络,使得每个概念作为所述贝叶斯网络中的一个节点;获得所述多个概念中每个概念对应的所有义项,基于每个概念对应的所有义项确定每个节点对应的状态;确定多个节点对应的状态组合,所述状态组合中包括每个节点的一个状态;计算每个状态组合的概率值,基于概率值最大的组合分别确定所述第一本体和所述第二本体中的概念对应的义项。
在本发明的一种实施方式中,所述第一获取单元31,用于计算所述贝叶斯网络中具有单向连接关系的节点的状态之间的条件概率,基于所述状态之间的条件概率确定每个状态组合的概率。
在本发明的一种实施方式中,所述第一获取单元31,用于基于预设语料库获得所述多个概念中每个概念对应的所有义项。
在本发明的一种实施方式中,所述第二获取单元32,用于基于预设语料库中已通过义项主题进行标识的多个主题文档,分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档。
在本发明的一种实施方式中,所述计算匹配单元34,用于计算所述第一文档向量和所述第二文档向量之间的余弦距离,基于所述余弦距离确定所述第一文档向量和所述第二文档向量之间的相似度值。
在另一实施例中,所述计算匹配单元34,还用于确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配后,基于所述第一本体和所述第二本体中的概念之间的匹配关系采用二分图模型进行处理,获得所述第一本体和所述第二本体之间的最大匹配关系,获得满足匹配关系的最大匹配关系集合。
本发明实施例中,所述本体匹配装置在实际应用中可由终端或网络设备(网络设备例如服务器等)实现;所述本体匹配装置中的第一获取单元31、第二获取单元32、提取单元33、计算匹配单元34,在实际应用中均可由例如中央处理器(CPU,Central ProcessingUnit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
需要说明的是:上述实施例提供的本体匹配装置在进行本体匹配时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的本体匹配装置与本体匹配方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例还提供了一种本体匹配装置,包括存储器42、处理器41及存储在存储器42上并可在处理器41上运行的计算机程序,所述处理器41执行所述程序时实现本发明实施例所述的本体匹配方法的步骤。
本实施例中,本体匹配装置中还包括通信接口43;本体匹配装置中的各个组件通过总线系统44耦合在一起。可理解,总线系统44用于实现这些组件之间的连接通信。总线系统44除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统44。
可以理解,存储器42可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器42旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器41中,或者由处理器41实现。处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器41可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器42,处理器41读取存储器42中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,本体匹配装置可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述的本体匹配方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (16)
1.一种本体匹配方法,其特征在于,所述方法包括:
基于贝叶斯网络分别获得第一本体和第二本体中的每个概念对应的所有义项,并基于每个概念对应的所有义项确定每个节点对应的状态;其中,所述第一本体中包括的多个第一概念;所述第二本体中包括多个第二概念;每个概念作为所述贝叶斯网络中的一个节点;
基于多个节点对应的状态组合的概率值确定所述第一本体和所述第二本体中的概念对应的义项;
分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档;其中,所述主题文档的内容包括对应义项的含义和/或解释说明;所述第一概念对应的第一义项对应第一主题文档;所述第二概念对应的第二义项对应第二主题文档;
提取所述第一主题文档的第一文档向量,提取所述第二主题文档的第二文档向量;
计算所述第一文档向量和所述第二文档向量之间的相似度值;
当所述相似度值超过相似度阈值时,确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配。
2.根据权利要求1所述的方法,其特征在于,所述基于贝叶斯网络分别获得第一本体和第二本体中的每个概念对应的所有义项,并基于每个概念对应的所有义项确定每个节点对应的状态,包括:
分别对所述第一本体和所述第二本体中包括的多个概念进行拓扑排序;
基于拓扑排序后的概念结构将所述多个概念转换为贝叶斯网络,使得每个概念作为所述贝叶斯网络中的一个节点;
获得所述多个概念中每个概念对应的所有义项,基于每个概念对应的所有义项确定每个节点对应的状态;
确定多个节点对应的状态组合,所述状态组合中包括每个节点的一个状态;
计算每个状态组合的概率值,基于概率值最大的组合分别确定所述第一本体和所述第二本体中的概念对应的义项。
3.根据权利要求2所述的方法,其特征在于,所述计算每个状态组合的概率,包括:
计算所述贝叶斯网络中具有单向连接关系的节点的状态之间的条件概率,基于所述状态之间的条件概率确定每个状态组合的概率。
4.根据权利要求2所述的方法,其特征在于,所述获得所述多个概念中每个概念对应的所有义项,包括:
基于预设语料库获得所述多个概念中每个概念对应的所有义项。
5.根据权利要求1所述的方法,其特征在于,所述分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档,包括:
基于预设语料库中已通过义项主题进行标识的多个主题文档,分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档。
6.根据权利要求1所述的方法,其特征在于,所述计算所述第一文档向量和所述第二文档向量之间的相似度值,包括:
计算所述第一文档向量和所述第二文档向量之间的余弦距离,基于所述余弦距离确定所述第一文档向量和所述第二文档向量之间的相似度值。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配后,基于所述第一本体和所述第二本体中的概念之间的匹配关系采用二分图模型进行处理,获得所述第一本体和所述第二本体之间的最大匹配关系,获得满足匹配关系的最大匹配关系集合。
8.一种本体匹配装置,其特征在于,所述装置包括:第一获取单元、第二获取单元、提取单元、计算匹配单元;其中,
所述第一获取单元,用于基于贝叶斯网络分别获得第一本体和第二本体中的每个概念对应的所有义项,并基于每个概念对应的所有义项确定每个节点对应的状态;其中,所述第一本体中包括的多个第一概念;所述第二本体中包括多个第二概念;每个概念作为所述贝叶斯网络中的一个节点;基于多个节点对应的状态组合的概率值确定所述第一本体和所述第二本体中的概念对应的义项;
所述第二获取单元,用于分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档;其中,所述主题文档的内容包括对应义项的含义和/或解释说明;所述第一概念对应的第一义项对应第一主题文档;所述第二概念对应的第二义项对应第二主题文档;
所述提取单元,用于提取所述第一主题文档的第一文档向量,提取所述第二主题文档的第二文档向量;
所述计算匹配单元,用于计算所述第一文档向量和所述第二文档向量之间的相似度值;当所述相似度值超过相似度阈值时,确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配。
9.根据权利要求8所述的装置,其特征在于,所述第一获取单元,用于分别对所述第一本体和所述第二本体中包括的多个概念进行拓扑排序;基于拓扑排序后的概念结构将所述多个概念转换为贝叶斯网络,使得每个概念作为所述贝叶斯网络中的一个节点;获得所述多个概念中每个概念对应的所有义项,基于每个概念对应的所有义项确定每个节点对应的状态;确定多个节点对应的状态组合,所述状态组合中包括每个节点的一个状态;计算每个状态组合的概率值,基于概率值最大的组合分别确定所述第一本体和所述第二本体中的概念对应的义项。
10.根据权利要求9所述的装置,其特征在于,所述第一获取单元,用于计算所述贝叶斯网络中具有单向连接关系的节点的状态之间的条件概率,基于所述状态之间的条件概率确定每个状态组合的概率。
11.根据权利要求9所述的装置,其特征在于,所述第一获取单元,用于基于预设语料库获得所述多个概念中每个概念对应的所有义项。
12.根据权利要求8所述的装置,其特征在于,所述第二获取单元,用于基于预设语料库中已通过义项主题进行标识的多个主题文档,分别获得所述第一概念和所述第二概念各自对应的义项对应的主题文档。
13.根据权利要求8所述的装置,其特征在于,所述计算匹配单元,用于计算所述第一文档向量和所述第二文档向量之间的余弦距离,基于所述余弦距离确定所述第一文档向量和所述第二文档向量之间的相似度值。
14.根据权利要求8所述的装置,其特征在于,所述计算匹配单元,还用于确定所述第一本体中的第一概念与所述第二本体中的第二概念匹配后,基于所述第一本体和所述第二本体中的概念之间的匹配关系采用二分图模型进行处理,获得所述第一本体和所述第二本体之间的最大匹配关系,获得满足匹配关系的最大匹配关系集合。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
16.一种本体匹配装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811011459.6A CN110874412B (zh) | 2018-08-31 | 2018-08-31 | 一种本体匹配方法、装置和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811011459.6A CN110874412B (zh) | 2018-08-31 | 2018-08-31 | 一种本体匹配方法、装置和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110874412A CN110874412A (zh) | 2020-03-10 |
CN110874412B true CN110874412B (zh) | 2022-07-26 |
Family
ID=69715312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811011459.6A Active CN110874412B (zh) | 2018-08-31 | 2018-08-31 | 一种本体匹配方法、装置和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110874412B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652176B (zh) * | 2020-06-11 | 2024-05-21 | 商汤国际私人有限公司 | 信息提取方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637163A (zh) * | 2011-01-09 | 2012-08-15 | 华东师范大学 | 一种基于语义的多层次本体匹配的控制方法及系统 |
CN103207856A (zh) * | 2013-04-03 | 2013-07-17 | 同济大学 | 一种本体概念及层次关系生成方法 |
CN105095229A (zh) * | 2014-04-29 | 2015-11-25 | 国际商业机器公司 | 训练主题模型的方法,对比文档内容的方法和相应的装置 |
CN106202543A (zh) * | 2016-07-27 | 2016-12-07 | 苏州家佳宝妇幼医疗科技有限公司 | 基于机器学习的本体匹配方法和系统 |
CN106570187A (zh) * | 2016-11-14 | 2017-04-19 | 南京邮电大学 | 一种基于本体概念相似度的软件构件检索方法 |
CN108446269A (zh) * | 2018-03-05 | 2018-08-24 | 昆明理工大学 | 一种基于词向量的词义消歧方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120078595A1 (en) * | 2010-09-24 | 2012-03-29 | Nokia Corporation | Method and apparatus for ontology matching |
US9424298B2 (en) * | 2014-10-07 | 2016-08-23 | International Business Machines Corporation | Preserving conceptual distance within unstructured documents |
CN108256030B (zh) * | 2017-12-29 | 2020-10-23 | 北京理工大学 | 一种基于本体的密度自适应概念语义相似度计算方法 |
-
2018
- 2018-08-31 CN CN201811011459.6A patent/CN110874412B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637163A (zh) * | 2011-01-09 | 2012-08-15 | 华东师范大学 | 一种基于语义的多层次本体匹配的控制方法及系统 |
CN103207856A (zh) * | 2013-04-03 | 2013-07-17 | 同济大学 | 一种本体概念及层次关系生成方法 |
CN105095229A (zh) * | 2014-04-29 | 2015-11-25 | 国际商业机器公司 | 训练主题模型的方法,对比文档内容的方法和相应的装置 |
CN106202543A (zh) * | 2016-07-27 | 2016-12-07 | 苏州家佳宝妇幼医疗科技有限公司 | 基于机器学习的本体匹配方法和系统 |
CN106570187A (zh) * | 2016-11-14 | 2017-04-19 | 南京邮电大学 | 一种基于本体概念相似度的软件构件检索方法 |
CN108446269A (zh) * | 2018-03-05 | 2018-08-24 | 昆明理工大学 | 一种基于词向量的词义消歧方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于主题概念抽取的多文档文摘方法;宋宣辰等;《计算机工程》;20100220(第04期);第190-192页 * |
基于潜语义分析的概念名称相似度算法;黄广君等;《计算机工程》;20090720(第14期);第59-74页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110874412A (zh) | 2020-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7420842B2 (ja) | 自然言語理解(nlu)フレームワークにおける予測的類似性スコアリングサブシステム | |
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
US9400835B2 (en) | Weighting metric for visual search of entity-relationship databases | |
WO2018049960A1 (zh) | 一种为文本信息匹配资源的方法及装置 | |
US20190332671A1 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN111767796B (zh) | 一种视频关联方法、装置、服务器和可读存储介质 | |
US10289717B2 (en) | Semantic search apparatus and method using mobile terminal | |
WO2014126657A1 (en) | Latent semantic analysis for application in a question answer system | |
US20190228320A1 (en) | Method, system and terminal for normalizing entities in a knowledge base, and computer readable storage medium | |
CN110619050B (zh) | 意图识别方法及设备 | |
CN113761124B (zh) | 文本编码模型的训练方法、信息检索方法及设备 | |
CN116127348A (zh) | 文本标签生成、模型训练、文本分类方法及相关设备 | |
CN110874412B (zh) | 一种本体匹配方法、装置和计算机存储介质 | |
CN117874204A (zh) | 一种知识问答方法、系统、存储介质和计算机设备 | |
CN111611409A (zh) | 一种融入场景知识的事例分析方法及相关设备 | |
CN112685574B (zh) | 领域术语层次关系的确定方法、装置 | |
CN110019810B (zh) | 一种本体匹配方法、装置和计算机存储介质 | |
CN113297854A (zh) | 文本到知识图谱实体的映射方法、装置、设备及存储介质 | |
CN111428144A (zh) | 基于dcn与lda结合的推荐方法、装置和计算机设备 | |
CN110968668A (zh) | 一种基于超网络的网络舆情主题相似度计算方法及装置 | |
CN111460169A (zh) | 语义表达式生成方法、装置及设备 | |
CN117371440B (zh) | 基于aigc的话题文本大数据分析方法及系统 | |
CN118838995A (zh) | 基于研报知识库的研报问答方法、装置、设备和存储介质 | |
CN118035409A (zh) | 问答方法及装置、存储介质、计算设备 | |
CN116888590A (zh) | 实体热度生成方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |