CN106156082B

CN106156082B - 一种本体对齐方法及装置

Info

Publication number: CN106156082B
Application number: CN201510150011.2A
Authority: CN
Inventors: 刘康; 赵军; 王雪鹏; 张轶博
Original assignee: Huawei Technologies Co Ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Huawei Technologies Co Ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2019-09-20
Anticipated expiration: 2035-03-31
Also published as: CN106156082A

Abstract

本发明公开了一种本体对齐方法及装置，方法为，结合待对齐本体名称，待对齐本体的属性信息，待对齐本体的类别标签，分别计算待对齐本体与每一个候选本体之间的相似度；根据计算得到的相似度，获取每一个查找到的候选本体的综合评分；从所有综合评分中选取综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体；将待对齐本体与选取的候选本体进行对齐。采用本发明技术方案，在对本体进行对齐的过程中，除考虑本体名称之外，还综合考虑本体的属性信息和类别标签，避免了仅根据本体名称进行本体对齐所造成的对齐结果不准确的问题，保证了本体对齐的准确性，降低了本体对齐的错误率。

Description

一种本体对齐方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种本体对齐方法及装置。

背景技术

本体(ontology)是共享概念模型的明确的形式化规范说明，每一个本体均是实际存在的唯一的个体；本体在语义Web，知识数据工程，电子商务等领域中均有广泛应用。

由于不同背景的知识工程师构造和维护相似或相同域的本体，使得不同数据库之间存在内容异构；该内容异构包括：同一个本体的名称及所描述的内容存在差异，如在数据库A中，本体a的名称为m1，且本体a的描述包含三个属性，而在数据库B中，本体a的名称为m2，且本体a的描述包含五个属性；或者，同一个本体名称，可能对应多个本体，如“井冈山”，该名称可以表示一个地名，可以表示一个人名，因此，名称井冈山对应不同的本体。为了实现不同数据库之间知识的共享、重用和互操作，通常将对不同数据库之间的同一个本体进行对齐，即将同一个本体所描述的内容进行合并。

目前，通常根据本体名称，对不同数据库中的本体进行对齐。具体为：在本地建立同义词表，该同义词表中包含的表征同一个本体的名称及其描述信息，该同义词表通过对本体名称进行消歧处理获得；获取待对齐本体的名称，并在上述同义词表中查找该待对齐本体的名称，当该同义词表中包含该待对齐本体的名称时，获取数据库中上述待对齐本体的名称对应的本体，并将获取的该本体与上述待对齐本体进行对齐。采用该技术方案对不同数据库中的本体进行对齐时，对齐结果是否正确，取决于由消歧处理获取的同义词表，即当该同义词表中存在错误时，对齐结果将可能存在错误；此外，上述技术方案，不能处理拥有相同名称，却不表征同一个本体的情况。

由此可见，目前在对不同数据库本体进行本体对齐时，存在对齐结果不准确的问题。

发明内容

本发明实施例提供一种本体对齐方法及装置，用以解决目前在对不同数据库本体进行本体对齐时，存在对齐结果不准确的问题。

本发明实施例提供的具体技术方案如下：

第一方面，提供一种本体对齐方法，包括：从待对齐本体集合中选取任意一待对齐本体；其中，所述任意一待对齐本体包括所述待对齐本体名称，所述任意一待对齐本体所属类别标签，以及所述任意一待对齐本体的属性信息，所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；在已对齐本体集合中查找与所述任意一待对齐本体名称相同的候选本体；其中，所述候选本体包括所述候选本体名称，所述候选本体所属类别标签，以及所述候选本体的属性信息所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；根据所述任意一待对齐本体所属类别标签，所述任意一待对齐本体的属性信息，以及每一个查找到的候选本体所属类别标签，所述每一个查找到的候选本体的属性信息，分别计算任意一待对齐本体与所述每一个查找到的候选本体之间的相似度；根据计算得到的相似度，获取每一个查找到的候选本体的综合评分；从查找到的候选本体中选择综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体；将所述任意一待对齐本体与选择的所述候选本体进行对齐。

结合第一方面，在第一种可能的实现方式中，当已对齐本体集合中不包含与所述任意一待对齐本体名称相同的候选本体时，在所述已对齐本体集合中建立新的本体项目，并将所述任意一待对齐本体存储至新建立的本体项目中。

结合第一方面，或者第一方面第一种可能的实现方式，在第二种可能的实现方式中，所述属性信息包含本体的属性名及所述属性名对应的属性值；对于任意一查找到的候选本体，执行如下操作：根据所述任意一待对齐本体的属性名和所述属性名对应的属性值，以及所述任意一查找到的候选本体的属性名及其对应的属性值，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度；根据所述任意一待对齐本体所属类别标签，以及所述任意一查找到的候选本体所属类别标签，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

结合第一方面第二种可能的实现方式，在第三种可能的实现方式中，分别对所述任意一待对齐本体的每一个属性名和所述任意一查找到的候选本体的每一个属性名进行匹配，获取至少一个匹配成功的属性名匹配对；对于获取的任意一属性名匹配对，执行如下操作：根据所述任意一属性名配对中第一个属性名对应的属性值与第二个属性名对应的属性值之间的编辑距离，计算所述第一个属性名对应的属性值与所述第二个属性名对应的属性值之间的相似度；当所述第一个属性名对应的属性值与第二个属性名对应的属性值之间的相似度大于预设属性值相似度阈值时，将所述任意一属性名匹配对添加至预设的属性信息配对集合中；将所述属性信息配对集合中包含的所有属性名配对分别对应的相似度进行累加，将获取的累加值确定为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度。

结合第一方面第二种可能的实现方式，在第四种可能的实现方式中，对于任意一待对齐本体所属所有类别标签中的任意一类别标签，执行如下操作：从所述任意一查找到的候选本体所属所有类别标签中，选取与所述任意一类别标签相关性最大的候选类别标签；采用随机游走算法，分别获取所述任意一类别标签与每一个所述候选类别标签之间的相关度；根据获取的所述任意一待对齐本体所属每一个类别标签与所述任意一查找到的候选本体的每一个候选类别标签之间的相似度，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

结合第一方面第二种可能的实现方式至第四种可能的实现方式中的任意一种，在第五种可能的实现方式中，所述本体集合还包括非结构化文本关键词；其中，所述非结构化文本关键词包含一个或多个词向量；对于任意一查找到的候选本体，执行如下操作：根据所述任意一待对齐本体的非结构化文本关键词，以及所述任意一查找到的候选本体的非结构化文本关键词，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

结合第一方面第五种可能的实现方式，在第六种可能的实现方式中，分别获取所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，生成所述任意一待对齐本体的词向量；分别获取所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，生成所述任意一查找到的候选本体的词向量；计算所述任意一待对齐本体的词向量和所述任意一查找到的候选本体的词向量之间的余弦夹角值，并将计算得到的余弦夹角值确定为所述任意一待对齐本体和所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

结合第一方面第五种可能的实现方式或者第六种可能的实现方式，在第七种可能的实现方式中，针对任意一查找到的候选本体，执行如下操作：为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分；或者，为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分。

结合第一方面第一种可能的实现方式至第七种可能的实现方式中的任意一种，在第八种可能的实现方式中，当所述所有查找到的候选本体中不包含综合评分大于预设阈值的候选本体时，在所述已对齐本体集合中建立新的本体项目，并将所述任意一待对齐本体存储至新建立的本体项目中。

第二方面，提供一种本体对齐装置，包括：选取单元，用于从待对齐本体集合中选取任意一待对齐本体；其中，所述任意一待对齐本体包括所述待对齐本体名称，所述任意一待对齐本体所属类别标签，以及所述任意一待对齐本体的属性信息，所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；查找单元，用于在已对齐本体集合中查找与所述选取单元选取的任意一待对齐本体名称相同的候选本体；其中，所述候选本体包括所述候选本体名称，所述候选本体所属类别标签，以及所述候选本体的属性信息所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；计算单元，用于根据所述任意一待对齐本体所属类别标签，所述任意一待对齐本体的属性信息，以及所述查找单元查找到的候选本体所属类别标签，每一个查找到的候选本体的属性信息，分别计算任意一待对齐本体与所述每一个查找到的候选本体之间的相似度；综合评分获取单元，用于根据所述计算单元计算得到的相似度，获取每一个查找到的候选本体的综合评分；选择单元，用于从查找到的候选本体中选择综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体；对齐单元，用于将所述任意一待对齐本体与所述选择单元选择的所述候选本体进行对齐。

结合第二方面，在第一种可能的实现方式中，还包括本体项目新建单元，用于：当已对齐本体集合中不包含与所述任意一待对齐本体名称相同的候选本体时，在所述已对齐本体集合中建立新的本体项目，并将所述任意一待对齐本体存储至新建立的本体项目中。

结合第二方面，或者第二方面第一种可能的实现方式，在第二种可能的实现方式中，所述属性信息包含本体的属性名及所述属性名对应的属性值；所述计算单元，具体用于：对于任意一查找到的候选本体，执行如下操作：根据所述任意一待对齐本体的属性名和所述属性名对应的属性值，以及所述任意一查找到的候选本体的属性名及其对应的属性值，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度；根据所述任意一待对齐本体所属类别标签，以及所述任意一查找到的候选本体所属类别标签，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

结合第二方面第二种可能的实现方式，在第三种可能的实现方式中，所述计算单元，具体用于：分别对所述任意一待对齐本体的每一个属性名和所述任意一查找到的候选本体的每一个属性名进行匹配，获取至少一个匹配成功的属性名匹配对；对于获取的任意一属性名匹配对，执行如下操作：根据所述任意一属性名配对中第一个属性名对应的属性值与第二个属性名对应的属性值之间的编辑距离，计算所述第一个属性名对应的属性值与所述第二个属性名对应的属性值之间的相似度；当所述第一个属性名对应的属性值与第二个属性名对应的属性值之间的相似度大于预设属性值相似度阈值时，将所述任意一属性名匹配对添加至预设的属性信息配对集合中；将所述属性信息配对集合中包含的所有属性名配对分别对应的相似度进行累加，将获取的累加值确定为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度。

结合第二方面第二种可能的实现方式，在第四种可能的实现方式中，所述计算单元，具体用于：对于任意一待对齐本体所属所有类别标签中的任意一类别标签，执行如下操作：从所述任意一查找到的候选本体所属所有类别标签中，选取与所述任意一类别标签相关性最大的候选类别标签；采用随机游走算法，分别获取所述任意一类别标签与每一个所述候选类别标签之间的相关度；根据获取的所述任意一待对齐本体所属每一个类别标签与所述任意一查找到的候选本体的每一个候选类别标签之间的相似度，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

结合第二方面第二种可能的实现方式至第四种可能的实现方式中的任意一种，在第五种可能的实现方式中，所述本体集合还包括非结构化文本关键词；其中，所述非结构化文本关键词包含一个或多个词向量；所述计算单元，还用于：对于任意一查找到的候选本体，执行如下操作：根据所述任意一待对齐本体的非结构化文本关键词，以及所述任意一查找到的候选本体的非结构化文本关键词，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

结合第二方面第五种可能的实现方式，在第六种可能的实现方式中，所述计算单元，具体用于：分别获取所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，生成所述任意一待对齐本体的词向量；分别获取所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，生成所述任意一查找到的候选本体的词向量；计算所述任意一待对齐本体的词向量和所述任意一查找到的候选本体的词向量之间的余弦夹角值，并将计算得到的余弦夹角值确定为所述任意一待对齐本体和所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

结合第二方面第五种可能的实现方式或者第六种可能的实现方式，在第七种可能的实现方式中，所述综合评分获取单元，具体用于：针对任意一查找到的候选本体，执行如下操作：为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分；或者，为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分。

结合第二方面第一种可能的实现方式至第七种可能的实现方式中的任意一种，在第八种可能的实现方式中，所述本体项目新建单元，用于：当所述所有查找到的候选本体中不包含综合评分大于预设阈值的候选本体时，在所述已对齐本体集合中建立新的本体项目，并将所述任意一待对齐本体存储至新建立的本体项目中。

本发明实施例中，结合待对齐本体名称，待对齐本体的属性信息，待对齐本体的类别标签，分别计算待对齐本体与每一个候选本体之间的相似度；根据计算得到的相似度，获取每一个查找到的候选本体的综合评分；从所有综合评分中选取综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体；将待对齐本体与选取的候选本体进行对齐。采用本发明技术方案，在对本体进行对齐的过程中，除考虑本体名称之外，还综合考虑本体的属性信息和类别标签，避免了仅根据本体名称进行本体对齐所造成的对齐结果不准确的问题，保证了本体对齐的准确性；并且，针对本体名称相同的两个不同的本体，还可以根据每一个本体的属性信息和类别标签，确定该两个本体为不同的本体，进而不对该两个本体进行对齐，降低了本体对齐的错误率。

附图说明

图1为本发明实施例中对本体进行对齐的流程图；

图2为本发明实施例中具体应用场景中对本体进行对齐的流程图；

图3为本发明实施例中应用本发明本体对齐方式的效果示意图；

图4为本发明实施例中本体对齐装置结构示意图；

图5为本发明实施例中本体对齐设备结构示意图。

具体实施方式

为了解决目前在对不同数据库本体进行本体对齐时，存在对齐结果不准确的问题。本发明实施例中，结合待对齐本体名称，待对齐本体的属性信息，待对齐本体的类别标签，分别计算待对齐本体与每一个候选本体之间的相似度；根据计算得到的相似度，获取每一个查找到的候选本体的综合评分；从所有综合评分中选取综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体；将待对齐本体与选取的候选本体进行对齐。采用本发明技术方案，在对本体进行对齐的过程中，除考虑本体名称之外，还综合考虑本体的属性信息和类别标签，避免了仅根据本体名称进行本体对齐所造成的对齐结果不准确的问题，保证了本体对齐的准确性；并且，针对本体名称相同的两个不同的本体，还可以根据每一个本体的属性信息和类别标签，确定该两个本体为不同的本体，进而不对该两个本体进行对齐，降低了本体对齐的错误率。

本发明实施例中，可以由任意一具备数据处理能力的终端执行本体对齐操作，如该终端为服务器，或者，该终端为计算机等。

下面结合说明书附图，对本发明实施例作进一步详细描述。

参阅图1所示，本发明实施例中，在对本体进行对齐的方法，包括：

步骤100：从待对齐本体集合中选取任意一待对齐本体；其中，任意一待对齐本体包含该任意一待对齐本体名称，任意一待对齐本体所属类别标签，任意一待对齐本体的属性信息，且该类别标签由自然语言描述，该属性信息由枚举类型或者自然语言描述。

本发明实施例中，待对齐本体集合为未进行对齐的所有本体的集合，终端从待对齐本体集合中选取任意一待对齐本体(以下简称待对齐本体)，待对齐本体至少包含待对齐本体名称，待对齐本体所属类别标签，待对齐本体的属性信息；待对齐本体的属性信息包括属性名、以及属性名对应的属性值。

可选的，上述待对齐本体还包含非结构化文本关键词，其中，非结构化文本即为描述本体特征的内容，由一个或多个关键词组成；例如，待对齐本体名称为平顶山，待对齐本体所属类别标签为地理名词，待对齐本体的属性名为“地理位置，占地面积，人口总数”等，则地理位置对应的属性值为河南省中南部，占地面积对应的属性值为7882平方千米，人口总数对应的属性值为502万，待对齐本体的非结构化文本为“平顶山市位于温暖带和亚热带气候交错的边缘地区，具有明显的过渡性特征，四季分明，气候温和，雨水充沛，有沙河、汝河等三十一条河流。境内丛林叠嶂，山峦起伏”，待对齐本体的非结构化文本关键词即由上述非结构化文本中提取得到。

进一步的，待对齐本体还可以包含待对齐本体的标识。该待对齐本体可以表示为NE＝{TL，ID，C，TP，S}；其中，TL表示待对齐本体名称，ID表示待对齐本体的标识；C表示待对齐本体所属类别标签，该C可以为一个集合，如C＝{c1，c2，…，cn}，即一个本体可以对应于多个类别标签；TP表示待对齐本体的属性信息，该TP为一个集合，可以表示为TP＝{p，o}，p表示属性名，o表示属性值，此外，上述TP还可以包括本体名称，用s表示；S表示待对齐本体的非结构化文本关键词，该S为一个集合，可以表示为S＝{w1，w2，…，wn}，wi即为一个关键词。

进一步的，已对齐本体集合为已经对齐完毕的所有候选本体的集合；且每一个候选本体同样至少包含候选本体名称，候选本体所属类别标签，候选本体的属性信息，其中，候选本体的属性信息包括属性名、以及属性名对应的属性值；并且，在已对齐本体集合中，候选本体的标识为唯一的，即每两个候选本体的标识均不相同。

可选的，上述候选本体还包含非结构化文本关键词和候选本体标识；该候选本体可以表示为EC＝{TL’，ID’，C’，TP’，S’}；其中，TL’表示候选本体名称，ID’表示候选本体的标识；C’表示候选本体所属类别标签，该C’可以为一个集合，如C’＝{c1’，c2’，…，cn’}，即一个本体可以对应于多个类别标签；TP’表示候选本体的属性信息，该TP’为一个集合，可以表示为TP＝{p’，o’}，p’表示属性名，o’表示属性值，此外，上述TP’还可以包括本体名称，用s’表示；S’表示候选本体的非结构化文本关键词，该S’为一个集合，可以表示为S’＝{w1’，w2’，…，wn’}，wi’即为一个关键词。

步骤110：在已对齐本体集合中查找与待对齐本体名称相同的候选本体。

本发明实施例中，终端可以根据已对齐本体集合中每一个候选本体的名称对候选本体进行分类，即将名称相同的候选本体划分为一个分类，每一个分类中包含的候选本体通过标识进行区分。例如，已对齐本体集合中包含六个候选本体，根据名称对已对齐本体集合中包含的候选本体进行分类后，生成的分类为：{分类1(名称1)：标识1，标识3}，{分类2(名称2)：标识2，标识6}，{分类3(名称3)：标识4，标识5}。

可选的，终端还可以将待对齐本体与每一个查找到的候选本体组成本体匹配对，以便于后续终端计算每一个本体匹配对中包含的待对齐本体和查找到的候选本体之间的相似度。

采用上述技术方案，根据候选本体的名称，将候选本体进行分类，使终端获取与待对齐本体名称相同的候选本体的过程更加便捷，提高了获取符合条件的候选本体的效率。

进一步的，终端获取待对齐本体名称，并在已对齐本体集合中查找该待对齐本体名称，若已对齐本体集合中存在该待对齐本体名称，则获取与待对齐本体名称相同的标识，并在已对齐本体集合中查找与获取的标识相对应的候选本体；若已对齐本体集合中不包含与待对齐本体名称相同的候选本体，则在终端本地建立新的本体项目，并将待对齐本体存储至新建立的本体项目中，并为待对齐本体分配相应的标识。例如，待对齐本体名称为名称2，在已对齐本体集合中进行查找操作之后，确定名称2对应的标识为标识2和标识6，则获取标识2对应的候选本体和标识6对应的候选本体；又如，待对齐本体名称为名称7，在已对齐本体集合中进程查找操作之后，确定已对齐本体集合中不包含名称7，则在终端本体建立新的本体项目，并将待对齐本体存储至新建立的本体项目中，并将该待对齐本体的标识设置为标识7。

步骤120：根据任意一待对齐本体所属类别标签，任意一待对齐本体的属性信息，以及每一个查找到的候选本体所属类别标签，每一个查找到的候选本体的属性信息，分别计算待对齐本体与每一个查找到的候选本体之间的相似度。

本发明实施例中，终端在已对齐本体集合中查找到与待对齐本体名称相同的候选本体之后，综合考虑待对齐本体所属类别标签和属性信息，以及每一个查找到的候选本体所属类别标签和属性信息，计算待对齐本体与每一个查找到的候选本体之间的相似度。

具体的，终端对于任意一查找到的候选本体(以下简称候选本体A)，执行如下操作：根据待对齐本体的属性名和属性名对应的属性值，以及该候选本体A的属性名及其对应的属性值，计算待对齐本体与该候选本体A之间属性信息的相似度；根据待对齐本体所属类别标签，以及上述候选本体A所属类别标签，计算待对齐本体与该候选本体A之间所属类别标签的相似度。

基于上述技术方案，终端需要获取待对齐本体与该候选本体A之间属性信息的相似度，待对齐本体与该候选本体A之间所属类别标签的相似度。其中：

可选的，计算待对齐本体与上述候选本体A之间属性信息的相似度的方法，具体包括：分别对待对齐本体的每一个属性名和上述候选本体A的每一个属性名进行匹配，获取至少一个匹配成功的属性名匹配对；对于获取的任意一属性名匹配对，执行如下操作：根据上述任意一属性名配对中第一个属性名对应的属性值与第二个属性名对应的属性值之间的编辑距离，计算第一个属性名对应的属性值与第二个属性名对应的属性值之间的相似度，该编辑距离即为两个字符串之间，由一个字符串转换为另一个字符串所需要的编辑次数；当第一个属性名对应的属性值与第二个属性名对应的属性值之间的相似度大于预设属性值相似度阈值时，将上述任意一属性名匹配对添加至预设的属性信息配对集合中，其中，该属性值相似度阈值根据具体应用场景预先设置获得；采用上述方式将符合条件的所有属性名匹配对添加至属性信息配对集合中，并将属性信息配对集合中包含的所有属性名配对分别对应的相似度进行累加，将获取的累加值确定为待对齐本体与上述候选本体A之间属性信息的相似度。

在终端获取待对齐本体与上述候选本体A之间属性信息的相似度的过程中，可选的，终端分别获取待对齐本体的每一个属性名，以及候选本体A的每一个属性名，当存在待对齐本体的任一属性名p和候选本体A的任一属性名p’相同时，确定该待对齐本体的任一属性名p和候选本体A的任一属性名p’为匹配成功的属性名匹配对；例如，待对齐本体的属性名p为人口数量，候选本体A也存在属性名为人口数量的属性名p’，则将属性名p和属性名p’作为匹配成功的属性名匹配对。或者，终端分别获取待对齐本体的每一个属性名所映射的属性，以及候选本体A的每一个属性名所映射的属性，当存在待对齐本体的任一属性名p和候选本体A的任一属性名p’映射至同一个属性时，确定该待对齐本体的任一属性名p和候选本体A的任一属性名p’为匹配成功的属性名匹配对，其中，属性名和属性之间的映射关系可以根据学习或者预先设置获得；例如，待对齐本体的属性名p为工作，该属性名p映射至属性P1，候选本体A存在属性名为职业的p’，该属性名p’映射至属性P1，则将属性名p和属性名p’作为匹配成功的属性名匹配对。

在上述过程中，根据属性值的不同，终端计算第一个属性名对应的属性值与第二个属性名对应的属性值之间的相似度的方法不同，具体的包含以下几种情况：

第一种情况：当第一个属性名对应一个属性值，且第二个属性名也对应一个属性值，且属性值均为字符型数据时，终端可以直接比较第一个属性对应的属性值和第二个属性对应的属性值是否相同，根据比较结果，获取属性名匹配对对应的相似度；例如，属性名为性别，当第一个属性名对应的属性值为男，第二个属性名对应的属性值为女时，该属性名匹配对对应的相似度为0；又如，属性名为性别，当第一个属性名对应的属性值为男，第二个属性名对应的属性值为男时，该属性名匹配对对应的相似度为1。

第二种情况：当第一个属性名对应一个属性值，且第二个属性名也对应一个属性值，且属性值均为数值型数据时，终端可以直接比较第一个属性对应的属性值和第二个属性对应的属性值之间的差距，根据比较结果，获取属性名匹配对对应的相似度；例如，属性名为年龄，当第一个属性名对应的属性值为35，第二个属性名对应的属性值为36时，终端可以计算两个属性名之差与两个属性名之和的比值，将该比值作为该属性名匹配对对应的相似度。

第三种情况：当第一个属性名和第二个属性名中存在任意一属性名对应至少两个属性值，且该属性值为字符型数据时，终端可以确定第一个属性名和第二个属性名对应的相同的属性值，并根据确定的属性值，获取属性名匹配对对应的相似度；例如，本体名称为曹操，属性名为职业，第一个属性名对应的职业为军事家、政治家、文学家、书法家，第二个属性名对应的职业为军事家、政治家、军事家、文学家、魏王，终端判断第一个属性名对应的属性值和第二个属性名对应的属性值之间拥有相同属性值的数目为3，第一个属性名和第二个属性名对应的属性值总数目为5，则可以将相同属性值的数目和属性值总数目之间的比值，作为属性名匹配对对应的相似度，即相似度＝3/5。

第四种情况：当第一个属性名和第二个属性名中存在任意一属性名对应至少两个属性值，且该属性值为数值型数据时，终端可以确定第一个属性名对应的所有属性值中的最大值(以下简称第一最大值)和最小值(以下简称第一最小值)，并确定第一个属性名对应的所有属性值中的最大值(以下简称第二最大值)和最小值(以下简称第二最小值)，对上述第一最大值、第二最大值、第一最小值和第二最小值进行运算，获取属性名匹配对对应的相似度。例如，终端可以将第一最大值和第二最大值之差，与第一最小值和第二最小值之差之间的比值，作为属性名匹配对对应的相似度，即属性名＝(第一最大值-第二最大值)/(第一最小值-第二最小值)；除此之外，终端还可以采用其他运算方式计算属性名匹配对对应的相似度，在此不再赘述。

在终端获取待对齐本体与上述候选本体A之间属性信息的相似度的过程中，可选的，终端采用如下公式，计算待对齐本体与上述候选本体A之间属性信息的相似度：

公式一

其中，TP1表示待对齐本体的属性信息；TP1’表示候选本体A的属性信息；SIM(TP1，TP1’)表示待对齐本体与候选本体A之间属性信息的相似度；pair表示属性信息配对集合；tps_k表示任意一属性名匹配且相似度大于预设阈值的属性对，如(p，p’)；sim(tps_k)表示任意一属性名匹配且相似度大于预设阈值的属性对对应的相似度。

可选的，计算待对齐本体与候选本体A之间所属类别标签的相似度的方法，具体包括：对于待对齐本体所属所有类别标签中的任意一类别标签(以下简称类别标签c1)，执行如下操作：从候选本体A所属所有类别标签中，选取与类别标签c1相关性最大的候选类别标签(如c1’)；采用随机游走算法，分别获取类别标签c1与每一个候选类别标签之间的相关度；采用上述方式，获取待对齐本体所属每一个类别标签与候选本体A的每一个候选类别标签之间的相似度；根据获取的待对齐本体所属每一个类别标签与候选本体A的每一个候选类别标签之间的相似度，计算待对齐本体与候选本体A之间所属类别标签的相似度。

可选的，终端可以采用如下公式计算待对齐本体与候选本体A之间所属类别标签的相似度：

公式二

其中，C为待对齐本体所属类别标签向量，根据待对齐本体所属类别标签集合生成，如该C＝(c1，c2，…，cn)；C’表示候选本体A所属类别标签向量，根据候选本体A所属类别标签集合生成，如该C’＝(c1’，c2’，…，cn’)；SIM(C，C’)表示待对齐本体与候选本体A之间所属类别标签的相似度；SR(C→C')表示类别标签向量C到类别标签向量C’的相似度；SR(C'→C)表示类别标签向量C’到类别标签向量C的相似度。

在上述公式二中，终端可以通过如下公式计算SR(C→C')：

公式三

其中，c_i表示待对齐本体所属类别标签向量C中的任意一类别标签；||C||表示对待对齐本体所属类别标签向量C进行泛数运算；w(c_i，C)表示类别标签c_i在类别标签向量C中的权重，该权重可以由学习过程获得，也可以根据具体应用场景预先设置获得；Align(c_i,C')表示在候选本体A所属类别标签向量C’包含的所有类别标签中，与类别标签c_i相关性最大的类别标签(以下用C”表示)；w[Align(c_i,C')，C’]表示类别标签C”在类别标签向量C中的权重，该权重可以由学习过程获得，也可以根据具体应用场景预先设置获得；sr[c_i,Align(c_i,C')]表示类别标签c_i和类别标签C”之间的相似度。

在上述过程中，Align(c_i,C')也可以采用随机游走算法获得；可选的，Align(c_i,C')可以采用如下公式获得：

公式四

其中，sr(c_i,c_k')表示类别标签c_i和c_k’类别标签之间的相似度。

可选的，该sr(c_i,c_k')可以通过随机游走算法获得。具体的，终端在本地建立共现矩阵M_norm，该共现矩阵M_norm中的每一个元素均表示归一化处理后的待对齐本体和候选本体A共同出现的次数；采用如下公式计算待对齐本体和候选本体A之间类别标签的相似度矩阵：

P_i＝(1-λ)M_norm·P_i-1+λP₀ 公式五

其中，P_i表示第i步随机游走得到的待对齐本体和候选本体A之间类别标签的相似度矩阵；M_norm为共现矩阵；P_i-1表示第i-1步随机游走得到的待对齐本体和候选本体A之间类别标签的相似度矩阵；P₀表示初始单位矩阵；λ为预设参数，λ取值范围为0～1。

终端基于上述待对齐本体和候选本体A之间类别标签的相似度矩阵P_i，直接从该矩阵P_i中查询第i行第k列的数值，该数值即为类别标签c_i和c_k’类别标签之间的相似度sr(c_i,c_k')。

进一步的，本体中还包括非结构化文本关键词，终端可以综合考虑该非结构化文本关键词，即终端根据待对齐本体的非结构化文本关键词，以及该候选本体A的非结构化文本关键词，计算待对齐本体与上述候选本体A之间非结构化文本关键词的相似度，具体包括：分别获取待对齐本体的非结构化文本中每一个关键词的出现次数，并根据获取的待对齐本体的非结构化文本中每一个关键词的出现次数，生成待对齐本体的词向量；分别获取候选本体A的非结构化文本中每一个关键词的出现次数，并根据获取的候选本体A的非结构化文本中每一个关键词的出现次数，生成候选本体A的词向量；计算待对齐本体的词向量和候选本体A的词向量之间的余弦夹角值，并将计算得到的余弦夹角值确定为待对齐本体和候选本体A之间非结构化文本关键词的相似度。

在终端获取待对齐本体与候选本体A之间非结构化文本关键词的相似度的过程中，可选的，终端采用TF-IDF(Term Frequency Inverse Document Frequency)方法提取待对齐本体的非结构化文本中的关键词，生成词向量S1；以及，终端采用TF-IDF方法提取候选本体A的非结构化文本中的关键词，生成词向量S1’；终端可以采用如下公式获取待对齐本体与候选本体A之间非结构化文本关键词的相似度：

SIM(S1,S1')＝cos(S1,S1') 公式六

其中，SIM(S1，S1’)表示词向量S1和词向量S1’之间的相似度；cos(S1，S1’)表示词向量S1和词向量S1’之间的余弦值。

步骤130：根据计算得到的相似度，获取每一个查找到的候选本体的综合评分。

针对候选本体A，执行如下操作：为待对齐本体与候选本体A之间属性信息的相似度，待对齐本体与候选本体A之间所属类别标签的相似度，分别设置相应的权重值；根据待对齐本体与候选本体A之间属性信息的相似度及其权重值，待对齐本体与候选本体A之间所属类别标签的相似度及其权重值，获取候选本体A的综合评分；或者，为待对齐本体与候选本体A之间属性信息的相似度，待对齐本体与候选本体A之间所属类别标签的相似度，以及待对齐本体与候选本体A之间非结构化文本关键词的相似度，分别设置相应的权重值；根据待对齐本体与候选本体A之间属性信息的相似度及其权重值，待对齐本体与候选本体A之间所属类别标签的相似度及其权重值，以及待对齐本体与候选本体A之间非结构化文本关键词的相似度及其权重值，获取候选本体A的综合评分。

可选的，终端可以通过以下公式七或者公式八获取候选本体A的综合评分：

SIM(NE,EC)＝w₁×SIM(TP1,TP1')+w₂×SIM(C1,C1') 公式七

SIM(NE,EC)＝w₁×SIM(TP1,TP1')+w₂×SIM(C1,C1')+w₃×SIM(S1,S1') 公式八

其中，NE表示待对齐本体；EC表示候选本体A的集合；SIM(NE，EC)表示候选本体A的综合评分；TP1为待对齐本体的属性信息；TP1’为候选本体A的属性信息；SIM(TP1，TP1’)表示待对齐本体与候选本体A之间属性信息的相似度；w₁表示属性信息相似度的权重，该权重可以由学习过程获得，也可以根据具体应用场景预先设置获得；C表示待对齐本体所属类别标签向量；C’表示候选本体A所属类别标签向量；SIM(C，C’)表示待对齐本体与候选本体A之间所属类别标签的相似度；w₂表示类别标签相似度的权重，该权重可以由学习过程获得，也可以根据具体应用场景预先设置获得；S1表示待对齐本体的词向量；S2表示候选本体A的词向量；SIM(S1，S1’)表示词向量S1和词向量S1’之间的相似度；w₃表示词向量相似度的权重，该权重可以由学习过程获得，也可以根据具体应用场景预先设置获得。

相较于仅根据本体的名称确定相似度的方法，采用上述技术方案，终端在利用候选本体名称对候选本体进行筛选之后，根据筛选后的候选本体的类别标签、属性信息、非结构化文本关键词多方面因素确定候选本体和待对齐本体的相似度，由于本体的属性信息、类别标签和非结构化文本关键词均能够反映本体的本质特性，因此，采用本发明技术方案能够有效提高本体相似度判定的准确性。

步骤140：从查找到的候选本体中选取综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体。

本发明实施例中，终端获取每一个候选本体的综合评分，并从查找到的候选本体中选取综合评分大于或等于预设综合评分阈值的候选本体；以及对选取的候选本体进行排序，获取该选取的候选本体中综合评分最高的候选本体。其中，该综合评分阈值为根据具体应用场景预先设置的值。

可选的，终端可以通过如下公式获取综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体：

公式九

其中，NE表示待对齐本体；EC’表示所有候选本体；Align(NE，EC)表示综合评分最高的候选本体；EC_p表示任意一综合评分大于或等于预设综合评分阈值的候选本体；SIM(NE，EC_p)表示候选本体EC_p的综合评分。

步骤150：将待对齐本体与选取的候选本体进行对齐。

本发明实施例中，终端将待对齐本体以及选取的候选本体进行对齐，如候选本体A的综合评分大于等于预设综合评分阈值，且候选本体A为综合评分最高的候选本体，此时，终端候选本体A作为对齐结果输出。或者，终端将候选本体A和待对齐本体中包含所有内容中不存在矛盾、且不重复部分的内容进行合并。

进一步的，当所有综合评分中不包含综合评分大于预设阈值的候选本体时，在终端本体建立新的本体项目，并将待对齐本体存储至新建立的本体项目中，并为待对齐本体分配相应的标识。

基于上述技术方案，参阅图2所示，下面结合具体应用场景，以待对齐本体为NE，已对齐本体集合中包含根据候选本体名称进行划分的多个分类，候选本体为NC_p为例，详细描述终端在对本体进行对齐的方法：

步骤201：终端获取待对齐本体集合中包含的任意一待对齐本体NE。

本发明实施例中，待对齐本体NE可以表示为：NE＝{TL，ID，C，TP，S}。

步骤202：终端判断已对齐本体集合的所有分类中是否包含待对齐NE的名称TL；若是，执行步骤203；否则，在已对齐本体集合中建立新的本体项目，并将待对齐本体存储至新建立的本体项目中，并为待对齐本体分配相应的标识。

本发明实施例中，已对齐本体集合中包含如下所示的分类：{分类1(名称1)：标识1，标识TL3}，{分类2(名称2)：标识2，标识6}，{分类3(名称3)：标识4，标识5}。

步骤203：终端获取对应于待对齐本体名称的所有候选本体标识。

步骤204：终端根据上述获取的所有候选本体标识，从已对齐本体集合中查找上述获取的每一个候选本体标识对应的候选本体。

步骤205：终端分别将每一个查找到的候选本体与待对齐本体NE组成候选对齐对。

本发明实施例中，终端对于任意一查找到的候选本体，将该任意一查找到的候选本体与待对齐本体组成候选对齐对，该候选本体对可以表示为Pair(EC_p，NE)。

步骤206：终端分别计算每一个候选本体对中包含的待对齐本体的与候选本体之间属性信息的相似度。

本发明实施例中，终端采用上述公式一计算每一个候选本体对中包含的待对齐本体的与候选本体之间属性信息的相似度。

步骤207：终端分别计算每一个候选本体对中包含的待对齐本体与候选本体之间所属类别标签的相似度。

本发明实施例中，终端采用上述公式二计算每一个候选本体对中包含的待对齐本体与候选本体之间所属类别标签的相似度。

步骤208：终端分别计算每一个候选本体对中包含的待对齐本体与候选本体之间非结构化文本关键词的相似度。

本发明实施例中，终端采用公式六计算每一个候选本体对中包含的待对齐本体与候选本体之间非结构化文本关键词的相似度。

可选的，上述步骤206至步骤208不分先后顺序，也可以同时执行上述三个步骤。

步骤209：终端根据计算得到的相似度，获取每一个查找到的候选本体的综合评分。

本发明实施例中，终端采用公式七或公式八获取每一个查找到的候选本体的综合评分。

步骤210：终端判断所有查找到的候选本体中是否存在综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体，若存在，执行步骤211；否则，在终端本地建立新的本体项目，并将待对齐本体NE存储至新建立的本体项目中，并为待对齐本体分配相应的标识。

本发明实施例中，终端采用公式九获取综合评分最高的候选本体。

步骤211：终端将待对齐本体NE与选取的候选本体进行对齐，将选取的候选本体作为对齐结果输出；或者终端将候选本体与待对齐本体NE中不存在矛盾且不存在重复部分的内容进行合并。

参阅图3所示，为采用本发明技术方案，相对于仅采用属性信息、类别标签、属性信息与类别标签、以及非结构化文本关键词的效果示意图，其中，横轴表示查全率，纵轴表示准确率。由图3可知，采用本发明技术方案，综合考虑本体的多种特性，保证了本体对齐的准确性；并且，针对本体名称相同的两个不同的本体，还可以根据每一个本体的属性信息、类别标签和非结构化文本关键词，确定该两个本体为不同的本体，进而不对该两个本体进行对齐，降低了本体对齐的错误率。

基于上述技术方案，参阅图4所示，本发明实施例还提供一种本体对齐装置，包括选取单元40，查找单元41，计算单元42，综合评分获取单元43，选择单元44，以及对齐单元45，其中：

选取单元40，用于从待对齐本体集合中选取任意一待对齐本体；其中，所述任意一待对齐本体包括所述待对齐本体名称，所述任意一待对齐本体所属类别标签，以及所述任意一待对齐本体的属性信息，所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；

查找单元41，用于在已对齐本体集合中查找与所述选取单元40选取的任意一待对齐本体名称相同的候选本体；其中，所述候选本体包括所述候选本体名称，所述候选本体所属类别标签，以及所述候选本体的属性信息所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；

计算单元42，用于根据所述任意一待对齐本体所属类别标签，所述任意一待对齐本体的属性信息，以及所述查找单元41查找到的候选本体所属类别标签，每一个查找到的候选本体的属性信息，分别计算任意一待对齐本体与所述每一个查找到的候选本体之间的相似度；

综合评分获取单元43，用于根据所述计算单元42计算得到的相似度，获取每一个查找到的候选本体的综合评分；

选择单元44，用于从查找到的候选本体中选择综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体；

对齐单元45，用于将所述任意一待对齐本体与所述选择单元44选择的所述候选本体进行对齐。

进一步的，上述装置还包括本体项目新建单元46，用于：当已对齐本体集合中不包含与所述任意一待对齐本体名称相同的候选本体时，在所述已对齐本体集合中建立新的本体项目，并将所述任意一待对齐本体存储至新建立的本体项目中。

可选的，所述属性信息包含本体的属性名及所述属性名对应的属性值；所述计算单元42，具体用于：对于任意一查找到的候选本体，执行如下操作：根据所述任意一待对齐本体的属性名和所述属性名对应的属性值，以及所述任意一查找到的候选本体的属性名及其对应的属性值，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度；根据所述任意一待对齐本体所属类别标签，以及所述任意一查找到的候选本体所属类别标签，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

可选的，所述计算单元42，具体用于：分别对所述任意一待对齐本体的每一个属性名和所述任意一查找到的候选本体的每一个属性名进行匹配，获取至少一个匹配成功的属性名匹配对；对于获取的任意一属性名匹配对，执行如下操作：根据所述任意一属性名配对中第一个属性名对应的属性值与第二个属性名对应的属性值之间的编辑距离，计算所述第一个属性名对应的属性值与所述第二个属性名对应的属性值之间的相似度；当所述第一个属性名对应的属性值与第二个属性名对应的属性值之间的相似度大于预设属性值相似度阈值时，将所述任意一属性名匹配对添加至预设的属性信息配对集合中；将所述属性信息配对集合中包含的所有属性名配对分别对应的相似度进行累加，将获取的累加值确定为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度。

可选的，所述计算单元42，具体用于：对于任意一待对齐本体所属所有类别标签中的任意一类别标签，执行如下操作：从所述任意一查找到的候选本体所属所有类别标签中，选取与所述任意一类别标签相关性最大的候选类别标签；采用随机游走算法，分别获取所述任意一类别标签与每一个所述候选类别标签之间的相关度；根据获取的所述任意一待对齐本体所属每一个类别标签与所述任意一查找到的候选本体的每一个候选类别标签之间的相似度，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

进一步的，所述本体集合还包括非结构化文本关键词；其中，所述非结构化文本关键词包含一个或多个词向量；所述计算单元42，还用于：对于任意一查找到的候选本体，执行如下操作：根据所述任意一待对齐本体的非结构化文本关键词，以及所述任意一查找到的候选本体的非结构化文本关键词，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

可选的，所述计算单元42，具体用于：分别获取所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，生成所述任意一待对齐本体的词向量；分别获取所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，生成所述任意一查找到的候选本体的词向量；计算所述任意一待对齐本体的词向量和所述任意一查找到的候选本体的词向量之间的余弦夹角值，并将计算得到的余弦夹角值确定为所述任意一待对齐本体和所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

可选的，所述综合评分获取单元43，具体用于：针对任意一查找到的候选本体，执行如下操作：为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分；或者，为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分。

可选的，所述本体项目新建单元46，用于：当所述所有查找到的候选本体中不包含综合评分大于预设阈值的候选本体时，在所述已对齐本体集合中建立新的本体项目，并将所述任意一待对齐本体存储至新建立的本体项目中。

基于上述技术方案，参阅图5所示，本发明实施例还提供一种本体对齐设备，包括存储器50，以及处理器51，其中：

所述存储器50，用于存储应用程序；

所述处理器51，用于运行所述存储器50中存储的应用程序，执行如下操作：

从待对齐本体集合中选取任意一待对齐本体；其中，所述任意一待对齐本体包括所述待对齐本体名称，所述任意一待对齐本体所属类别标签，以及所述任意一待对齐本体的属性信息，所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；在已对齐本体集合中查找与所述选取单元选取的任意一待对齐本体名称相同的候选本体；其中，所述候选本体包括所述候选本体名称，所述候选本体所属类别标签，以及所述候选本体的属性信息所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；根据所述任意一待对齐本体所属类别标签，所述任意一待对齐本体的属性信息，以及所述查找单元查找到的候选本体所属类别标签，每一个查找到的候选本体的属性信息，分别计算任意一待对齐本体与所述每一个查找到的候选本体之间的相似度；根据所述计算单元计算得到的相似度，获取每一个查找到的候选本体的综合评分；从查找到的候选本体中选择综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体；将所述任意一待对齐本体与所述选择单元选择的所述候选本体进行对齐。

进一步的，所述处理器51，还用于：当已对齐本体集合中不包含与所述任意一待对齐本体名称相同的候选本体时，在所述已对齐本体集合中建立新的本体项目，并通知存储器50将所述任意一待对齐本体存储至新建立的本体项目中。

可选的，所述属性信息包含本体的属性名及所述属性名对应的属性值；所述处理器51，具体用于：对于任意一查找到的候选本体，执行如下操作：根据所述任意一待对齐本体的属性名和所述属性名对应的属性值，以及所述任意一查找到的候选本体的属性名及其对应的属性值，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度；根据所述任意一待对齐本体所属类别标签，以及所述任意一查找到的候选本体所属类别标签，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

可选的，所述处理器51，具体用于：分别对所述任意一待对齐本体的每一个属性名和所述任意一查找到的候选本体的每一个属性名进行匹配，获取至少一个匹配成功的属性名匹配对；对于获取的任意一属性名匹配对，执行如下操作：根据所述任意一属性名配对中第一个属性名对应的属性值与第二个属性名对应的属性值之间的编辑距离，计算所述第一个属性名对应的属性值与所述第二个属性名对应的属性值之间的相似度；当所述第一个属性名对应的属性值与第二个属性名对应的属性值之间的相似度大于预设属性值相似度阈值时，将所述任意一属性名匹配对添加至预设的属性信息配对集合中；将所述属性信息配对集合中包含的所有属性名配对分别对应的相似度进行累加，将获取的累加值确定为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度。

可选的，所述处理器51，具体用于：对于任意一待对齐本体所属所有类别标签中的任意一类别标签，执行如下操作：从所述任意一查找到的候选本体所属所有类别标签中，选取与所述任意一类别标签相关性最大的候选类别标签；采用随机游走算法，分别获取所述任意一类别标签与每一个所述候选类别标签之间的相关度；根据获取的所述任意一待对齐本体所属每一个类别标签与所述任意一查找到的候选本体的每一个候选类别标签之间的相似度，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

可选的，所述本体集合还包括非结构化文本关键词；其中，所述非结构化文本关键词包含一个或多个词向量；所述处理器51，还用于：对于任意一查找到的候选本体，执行如下操作：根据所述任意一待对齐本体的非结构化文本关键词，以及所述任意一查找到的候选本体的非结构化文本关键词，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

可选的，所述处理器51，具体用于：分别获取所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，生成所述任意一待对齐本体的词向量；分别获取所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，生成所述任意一查找到的候选本体的词向量；计算所述任意一待对齐本体的词向量和所述任意一查找到的候选本体的词向量之间的余弦夹角值，并将计算得到的余弦夹角值确定为所述任意一待对齐本体和所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

可选的，所述处理器51，具体用于：针对任意一查找到的候选本体，执行如下操作：为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分；或者，为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分。

可选的，所述处理器51，还用于：当所述所有查找到的候选本体中不包含综合评分大于预设阈值的候选本体时，在所述已对齐本体集合中建立新的本体项目，并通知所述存储器50将所述任意一待对齐本体存储至新建立的本体项目中。

综上所述，本发明实施例中，从待对齐本体集合中选取任意一待对齐本体；其中，任意一待对齐本体包含该任意一待对齐本体名称，任意一待对齐本体所属类别标签，任意一待对齐本体的属性信息，且该类别标签由自然语言描述，该属性信息由枚举类型或者自然语言描述；在已对齐本体集合中查找与待对齐本体名称相同的候选本体；根据任意一待对齐本体所属类别标签，任意一待对齐本体的属性信息，以及每一个查找到的候选本体所属类别标签，每一个查找到的候选本体的属性信息，分别计算待对齐本体与每一个查找到的候选本体之间的相似度；根据计算得到的相似度，获取每一个查找到的候选本体的综合评分；从查找到的候选本体中选取综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体；将待对齐本体与选取的候选本体进行对齐。采用本发明技术方案，在对本体进行对齐的过程中，除考虑本体名称之外，还综合考虑本体的属性信息和类别标签，避免了仅根据本体名称进行本体对齐所造成的对齐结果不准确的问题，保证了本体对齐的准确性；并且，针对本体名称相同的两个不同的本体，还可以根据每一个本体的属性信息和类别标签，确定该两个本体为不同的本体，进而不对该两个本体进行对齐，降低了本体对齐的错误率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种本体对齐方法，其特征在于，包括：

从待对齐本体集合中选取任意一待对齐本体；其中，所述任意一待对齐本体包括所述待对齐本体名称，所述任意一待对齐本体所属类别标签，以及所述任意一待对齐本体的属性信息，所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；

在已对齐本体集合中查找与所述任意一待对齐本体名称相同的候选本体；其中，所述候选本体包括所述候选本体名称，所述候选本体所属类别标签，以及所述候选本体的属性信息所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；

根据所述任意一待对齐本体所属类别标签，所述任意一待对齐本体的属性信息，以及每一个查找到的候选本体所属类别标签，所述每一个查找到的候选本体的属性信息，分别计算任意一待对齐本体与所述每一个查找到的候选本体之间的相似度；

根据计算得到的相似度，获取每一个查找到的候选本体的综合评分；

从查找到的候选本体中选择综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体；

将所述任意一待对齐本体与选择的所述候选本体进行对齐。

2.如权利要求1所述的方法，其特征在于，还包括：

当已对齐本体集合中不包含与所述任意一待对齐本体名称相同的候选本体时，在所述已对齐本体集合中建立新的本体项目，并将所述任意一待对齐本体存储至新建立的本体项目中。

3.如权利要求1所述的方法，其特征在于，所述属性信息包含本体的属性名及所述属性名对应的属性值；

分别计算任意一待对齐本体与所述每一个查找到的候选本体之间的相似度，具体包括：

对于任意一查找到的候选本体，执行如下操作：

根据所述任意一待对齐本体的属性名和所述属性名对应的属性值，以及所述任意一查找到的候选本体的属性名及其对应的属性值，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度；

根据所述任意一待对齐本体所属类别标签，以及所述任意一查找到的候选本体所属类别标签，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

4.如权利要求3所述的方法，其特征在于，根据所述任意一待对齐本体的属性名和所述属性名对应的属性值，以及所述任意一查找到的候选本体的属性名及其对应的属性值，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，具体包括：

分别对所述任意一待对齐本体的每一个属性名和所述任意一查找到的候选本体的每一个属性名进行匹配，获取至少一个匹配成功的属性名匹配对；

对于获取的任意一属性名匹配对，执行如下操作：根据所述任意一属性名配对中第一个属性名对应的属性值与第二个属性名对应的属性值之间的编辑距离，计算所述第一个属性名对应的属性值与所述第二个属性名对应的属性值之间的相似度；当所述第一个属性名对应的属性值与第二个属性名对应的属性值之间的相似度大于预设属性值相似度阈值时，将所述任意一属性名匹配对添加至预设的属性信息配对集合中；

将所述属性信息配对集合中包含的所有属性名配对分别对应的相似度进行累加，将获取的累加值确定为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度。

5.如权利要求3所述的方法，其特征在于，根据所述任意一待对齐本体所属类别标签，以及所述任意一查找到的候选本体所属类别标签，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，具体包括：

对于任意一待对齐本体所属所有类别标签中的任意一类别标签，执行如下操作：从所述任意一查找到的候选本体所属所有类别标签中，选取与所述任意一类别标签相关性最大的候选类别标签；采用随机游走算法，分别获取所述任意一类别标签与每一个所述候选类别标签之间的相关度；

根据获取的所述任意一待对齐本体所属每一个类别标签与所述任意一查找到的候选本体的每一个候选类别标签之间的相似度，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

6.如权利要求3所述的方法，其特征在于，所述本体集合还包括非结构化文本关键词；其中，所述非结构化文本关键词包含一个或多个词向量；

分别计算任意一待对齐本体与所述每一个查找到的候选本体之间的相似度，还包括：

对于任意一查找到的候选本体，执行如下操作：

根据所述任意一待对齐本体的非结构化文本关键词，以及所述任意一查找到的候选本体的非结构化文本关键词，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

7.如权利要求6所述的方法，其特征在于，根据所述任意一待对齐本体的非结构化文本关键词，以及所述任意一查找到的候选本体的非结构化文本关键词，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度，具体包括：

分别获取所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，生成所述任意一待对齐本体的词向量；

分别获取所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，生成所述任意一查找到的候选本体的词向量；

计算所述任意一待对齐本体的词向量和所述任意一查找到的候选本体的词向量之间的余弦夹角值，并将计算得到的余弦夹角值确定为所述任意一待对齐本体和所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

8.如权利要求6所述的方法，其特征在于，根据计算得到的相似度，获取每一个查找到的候选本体的综合评分，具体包括：

针对任意一查找到的候选本体，执行如下操作：

为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分；或者，

为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分。

9.如权利要求1-8任一项所述的方法，其特征在于，还包括：

当所有查找到的候选本体中不包含综合评分大于预设阈值的候选本体时，在所述已对齐本体集合中建立新的本体项目，并将所述任意一待对齐本体存储至新建立的本体项目中。

10.一种本体对齐装置，其特征在于，包括：

选取单元，用于从待对齐本体集合中选取任意一待对齐本体；其中，所述任意一待对齐本体包括所述待对齐本体名称，所述任意一待对齐本体所属类别标签，以及所述任意一待对齐本体的属性信息，所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；

查找单元，用于在已对齐本体集合中查找与所述选取单元选取的任意一待对齐本体名称相同的候选本体；其中，所述候选本体包括所述候选本体名称，所述候选本体所属类别标签，以及所述候选本体的属性信息所述类别标签由自然语言描述，所述属性信息由枚举类型或者自然语言描述；

计算单元，用于根据所述任意一待对齐本体所属类别标签，所述任意一待对齐本体的属性信息，以及所述查找单元查找到的候选本体所属类别标签，每一个查找到的候选本体的属性信息，分别计算任意一待对齐本体与所述每一个查找到的候选本体之间的相似度；

综合评分获取单元，用于根据所述计算单元计算得到的相似度，获取每一个查找到的候选本体的综合评分；

选择单元，用于从查找到的候选本体中选择综合评分大于或等于预设综合评分阈值，且综合评分最高的候选本体；

对齐单元，用于将所述任意一待对齐本体与所述选择单元选择的所述候选本体进行对齐。

11.如权利要求10所述的装置，其特征在于，还包括本体项目新建单元，用于：

12.如权利要求10所述的装置，其特征在于，所述属性信息包含本体的属性名及所述属性名对应的属性值；

所述计算单元，具体用于：

对于任意一查找到的候选本体，执行如下操作：根据所述任意一待对齐本体的属性名和所述属性名对应的属性值，以及所述任意一查找到的候选本体的属性名及其对应的属性值，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度；根据所述任意一待对齐本体所属类别标签，以及所述任意一查找到的候选本体所属类别标签，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

13.如权利要求12所述的装置，其特征在于，所述计算单元，具体用于：

分别对所述任意一待对齐本体的每一个属性名和所述任意一查找到的候选本体的每一个属性名进行匹配，获取至少一个匹配成功的属性名匹配对；对于获取的任意一属性名匹配对，执行如下操作：根据所述任意一属性名配对中第一个属性名对应的属性值与第二个属性名对应的属性值之间的编辑距离，计算所述第一个属性名对应的属性值与所述第二个属性名对应的属性值之间的相似度；当所述第一个属性名对应的属性值与第二个属性名对应的属性值之间的相似度大于预设属性值相似度阈值时，将所述任意一属性名匹配对添加至预设的属性信息配对集合中；将所述属性信息配对集合中包含的所有属性名配对分别对应的相似度进行累加，将获取的累加值确定为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度。

14.如权利要求12所述的装置，其特征在于，所述计算单元，具体用于：

对于任意一待对齐本体所属所有类别标签中的任意一类别标签，执行如下操作：从所述任意一查找到的候选本体所属所有类别标签中，选取与所述任意一类别标签相关性最大的候选类别标签；采用随机游走算法，分别获取所述任意一类别标签与每一个所述候选类别标签之间的相关度；根据获取的所述任意一待对齐本体所属每一个类别标签与所述任意一查找到的候选本体的每一个候选类别标签之间的相似度，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度。

15.如权利要求12所述的装置，其特征在于，所述本体集合还包括非结构化文本关键词；其中，所述非结构化文本关键词包含一个或多个词向量；

所述计算单元，还用于：对于任意一查找到的候选本体，执行如下操作：根据所述任意一待对齐本体的非结构化文本关键词，以及所述任意一查找到的候选本体的非结构化文本关键词，计算所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

16.如权利要求15所述的装置，其特征在于，所述计算单元，具体用于：

分别获取所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一待对齐本体的非结构化文本中每一个关键词的出现次数，生成所述任意一待对齐本体的词向量；分别获取所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，并根据获取的所述任意一查找到的候选本体的非结构化文本中每一个关键词的出现次数，生成所述任意一查找到的候选本体的词向量；计算所述任意一待对齐本体的词向量和所述任意一查找到的候选本体的词向量之间的余弦夹角值，并将计算得到的余弦夹角值确定为所述任意一待对齐本体和所述任意一查找到的候选本体之间非结构化文本关键词的相似度。

17.如权利要求15所述的装置，其特征在于，所述综合评分获取单元，具体用于：

针对任意一查找到的候选本体，执行如下操作：为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分；或者，为所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度，分别设置相应的权重值；根据所述任意一待对齐本体与所述任意一查找到的候选本体之间属性信息的相似度及其权重值，所述任意一待对齐本体与所述任意一查找到的候选本体之间所属类别标签的相似度及其权重值，以及所述任意一待对齐本体与所述任意一查找到的候选本体之间非结构化文本关键词的相似度及其权重值，获取所述任意一查找到的候选本体的综合评分。

18.如权利要求11-17任一项所述的装置，其特征在于，所述本体项目新建单元，用于：