CN107704602A

CN107704602A - 基于agrovoc的大规模农业语义本体匹配方法

Info

Publication number: CN107704602A
Application number: CN201710959270.9A
Authority: CN
Inventors: 王艺
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2017-10-16
Filing date: 2017-10-16
Publication date: 2018-02-16
Anticipated expiration: 2037-10-16
Also published as: CN107704602B

Abstract

本发明公开了一种基于AGROVOC的大规模农业语义本体匹配方法，包括以下步骤：首先，将目标本体AOs和AOx分别进行预处理；然后，基于AGROVOC词汇集，将目标本体进行顶层类的对齐；在目标本体AOs和AOx的顶层类对齐结果基础上，将目标本体分别进行分割，得到匹配顶层类集合和未匹配顶层类集合；匹配顶层类集合间的元素按本体块进行术语及语义学算法匹配，而未匹配顶层类集合间的元素无法进行分块匹配，直接进行术语及语义学算法匹配；将两者匹配结果合并得到AOs和AOx为目标本体的一种对齐。本发明的优势在于解决了现有本体对齐方法无法直接应用于农业本体的问题，并且可应用于规模巨大的农业本体的对齐。

Description

基于AGROVOC的大规模农业语义本体匹配方法

技术领域

本发明属于农业和信息等领域，涉及农业语义本体匹配和农业领域知识整合。尤其涉及一种基于AGROVOC的大规模农业语义本体匹配方法。

背景技术

语义本体对齐(alignment)是指将相关的两个或者多个语义本体的元素进行匹配，以解决不同知识库的语义异构性，并实现知识的整合。现有的本体对齐方法和技术可分为两种：一种是没有具体应用领域的一般性本体对齐方法(如SAMBO，Falcon等)；另一种是针对具体应用领域的本体对齐方法。前者一般基于某些网络词典，如WordNet等，对目标本体进行匹配。后者主要针对生物医疗领域，根据该领域的标准参考词汇，对不同的生物医疗本体进行对齐。

农业领域语义本体主要针对农作物的种植精准管理难题，利用语义网相关技术：RDF(Resource Description Framework)、OWL(Web Ontology Language)、SPARQL(SPARQLProtocol and RDF Query Language)等，将相关领域知识生成可计算的资源，以期实现智能农业决策系统。为支撑农业领域的信息系统开发和知识整合，联合国国际粮农组织(FAO)发布了AGROVOC控制词汇集，目前包含32000个农业概念，其中25个顶层概念。

现有的本体对齐方法和技术无法直接应用到农业领域，其主要原因是农业本体包含大量的领域术语和词汇，而一般的网络词典如WordNet等不能解释这些领域术语和词汇，从而导致一般的本体对齐方法在农业语义本体对齐应用时成功率低，应用效果差。

发明内容

鉴于此，本发明的目的是提供本发明提出一种基于AGROVOC的大规模农业语义本体匹配方法，其目的是解决大规模农业领域语义本体缺乏有效对齐方法的问题。

本发明的目的是通过以下技术方案来实现的，基于AGROVOC的大规模农业语义本体匹配方法，包括以下步骤：

首先，将目标本体AOs和AOx分别进行预处理；

然后，基于AGROVOC词汇集，将目标本体进行顶层类的对齐；在目标本体AOs和AOx的顶层类对齐结果基础上，将目标本体分别进行分割，得到匹配顶层类集合和未匹配顶层类集合；

匹配顶层类集合间的元素按本体块进行术语及语义学算法匹配；未匹配顶层类集合间的元素无法进行分块匹配，直接进行术语及语义学算法匹配；

将两者匹配结果合并得到AOs和AOx为目标本体的一种对齐。

进一步，对语义本体进行预处理，具体包括以下步骤：

(1)本体格式检查：对目标本体进行格式检查，确保其格式为下面3种类型：Resource Description Framework、Resource Description Framework Schema及Ontology Modeling Language；

(2)本体元素名称检查：本体元素包括本体的类、实例和属性；确保元素的名称是有意义的、英文名称拼写完全和正确。

进一步，利用AGROVOC作为参考本体，对目标本体的顶层类进行对齐，目标本体顶层类对齐具体步骤如下：

(1)提取出AO_s和AO_x的顶层类集合，分别记为：UC_s＝{c_s ¹,…,c_s ^m}，UC_x＝{c_x ¹,..,c_x ⁿ}；

(2)提取AGROVOC的顶层概念；

(3)将AOs和AOx的顶层类分别与AGROVOC的标准概念对齐；

(4)对齐目标本体AOs和AOx的顶层类；

顶层类对齐具体为：

对于任意的顶层类c_s ⁱ∈UC_s，若存在某个顶层类使得下面3种情况之一成立，则c_s ⁱ与匹配，记为其中i＝1,2,…,m,j＝1,2,…,n；

(a)c_s ⁱ与都匹配于同一个AGROVOC概念；

(b)c_s ⁱ与匹配于同一个AGROVOC的顶层概念下的不同子概念；

(c)c_s ⁱ与其中一个匹配于某个AGROVOC的顶层概念，另一个匹配于某个AGROVOC的顶层概念的子概念。

进一步，目标本体匹配顶层类集合的对齐方法为；

(1)基于匹配顶层类集合UC_s ¹和UC_x ¹的匹配结果，对目标本体各自进行分块：

对任意的顶层类c_s ⁱ∈UC_s ¹，提取与顶层类c_s ⁱ关联的本体元素作为一个本体块，与顶层类c_s ⁱ关联的元素包括它的子类SC_s(c_s ⁱ)、实例INS_s(c_s ⁱ)以及相关属性PR_s(c_s ⁱ)；对任意的顶层类提取与顶层类关联的本体元素作为一个本体块，与顶层类关联的元素包括它的子类实例以及相关属性

将与顶层类c_s ⁱ和顶层类对应的本体块分别记为Block(c_s ⁱ)和则Block(c_s ⁱ)＝SC_s(c_s ⁱ)∪INS_s(c_s ⁱ)∪PR_s(c_s ⁱ)，

(2)对给定的Block(c_s ⁱ)和采用综合的术语匹配2个块的相应元素；

具体步骤和算法如下：

(i)采用字符串近似匹配算法n-gram和edit distance对Block(c_s ⁱ)和中的元素进行匹配，得到相似度sd_ng和相似度sd_ed；

(ii)采用语言学算法比较两个本体元素的名字并计算相似度sd_ling；

(iii)综合字符串近似匹配算法和语言学算法的方法取相应的权重对相似度sd_ng、sd_ed、sd_ling进行叠加，获取所比较的本体元素的最终相似度sd；sd＝sd_ng·w_ng+sd_ed·w_ed+sd_ling·w_ling，w_ng，w_ed和w_ling表示权重；

(iv)对于相关属性PR_s(c_s ⁱ)和相关属性中元素，使用如下2个匹配策略：

(a)对于任意的p_s∈PR_s(c_s ⁱ)，若存在三元组(s_s,p_s,o_s)和(s_x,p_x,o_x)，且实例s_s≡s_x及o_s≡o_x，则认为p_s≡p_x；

(b)若p_s有定义域类：D_s和D_x且D_s≡D_x，p_x有定义域类R_s和R_x且R_s≡R_x，则认为p_s≡p_x。

进一步，目标本体未匹配顶层类集合的对齐方法为；

(1)对未匹配顶层类集合UC_s ²和UC_x ²，采用字符串近似匹配算法n-gram和editdistance对UC_s ²和UC_x ²中的所有类和实例分别进行匹配，得到元素相似度sd_ng和相似度sd_ed；

(2)采用语言学算法对UC_s ²和UC_x ²中的所有类和实例分别进行匹配，并计算相似度sd_ling；

(3)综合字符串近似匹配算法和语言学算法的方法，取相应的权重对相似度sd_ng、sd_ed、sd_ling进行叠加，获取所比较的类和实例的最终相似度sd；sd＝sd_ng·w_ng+sd_ed·w_ed+sd_ling·w_ling，w_ng，w_ed和w_ling表示权重；

(4)设PR_s(c_s)和PR_x(c_x)中元素为关联c_s和c_x的属性，其中c_s和c_x是UC_s ²和UC_x ²中已配对的两个类，使用下述策略匹配属性：

(i)对于任意的p_s∈PR_s(c_s)，p_x∈PR_x(c_x)，若存在三元组(s_s,p_s,o_s)和(s_x,p_x,o_x)，且实例s_s≡s_x及o_s≡o_x，则认为p_s≡p_x；

(ii)若p_s与p_x有定义域类：D_s和D_x且D_s≡D_x，R_s和R_x且R_s≡R，则认为p_s≡p_x。

由于采用了上述技术方案，本发明具有如下的优点：

本发明所提出的农业领域语义本体匹配方法，与现有技术的区别主要是利用了AGROVOC这一控制词汇集作为本体顶层类的对齐中介，并以此对齐结果分割本体并进行后续的分块匹配。本发明的优势在于解决了现有本体对齐方法无法直接应用于农业本体的问题，并且可应用于规模巨大的农业本体的对齐。本发明为解决农业领域知识整合、未知农业本体解释和重用问题提供了解决方法并奠定了基础。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为基于AGROVOC的大规模农业语义本体对齐方法流程图；

图2为基于AGROVOC的本体顶层类对齐流程图。

具体实施方法

以下将结合附图，对本发明的优选实施例进行详细的描述；应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

图1是基于AGROVOC的大规模农业语义本体对齐方法所包含的过程。设AO_s和AO_x为目标本体，即：需要对齐的两个相关本体。首先，将目标本体分别进行预处理，其目的是提高匹配准确率和效率。然后，基于AGROVOC词汇集，将目标本体进行顶层类的对齐。在目标本体AO_s和AO_x的顶层类对齐结果基础上，将目标本体分别进行分割，得到匹配顶层类集合(UC_s ¹和UC_x ¹)和未匹配顶层类集合(UC_s ²和UC_x ²)。匹配顶层类集合间的元素(本体类、实例和属性)按本体块进行术语及语义学算法匹配，而未匹配顶层类集合间的元素无法进行分块匹配，直接进行术语及语义学算法匹配。将两者匹配结果合并得到AO_s和AO_x为目标本体的一种对齐。

1语义本体预处理

为了提高本体对齐的准确率，在进行匹配前需要对语义本体进行预处理。预处理包括下面两个步骤：

(1)本体格式检查对目标本体进行格式检查，确保其格式为下面3种类型：RDF(Resource Description Framework)、RDFS(Resource Description Framework Schema)及OWL(Ontology Modeling Language)。若目标本体不是上述3种格式，应使用相应工具自动或者人工转换成上述3种格式。

(2)本体元素名称检查本体元素包括本体的类(Class)、实例(Instance)和属性(Property)。需要确保元素的名称是有意义的(例如，以数字为名称的本体元素名：C01，是无意义的)、英文名称拼写完全(例如，表示有机肥，不应表示为：OrgF,而应表示为：OrganicFetilizer)和正确，以期最大程度利用基于字符串及语言学的匹配算法实现不同本体元素间的匹配。本体不同类型的元素名称命名还应遵循W3C的规范和建议。

2基于AGROVOC对齐目标本体顶层类

AGROVOC是联合国粮农组织(FAO，Food and Agriculture Organization of theUnited Nation)发布的农业领域控制词汇集，基于RDF/SKOS(Simple KnowledgeOrganization System)标准，它包含了农业领域的概念(Concept)、概念间的关系(Relation)以及多种语言的标签(Label)。如图2所示，本发明利用AGROVOC作为参考本体，对目标本体的顶层类进行对齐。目标本体顶层类对齐具体步骤如下：

(1)提取出AO_s和AO_x的顶层类，分别记为：UC_s＝{c_s ¹,…,c_s ^m}，UC_x＝{c_x ¹,..,c_x ⁿ}。一般，本体的顶层类数量有限。

(2)提取AGROVOC的顶层概念。表1是AGROVOC的25个顶层概念及其可网络访问的URI(Uniform Resource Identifier)。

(3)将AO_s和AO_x的顶层类分别与AGROVOC的标准概念对齐。下面以柑橘肥水本体为例，介绍目标本体与AGROVOC的标准概念匹配的具体方法。在进行与AGROVOC概念匹配时，由于AGROVOC有32000个概念，数目较大，本发明提出下面2种方法结合实现目标本体顶层类与AGROVOC的快速匹配。(i)从25个顶层概念出发，逐层向下匹配。例如：柑橘本体类Method,从概念描述：http://aims.fao.org/standards/agrovoc/linked-open-data看出，methods为顶层概念，再点击它的子概念，由关系skos:narrower所链接，得到application methods为与Method匹配概念。(ii)利用AGROVOC的三元组数据库网页查询端，编写SPARQL语句，查询匹配概念。例如：柑橘本体的类CitrusFertilizer，为找到其匹配的概念，用下面的SPARQL查询语句执行语义数据库检索：

SELECT？t？l WHERE

{？s skos:prefLabel"fertilizers"@en.

？s skos:broader？t.

？t skos:prefLabel？l}

返回概念的标签为”fertilizers”的上一层概念c_2798(“farm inputs”)，由于该概念不是顶层概念，由其skos:broader关系链接逐步找到其顶层概念为resource，得到匹配结果。表2是柑橘肥水本体的14个顶层类与AGROVOC的标准概念的匹配结果。

表 1 AGROVOC顶层概念

表2柑橘肥水本体顶层类与AGROVOC概念匹配

(4)对齐目标本体AO_s和AO_x的顶层类第(3)步将目标本体分别与AGROVOC的顶层概念进行了匹配，在此基础上，下面定义顶层类的匹配。

定义 1给定本体AO_s和AO_x，UC_s＝{c_s ¹,…,c_s ^m}，UC_x＝{c_x ¹,..,c_x ⁿ}分别为其顶层类集合。对于任意的类c_s ⁱ∈UC_s，若存在某个类使得下面3种情况之一成立，则c_s ⁱ与匹配，记为(a)c_s ⁱ与都匹配于同一个AGROVOC概念；(b)c_s ⁱ与匹配于同一个AGROVOC的顶层概念下的不同子概念；(c)c_s ⁱ与其中一个匹配于某个AGROVOC的顶层概念，另一个匹配于该顶层概念的子概念。

这样，本体AO_s和AO_x的顶层类集合UC_s和UC_x分别划分为2个部分：匹配顶层类集合(UC_s ¹和UC_x ¹)和未匹配顶层类集合(UC_s ²和UC_x ²)，即：UC_s＝UC_s ¹∪UC_s ²，UC_x＝UC_x ¹∪UC_x ²，且

3基于本体分割的农业本体匹配

对于大规模语义本体，对本体进行分割是降低本体规模，提升元素匹配效率的重要手段。本发明的本体分块以在第2步中对齐的目标本体顶层类为基础，对目标本体进行分割，形成本体块，然后进行术语层面的匹配。下面介绍目标本体匹配顶层类集合和未匹配顶层类集合的对齐方法。

(1)基于匹配顶层类集合(UC_s ¹和UC_x ¹)的匹配结果，对目标本体各自进行分块。对任意的顶层类c_s ⁱ∈UC_s ¹，提取与c_s ⁱ关联的本体元素作为一个本体块。与c_s ⁱ关联的元素包括它的子类(SC_s(c_s ⁱ))、实例(INS_s(c_s ⁱ))以及相关属性(PR_s(c_s ⁱ))。以柑橘肥水本体的顶层类CitrusFertilizer为例，表3显示了如何使用SPARQL语句获取CitrusFertilizer所关联的元素，并且列出每个查询语句返回的结果。因此，CitrusFertilizer所确定的本体块包含表3所列元素，其中CitrusFertilizer的子类22个，实例32个，属性30个，共计84个本体元素。同理，将与CitrusFertilizer匹配的顶层类的相应本体块提取出，以进行下一步本体块间的匹配。这里，将与c_s ⁱ和对应的本体块分别记为Block(c_s ⁱ)和则Block(c_s ⁱ)＝SC_s(c_s ⁱ)∪INS_s(c_s ⁱ)∪PR_s(c_s ⁱ)，

表3以顶层类CitrusFertilizer提取的本体块

(2)对给定的Block(c_s ⁱ)和本发明采用综合的术语匹配2个块的相应元素。具体步骤和算法如下：

(i)采用字符串近似匹配算法n-gram和edit distance对Block(c_s ⁱ)和中的元素进行匹配。其中，n-gram是根据要匹配的两个字符串的连续子串给出近似度，得到相似度sd_ng。算法edit distance是比较将一个字符串通过字符操作(删除、插入或替换)将其变为另一个字符串所需字符操作次数，由此得到相似度sd_ed。

(ii)采用语言学算法比较两个本体元素的名字并计算相似度sd_ling。语言学算法是比较两组词语的相似度，依赖于网络词典(WordNet)提供词语的同义词等关系。

(iii)本发明采用综合上述2种字符串近似匹配算法和语言学算法的方法，取相应的权重对3个相似度进行叠加(公式(1))，获取所比较的本体元素的最终相似度sd。公式(1)的3个权重w_ng，w_ed和w_ling的经验值分别为0.26，0.37和0.37。算法1描述了匹配子类集合SC_s(c_s ⁱ)和中元素的过程。算法1的时间复杂度为O(N²)，其中N为集合SC_s和SC_x基数的最大值。注意到在对本体进行分割后N值大幅度减少，使得时间复杂度大幅度下降。基于上述方法及算法1，可类似地定义匹配INS_s(c_s ⁱ)和中元素的算法。

sd＝sd_ng·w_ng+sd_ed·w_ed+sd_ling·w_ling (1)

(iv)对于PR_s(c_s ⁱ)和中元素，即关联c_s ⁱ和的属性，本发明不使用上述字符串近似匹配算法进行对齐，而基于第(iii)步中已匹配的子类和实例，直接地使用如下2个匹配策略：(a)对于任意的p_s∈PR_s(c_s ⁱ)，若存在三元组(s_s,p_s,o_s)和(s_x,p_x,o_x)，且实例s_s≡s_x及o_s≡o_x，则认为p_s≡p_x；(b)若p_s与p_x有定义域(值域)类：D_s(R_s)和D_x(R_x)，且D_s≡D_x(R_s≡R_x)，则认为p_s≡p_x。

(3)对未匹配顶层类集合(UC_s ²和UC_x ²)，(i)首先，分别采用n-gram,editdistance,和语言学算法匹配其类和实例。算法2是对未匹配顶层类集合(UC_s ²和UC_x ²)中的类进行对齐的过程。算法2的时间复杂度为O(M²)，其中M为集合SC2_s和SC2_x基数的最大值。(ii)再根据类和实例的匹配结果对与实例关联的属性进行对齐，具体方法如下。设PR_s(c_s)和PR_x(c_x)中元素为关联c_s和c_x的属性，其中c_s和c_x是由算法2确定匹配的类：(a)对于任意的p_s∈PR_s(c_s)，p_x∈PR_x(c_x)，若存在三元组(s_s,p_s,o_s)和(s_x,p_x,o_x)，且实例s_s≡s_x及o_s≡o_x，则认为p_s≡p_x；(b)若p_s与p_x有定义域(值域)类，D_s(R_s)和D_x(R_x)，且D_s≡D_x(R_s≡R_x)，则认为p_s≡p_x。

对于农业本体来说，一般情况下，未与AGROVOC匹配的顶层类占少数，故未匹配顶层类集合UC_s ²和UC_x ²数量有限，上述匹配步骤不会导致整体算法的时间复杂度增加。

本发明的关键在于采用AGROVOC农业领域标准词汇集作为农业本体顶层类(topclass)匹配的中介，这一步骤能提升本体对齐的准确率；在此顶层类匹配的基础上对农业本体进行分割，形成本体块，再进行本体块间的匹配，这一步骤能降低匹配时间复杂度，从而解决了农业领域大规模本体的对齐难题。

以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于AGROVOC的大规模农业语义本体匹配方法，其特征在于：包括以下步骤：

首先，将目标本体AOs和AOx分别进行预处理；

然后，基于AGROVOC词汇集，将目标本体进行顶层类的对齐；在目标本体AOs和AOx的顶层类对齐结果基础上，将目标本体分别进行分割，得到匹配顶层类集合和未匹配顶层类集合；匹配顶层类集合间的元素按本体块进行术语及语义学算法匹配；未匹配顶层类集合间的元素无法进行分块匹配，直接进行术语及语义学算法匹配；

将两者匹配结果合并得到AOs和AOx为目标本体的一种对齐。

2.根据权利要求1所述的基于AGROVOC的大规模农业语义本体匹配方法，其特征在于：对语义本体进行预处理，具体包括以下步骤：

(1)本体格式检查：对目标本体进行格式检查，确保其格式为下面3种类型：ResourceDescription Framework、Resource Description Framework Schema及OntologyModeling Language；

3.根据权利要求1所述的基于AGROVOC的大规模农业语义本体匹配方法，其特征在于：利用AGROVOC作为参考本体，对目标本体的顶层类进行对齐，目标本体顶层类对齐具体步骤如下：

(2)提取AGROVOC的顶层概念；

(3)将AOs和AOx的顶层类分别与AGROVOC的标准概念对齐；

(4)对齐目标本体AOs和AOx的顶层类；

顶层类对齐具体为：

(a)c_s ⁱ与都匹配于同一个AGROVOC概念；

(b)c_s ⁱ与匹配于同一个AGROVOC的顶层概念下的不同子概念；

4.根据权利要求3所述的基于AGROVOC的大规模农业语义本体匹配方法，其特征在于：目标本体匹配顶层类集合的对齐方法为；

具体步骤和算法如下：

(a)对于任意的若存在三元组(s_s,p_s,o_s)和(s_x,p_x,o_x)，且实例s_s≡s_x及o_s≡o_x，则认为p_s≡p_x；

(b)若p_s有定义域类：D_s和D_x且D_s≡D_x，p_x有定义域类：R_s和R_x且R_s≡R_x，则认为p_s≡p_x。

5.根据权利要求3所述的基于AGROVOC的大规模农业语义本体匹配方法，其特征在于：目标本体未匹配顶层类集合的对齐方法为；

(1)对未匹配顶层类集合UC_s ²和UC_x ²，采用字符串近似匹配算法n-gram和edit distance对UC_s ²和UC_x ²中的所有类和实例分别进行匹配，得到元素相似度sd_ng和相似度sd_ed；