CN106599117A

CN106599117A - 一种茶学领域虚拟本体建模方法

Info

Publication number: CN106599117A
Application number: CN201611087353.5A
Authority: CN
Inventors: 李绍稳; 刘超; 耿凡凡; 张筱丹; 徐济成; 许高建; 李景霞; 杨阳; 沈杰
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2016-12-01
Filing date: 2016-12-01
Publication date: 2017-04-26
Anticipated expiration: 2036-12-01
Also published as: CN106599117B

Abstract

一种茶学领域虚拟本体建模方法，基于云计算的MapReduce框架的，包括若干个Map任务和一个Reduce任务。其中，Map任务主要开展茶学领域本体模块的虚拟抽取，Map任务的个数由所涉及到茶学领域本体的个数确定。Reduce任务主要是对虚拟抽取后的茶学领域本体模块进行映射，最终生成茶学领域虚拟本体。为了更好的发挥MapReduce的效率，方法中所涉及的茶学虚拟本体知识均储存在HBase数据库中。本方法能实现云计算环境下多个茶学本体知识的按需获取，有效提高茶学本体知识的共享和复用效率。

Description

一种茶学领域虚拟本体建模方法

技术领域

本发明是计算机信息技术在农业领域的应用，主要是提出一种茶学领域虚拟本体建模方法。

背景技术

自20世纪90年代以来，随着知识共享、信息集成和Web服务等技术的快速发展，本体研究在计算机领域倍受瞩目，并逐渐成为研究的热点。本体通过对概念、术语及其相互关系的规范化描述，勾画出某一领域的基本知识体系，它可以很好地解决知识表示、知识组织以及知识共享等问题。在Tim Berners-Lee提出的语义网七层体系结构中，本体层在XML和RDF的基础上，负责描述相关领域的概念以及概念间的关系，为语义网的逻辑推理和功能验证提供基础。因此，本体是语义网实现的关键部分，对实现计算机准确理解Web上信息，有效访问和检索万维网异构和分布式信息，具有重要的理论价值和现实意义。

目前，对于本体的研究主要是以领域本体为研究对象。领域本体是指对某一学科领域知识进行表示的本体。已经构建完成的本体，大多是针对某一个领域，甚至细分领域的知识。在众多的领域知识中，农业领域知识是一种高质量的生产要素，可以使农业劳动力和资本生产的效率大幅度提高。以农业领域本体为例，国内外已经构建的本体有联合国粮农组织构建的渔业本体、食品安全领域本体和食物、营养与农业本体，Lauser、Keizer等构建生物安全本体，Haverkort等构建的马铃薯本体，李景等构建的花卉本体，王儒敬等构建的猪病本体，郑业鲁等构建的农业生产技术和市场信息本体，何险峰等构建的气象服务本体，张柳、黄春毅构建的农作物栽培本体，鄂志国等构建水稻生物学本体和李绍稳等构建的茶树病虫害本体等。然而随着科学技术的发展，学科之间的交叉也越来越多，特别是学科内细分领域之间的交叉更加频繁。例如，茶叶种植涉及茶叶种质、气象、病虫害防治、作物栽培和土壤等多个领域的知识。如果针对茶叶种植，开发集成以上相关领域知识的本体，会非常耗时费力，并且资源开销大、知识复用率低。所以在开展基于本体的茶叶种植领域知识服务的时候，可以考虑利用已经构建好的相关领域本体，如茶叶病虫害本体、气象本体、茶树栽培本体等进行协同知识服务。并且这些本体通常是由不同领域专家和技术人员参与构建的，可能分布在网络的各个位置。因此，研究如何提高网络环境中分布式农业领域本体的知识共享与复用效率，降低本体协同推理复杂性，提升本体服务效率，实现多本体知识按需获取，是农业领域本体服务的一个难题。

发明内容

在上述背景下，本发明针对网络环境中多本体服务协同及知识共享与复用的问题，选取茶学这一特定农业领域，引入云计算的虚拟化思想，根据需求虚拟抽取茶学领域本体知识模块，并对虚拟抽取后的本体知识模块进行映射，构建虚拟化的茶学领域本体。本发明的技术方案具体如下：

一种茶学领域虚拟本体建模方法，本建模方法基于云计算的MapReduce框架，本方法包括1个或多个Map任务、以及一个Reduce任务；

本茶学领域虚拟本体建模方法的步骤包括：

1)先由Map任务是对茶学领域本体模块的虚拟抽取，Map任务的个数由所涉及到茶学领域本体的个数确定；Map任务开展茶学领域本体模块虚拟抽取是基于社团划分：首先根据需求对茶学领域本体进行社团抽取，将与需求联系更紧密的茶学领域本体知识划分到一个本体社团中；然后对本体社团内的知识与需求进行相关的局部性判断，获得具有非局部性的本体知识；

局部性判断的方法为：若本体中的某一概念或概念间关系的删除，不能改变用户需求的意义，则该概念或关系具有关于用户需求局部性，否则，该概念或关系具有关于用户需求的非局部性；

2)由Reduce任务是对虚拟抽取出的茶学领域本体模块进行映射，最终生成茶学领域虚拟本体；

Reduce任务对茶学领域本体模块进行映射是基于茶学同义词词林的；先构建茶学同义词词林；然后以同义词词林为基础，计算虚拟抽取出的茶学领域本体模块概念间的相似度，实现茶学本体模块的映射，生成茶学虚拟本体模块；

2.1)构建茶学同义词词林的步骤包括：

步骤一：确定茶学同义词词林的收录范围；

步骤二：通过文献、书籍、网络收集茶学领域词汇；

步骤三：对收集的茶学领域词汇按词义进行分类；

步骤四：根据同义词词林编码规则，对茶学领域词汇进行编码，形成茶学同义词词林；

步骤五：邀请茶学领域专家对茶学同义词词林进行评估校正；

2.2)计算茶学领域本体模块的概念间的相似度，并设定阈值，获得相似度大于阈值的概念对；然后对该概念对对应的茶学领域本体模块增加等价属性，即得到茶学领域本体模块的映射。(若概念对相似度大于所设定的阈值，则说明此概念对的两个概念是等价的，从而为具有等价性质的概念对增加等价属性，实现概念所在的本体虚拟模块之间的映射，从而生成茶学领域虚拟本体。)

计算茶学领域本体模块概念间的相似度的方法为：

c₁和c₂是分属两个茶学领域本体模块的概念，i表示c₁和c₂编码开始出现不同的层数，N是第i层分支上结点的总数，D是c₁和c₂的在同义词词林中的距离。

进一步的，本建模方法中所涉及的茶学领域虚拟本体知识均储存在HBase数据库中，由建立基于HBase的茶学领域虚拟本体存储模型实现；

建立基于HBase的茶学领域虚拟本体存储模型的方法为：

RDF三元组是本体的基础结构；被表示成OWL的本体转换成RDF三元组来表示；一个RDF三元组被定义为<s,p,o>，其中：s表示主语，p表示谓语，o表示属性；s和o是本体中的概念，看做是结点；p是本体中概念间的属性，看做是结点间的连线；

建立基于HBase的茶学领域虚拟本体存储模型，是通过两个HBase表格来存储按需虚拟融合的茶学领域本体RDF三元组；两个HBase表格分别为SR_P_O表和OR_P_S表，如表1、表2所示：

表1 SR_P_O表存储结构

表2 OR_P_R表存储结构

SR_P_O表中：行键是由s和r组成的，其中：

r表示抽取茶学领域本体模块的所依据的需求；虚拟抽取出的茶学领域本体模块是一个按需所取的知识集合；在访问表格中的知识时，需要首先判断知识是否与需求相关；如果将需求作为属性放入列族，则需要进行全表扫描才能判断知识是否与需求相关；

SR_P_O表中的列族内部分成了两列，其中：

一列是Name，用于存放RDF三元组的谓语，即本体属性的名字，

另外一列是Value，用于存放RDF三元组的宾语，即本体属性的值。

s_n是本体中RDF三元组的主语，p_n是本体中RDF三元组的谓语，o_n是本体中RDF三元组的属性，r_n表示抽取茶学领域本体模块的所依据的需求。

进一步的，所述步骤1)的流程为：

输入：O＝<C,R>，O是待抽取的茶学领域本体，C是茶学领域本体的概念集，C＝<c₁,c₂,…,c_n>，R是茶学领域本体的概念间关系集；

RE＝<re₁,re₂,…,re_m>，RE是需求集合；

输出：M_RE，M_RE是需求相关的茶学领域本体模块；

步骤一：将茶学领域本体O看作是一个复杂网络；

步骤二：将需求re_i看作是初始社团，令re_i＝c_M；

步骤三：M_i＝M_i+c_M；M_i是一个茶学领域本体社团；

步骤四：计算M_i的聚类系数λ_Mi；

步骤五：计算M_i邻居结点的聚类系数，λ_{i,neighbor 1},…,λ_{i,neighbor q}；

步骤六：对于M_i的任意邻居结点j的聚类系数λ_{i,neighbor j}(1≤j≤q)：

若λ_{i,neighbor j}>λ_Mi，则计算M_i与邻居结点j的相关度Δλ_{Mi，i，neighbor j}，并将邻居结点j加到候选集∧；

若λ_{i,neighbor j}≤λ_Mi，则跳转到步骤八；

步骤七：找出候选集中相关度Δλ值最大的邻居结点，令结点j为c_M，跳转到步骤三；

步骤八：C_T＝M_i；

步骤九：遍历C_T，C_T是中间集；

步骤十：若c_k(1≤k≤n)和re_i(1≤i≤m)在本体社团M_i中它们之间不存在任何关系，则c_k对于re_i有局部性；

步骤十一：将c_k从C_T中移除，C_T＝C_T-c_k，跳转到步骤九，直到遍历结束；

步骤十二：若c_k(1≤k≤n)和re_i(1≤i≤m)在本体社团M_i中它们之间存在关系，则c_k对于re_i有非局部性；

步骤十三：将本体社团M_i中与c_k存在关系的概念加入到re_i生成一个新的re_i；

步骤十四：将re_i从C_T中移除，C_T＝C_T-re_i，跳转到步骤九，直到遍历结束；

步骤十五：M_rei＝C-re_i；

步骤十六：i＝i+1，跳转到步骤二，直到i＝m；

步骤十七：M_RE＝∑M_rei；

其中，结点和模块的聚类系数，以及模块与邻居结点的相关度计算方法如下：

对于一个复杂网络N＝<n₁,n₂,…,n_p>，对于N中任意结点n_i(1≤i≤p)，结点n_i的聚类系数λ_ni计算公式为：

其中，k是结点n_i的度，E_ni是结点n_i与其邻居结点所实际拥有的边数；

若M是N中的一个社团，社团M的聚类系数λ_M计算公式为：

m是社团M内结点的个数；

社团M与其邻居结点n_i的相关度Δλ_M,ni计算公式为：

Δλ_M,ni＝λ_ni-λ_ni-M

λ_ni-M是结点n_i除社团M之外的聚类系数。

进一步的，所述步骤2.1)中的步骤四中，同义词词林编码规则是以哈工大版的同义词词林编码规则为基础；

哈工大版本的同义词词林收录了大约七万个常用词汇，这些词汇在人民日报语料库中出现频率都不低于3；该版本共分成12个大类，94个中类，1428个小类，每个小类中又被分为若干个词群；

根据分类，同义词词林为每个词汇设置了一个8位的编码，其中第一位代表词汇所属大类，用一位大写英文字母表示；第二位表示词汇所属中类，用一位小写英文字母表示；第三位、第四位代表词汇所属小类，用两位阿拉伯数字表示；第五位代表词群，用一位小写英文字母表示；第六位、第七位代表词群中的词汇，用两位阿拉伯字母表示；第八位是标记为，用符号＝、#、@表示，符号＝表示编码表示的是一组同义词，符号#表示编码表示的是一组相关词汇，但不是同义词，符号@表示编码表示的是既不同义，又不相关的词汇。

本方法能实现云计算环境下多个茶学本体知识的按需获取，有效提高茶学本体知识的共享和复用效率。

附图说明

图1是茶学领域虚拟本体建模方法逻辑框架图。

具体实施方式

下面结合附图与具体实施方式对本技术方案进一步说明：

技术方案：茶学领域虚拟本体建模是基于云计算的MapReduce框架的，包括若干个Map任务和一个Reduce任务。其中，Map任务主要开展茶学领域本体模块的虚拟抽取，Map任务的个数由所涉及到茶学领域本体的个数确定。Reduce任务主要是对虚拟抽取后的茶学领域本体模块进行映射，最终生成茶学领域虚拟本体。为了更好的发挥MapReduce的效率，方法中所涉及的茶学虚拟本体知识均储存在HBase数据库中。

1、基于社团划分的茶学领域本体模块虚拟抽取

对茶学领域本体模块的虚拟抽取是根据需求进行的，但是并不是所有与需求相关的本体知识都是用户所需要的，用户所常用的也仅仅是所有与需求相关的本体知识中的一部分。有的知识尽管与需求相关，但是被用户所使用到的频率很少，甚至没有。因此，这部分知识就可以暂时不被抽取出来，这不仅能够降低本体知识的存储开销，也能够提高本体知识的推理效率。本发明在模块虚拟抽取阶段，首先根据需求对本体进行社团抽取，将与需求联系相对紧密的本体知识划分到一个社团中，然后在对本体社团内的知识进行与需求相关的局部性判断，获得具有非局部性的本体知识。若本体中的某一概念或概念间关系的删除，不能改变用户需求的意义，则该概念或关系具有关于用户需求局部性，否则，该概念或关系具有关于用户需求的非局部性。

输入：O＝<C,R>，O是待抽取的茶学本体，C是本体的概念集，C＝<c₁,c₂,…,c_n>，R是本体的概念间关系集；

RE＝<re₁,re₂,…,re_m>，RE是需求集合

输出：M_RE，需求相关的本体模块。

步骤一：将本体O看作是一个复杂网络；

步骤二：将re_i看作是初始社团，令re_i＝c_M；

步骤三：M_i＝M_i+c_M；

步骤四：计算M_i的聚类系数，λ_Mi；

步骤六：对于M_i的任意邻居结点j的聚类系数λ_{i,neighbor j}(1≤j≤q)，若λ_{i,neighbor j}>λ_Mi，则计算M_i与邻居结点j的相关度Δλ_{Mi，i，neighbor j}，并将邻居结点j加到候选集∧，否则跳转到步骤八；

步骤七：找出候选集中Δλ值最大的邻居结点，令结点j为c_M，跳转到步骤三；

步骤八：C_T＝M_i，M_i是一个本体社团；

步骤九：遍历C_T；

步骤十：若c_k(1≤k≤n)和re_i(1≤i≤m)在本体社团M_i中之间不存在任何关系，则c_k对于re_i有局部性；

步骤十二：若c_k(1≤k≤n)和re_i(1≤i≤m)在本体社团M_i中之间存在关系，则c_k对于re_i有非局部性；

步骤十五：M_rei＝C-re_i；

步骤十六：i＝i+1，跳转到步骤二，直到i＝m；

步骤十七：M_RE＝∑M_rei。

其中，k是结点n_i的度，E_ni是结点n_i与其邻居结点所实际拥有的边数。

若M是N中的一个社团，社团M的聚类系数λ_M计算公式为：

m是社团M内结点的个数。

社团M与其邻居结点n_i的相关度Δλ_M,ni计算公式为：

Δλ_M,ni＝λ_ni-λ_ni-M

λ_ni-M是结点n_i除社团M之外的聚类系数。

2、基于茶学同义词词林的本体模块映射

本方法通过构建茶学同义词词林，并以此为基础计算虚拟抽取出的本体模块概念间的相似度，实现茶学领域本体模块的映射，生成茶学领域虚拟本体

同义词词林是一个中文同义词词典，最早是由梅家驹提出的，当前被广泛使用的版本是由哈尔滨工业大学在最早版本的基础上扩展而来。目前，哈工大版本的同义词词林收录了大约七万个常用词汇，这些词汇在人民日报语料库中出现频率都不低于3。该版本共分成12个大类，94个中类，1428个小类，每个小类中又被分为若干个词群。根据以上分类，同义词词林为每个词汇设置了一个8位的编码，其中第一位代表词汇所属大类，用一位大写英文字母表示；第二位表示词汇所属中类，用一位小写英文字母表示；第三位、第四位代表词汇所属小类，用两位阿拉伯数字表示；第五位代表词群，用一位小写英文字母表示；第六位、第七位代表词群中的词汇，用两位阿拉伯字母表示；第八位是标记为，用符号＝、#、@表示，符号＝表示编码表示的是一组同义词，符号#表示编码表示的是一组相关词汇，但不是同义词，符号@表示编码表示的是既不同义，又不相关的词汇。哈工大版本的同义词词林是以通用词汇为主，虽然覆盖领域多，但是每个领域内的专业性词汇却不全。本发明以哈工大版本的同义词词林编码规则为基础，扩展了一批茶学领域专业词汇，形成了一个茶学同义词词林。构建茶学同义词词林的步骤如下：

步骤一：确定茶学同义词词林的收录范围；

步骤二：通过文献、书籍、网络收集茶学领域词汇；

步骤三：对收集的茶学领域词汇按词义进行分类；

步骤四：根据哈工大版同义词词林编码规则，对茶学领域词汇进行编码，形成茶学同义词词林；

步骤五：邀请茶学领域专家对茶学同义词词林进行评估校正。

构建完成茶学同义词词林后，根据相似度公式计算茶学领域本体模块概念间的相似度，并设定阈值，获得相似度大于阈值的概念对，对其增加等价属性，实现茶学领域本体模块的映射，本体概念相似度计算公式为：

c₁和c₂是分属两个本体模块的概念，i表示c₁和c₂编码开始不同的层数，N是第i层分支上结点的总数，D是c₁和c₂的在同义词词林中的距离。

3、基于HBase的茶学领域虚拟本体存储模型

RDF三元组是本体的基础结构。被表示成OWL的本体可以转换成RDF三元组来表示。一个RDF三元组被定义为<s,p,o>，其中s表示主语，p表示谓语，o表示属性。s和o是本体中的概念，可以看做是结点。p是本体中概念间的属性，可以看做是结点间的连线。本方法提出一种基于HBase的茶学领域虚拟本体存储模型，通过两个HBase表格来存储按需虚拟融合的茶学领域本体RDF三元组，分别为SR_P_O表和OR_P_S表，如表1、表2所示。

表1 SR_P_O表存储结构

表2 OR_P_R表存储结构

SR_P_O表中的行键是由s和r组成的。其中r表示抽取本体模块的所依据的需求。虚拟抽取出的本体模块是一个按需所取的知识集合。在访问表格中的知识时，需要首先判断知识是否与需求相关。如果将需求作为属性放入列族，则需要进行全表扫描才能判断知识是否与需求相关。所以将需求放入行键可以提高按需获取的知识的访问效率。SR_P_O表中的列族内部分成了两列，其中一列是Name，用于存放RDF三元组的谓语，即本体属性的名字，另外一列是Value，用于存放RDF三元组的宾语，即本体属性的值。OR_P_R表的结构与SR_P_O表的结构相似。

为验证所提出茶学领域虚拟本体建模方法的有效性，本发明在一台服务器上安装VMware vSphere Hypervisor(ESXi)6.0.0虚拟化平台来模拟云计算环境。在该平台上部署了4个Ubuntu操作系统的虚拟服务器，每个服务器上分别安装了Hadoop 1.1.2、HBase0.94.27和oracle JDK 1.7，形成了一个小型的云计算模型环境。其中1台虚拟服务器所为主服务器，部署了NameNode和JobTracker，另外3台虚拟服务器作为从服务器，分别部署了DataNode和TaskTracker。在此环境下，通过Eclipse平台设计java语言程序对方法进行了验证。

验证的具体步骤如下：

步骤一：将茶学领域相关本体导入HBase数据库；

步骤二：输入需求；

步骤三：根据需求获得与需求相关的茶学领域本体社团；

步骤四：以与需求相关的茶学领域本体社团为基础，对茶学领域知识进行需求相关的局部性判断；

步骤五：更新具有需求相关非局部性的茶学领域本体知识的HBase表行键，实现茶学领域本体模块的按需虚拟抽取；

步骤六：结合茶学同义词词林计算虚拟抽取出的茶学领域本体模块概念间的相似度；

步骤七：设置阈值，为相似度大于阈值的概念对设置等价属性，建立映射关系，生成茶学领域虚拟本体。

通过测试分析，取得了良好的效果，验证了该方法的可行性和有效性。茶学领域虚拟本体建模方法能实现云计算环境下多个茶学本体知识的按需获取，有效提高茶学本体知识的共享和复用效率。

Claims

1.一种茶学领域虚拟本体建模方法，其特征是本建模方法基于云计算的MapReduce框架，本方法包括1个或多个Map任务、以及一个Reduce任务；

本茶学领域虚拟本体建模方法的步骤包括：

2.1)构建茶学同义词词林的步骤包括：

步骤一：确定茶学同义词词林的收录范围；

步骤二：通过文献、书籍、网络收集茶学领域词汇；

步骤三：对收集的茶学领域词汇按词义进行分类；

2.2)计算茶学领域本体模块的概念间的相似度，并设定阈值，

获得相似度大于阈值的概念对；然后对该概念对对应的茶学领域本体模块增加等价属性，即得到茶学领域本体模块的映射；

计算茶学领域本体模块概念间的相似度的方法为：

S i m (c_{1}, c_{2}) = μ \times \frac{i}{5} \times c o s (N \times \frac{Π}{180}) \times (\frac{N - D + 1}{N})

2.根据权利要求1所述的建模方法，其特征是本建模方法中所涉及的茶学领域虚拟本体知识均储存在HBase数据库中，由建立基于HBase的茶学领域虚拟本体存储模型实现；

建立基于HBase的茶学领域虚拟本体存储模型的方法为：

表1 SR_P_O表存储结构

表2 OR_P_R表存储结构

SR_P_O表中：行键是由s和r组成的，其中：

SR_P_O表中的列族内部分成了两列，其中：

一列是Name，用于存放RDF三元组的谓语，即本体属性的名字，

另外一列是Value，用于存放RDF三元组的宾语，即本体属性的值；

3.根据权利要求1所述的建模方法，其特征是所述步骤1)的流程为：

输入：O＝<C,R>，O是待抽取的茶学领域本体，C是茶学领域本体的概念集，C＝<c₁，c₂，...，c_n>，R是茶学领域本体的概念间关系集；

RE＝<re₁，re₂，...，re_m>，RE是需求集合；

输出：M_RE，M_RE是需求相关的茶学领域本体模块；

步骤一：将茶学领域本体O看作是一个复杂网络；

步骤二：将需求re_i看作是初始社团，令re_i＝c_M；

步骤三：M_i＝M_i+c_M；M_i是一个茶学领域本体社团；

步骤四：计算M_i的聚类系数λ_Mi；

步骤五：计算M_i邻居结点的聚类系数，λ_i,neighbor1,…,λ_i,neighborq；

步骤六：对于M_i的任意邻居结点j的聚类系数λ_i,neighborj(1≤j≤q)：

若λ_i,neighborj>λ_Mi，则计算M_i与邻居结点j的相关度Δλ_{Mi,i,neighborj}，并将邻居结点j加到候选集∧；

若λ_i,neighbor _j≤λ_Mi，则跳转到步骤八；

步骤八：C_T＝M_i；

步骤九：遍历C_T，C_T是中间集；

步骤十五：M_rei＝C-re_i；

步骤十六：i＝i+1，跳转到步骤二，直到i＝m；

步骤十七：M_RE＝∑M_rei；

λ_{n i} = \frac{2 E_{n i}}{k (k - 1)}

若M是N中的一个社团，社团M的聚类系数λ_M计算公式为：

λ_{M} = \frac{Σ_{l = 1}^{m} λ_{n i}}{m}

m是社团M内结点的个数；

社团M与其邻居结点n_i的相关度Δλ_M,ni计算公式为：

Δλ_M,ni＝λ_ni-λ_ni-M

λ_ni-M是结点n_i除社团M之外的聚类系数。

4.根据权利要求1所述的建模方法，其特征是所述步骤2.1)中的步骤四中，同义词词林编码规则是以哈工大版的同义词词林编码规则为基础；