CN106599117A - 一种茶学领域虚拟本体建模方法 - Google Patents

一种茶学领域虚拟本体建模方法 Download PDF

Info

Publication number
CN106599117A
CN106599117A CN201611087353.5A CN201611087353A CN106599117A CN 106599117 A CN106599117 A CN 106599117A CN 201611087353 A CN201611087353 A CN 201611087353A CN 106599117 A CN106599117 A CN 106599117A
Authority
CN
China
Prior art keywords
tea science
tea
corporations
node
demand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611087353.5A
Other languages
English (en)
Other versions
CN106599117B (zh
Inventor
李绍稳
刘超
耿凡凡
张筱丹
徐济成
许高建
李景霞
杨阳
沈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Agricultural University AHAU
Original Assignee
Anhui Agricultural University AHAU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Agricultural University AHAU filed Critical Anhui Agricultural University AHAU
Priority to CN201611087353.5A priority Critical patent/CN106599117B/zh
Publication of CN106599117A publication Critical patent/CN106599117A/zh
Application granted granted Critical
Publication of CN106599117B publication Critical patent/CN106599117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种茶学领域虚拟本体建模方法,基于云计算的MapReduce框架的,包括若干个Map任务和一个Reduce任务。其中,Map任务主要开展茶学领域本体模块的虚拟抽取,Map任务的个数由所涉及到茶学领域本体的个数确定。Reduce任务主要是对虚拟抽取后的茶学领域本体模块进行映射,最终生成茶学领域虚拟本体。为了更好的发挥MapReduce的效率,方法中所涉及的茶学虚拟本体知识均储存在HBase数据库中。本方法能实现云计算环境下多个茶学本体知识的按需获取,有效提高茶学本体知识的共享和复用效率。

Description

一种茶学领域虚拟本体建模方法
技术领域
本发明是计算机信息技术在农业领域的应用,主要是提出一种茶学领域虚拟本体建模方法。
背景技术
自20世纪90年代以来,随着知识共享、信息集成和Web服务等技术的快速发展,本体研究在计算机领域倍受瞩目,并逐渐成为研究的热点。本体通过对概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系,它可以很好地解决知识表示、知识组织以及知识共享等问题。在Tim Berners-Lee提出的语义网七层体系结构中,本体层在XML和RDF的基础上,负责描述相关领域的概念以及概念间的关系,为语义网的逻辑推理和功能验证提供基础。因此,本体是语义网实现的关键部分,对实现计算机准确理解Web上信息,有效访问和检索万维网异构和分布式信息,具有重要的理论价值和现实意义。
目前,对于本体的研究主要是以领域本体为研究对象。领域本体是指对某一学科领域知识进行表示的本体。已经构建完成的本体,大多是针对某一个领域,甚至细分领域的知识。在众多的领域知识中,农业领域知识是一种高质量的生产要素,可以使农业劳动力和资本生产的效率大幅度提高。以农业领域本体为例,国内外已经构建的本体有联合国粮农组织构建的渔业本体、食品安全领域本体和食物、营养与农业本体,Lauser、Keizer等构建生物安全本体,Haverkort等构建的马铃薯本体,李景等构建的花卉本体,王儒敬等构建的猪病本体,郑业鲁等构建的农业生产技术和市场信息本体,何险峰等构建的气象服务本体,张柳、黄春毅构建的农作物栽培本体,鄂志国等构建水稻生物学本体和李绍稳等构建的茶树病虫害本体等。然而随着科学技术的发展,学科之间的交叉也越来越多,特别是学科内细分领域之间的交叉更加频繁。例如,茶叶种植涉及茶叶种质、气象、病虫害防治、作物栽培和土壤等多个领域的知识。如果针对茶叶种植,开发集成以上相关领域知识的本体,会非常耗时费力,并且资源开销大、知识复用率低。所以在开展基于本体的茶叶种植领域知识服务的时候,可以考虑利用已经构建好的相关领域本体,如茶叶病虫害本体、气象本体、茶树栽培本体等进行协同知识服务。并且这些本体通常是由不同领域专家和技术人员参与构建的,可能分布在网络的各个位置。因此,研究如何提高网络环境中分布式农业领域本体的知识共享与复用效率,降低本体协同推理复杂性,提升本体服务效率,实现多本体知识按需获取,是农业领域本体服务的一个难题。
发明内容
在上述背景下,本发明针对网络环境中多本体服务协同及知识共享与复用的问题,选取茶学这一特定农业领域,引入云计算的虚拟化思想,根据需求虚拟抽取茶学领域本体知识模块,并对虚拟抽取后的本体知识模块进行映射,构建虚拟化的茶学领域本体。本发明的技术方案具体如下:
一种茶学领域虚拟本体建模方法,本建模方法基于云计算的MapReduce框架,本方法包括1个或多个Map任务、以及一个Reduce任务;
本茶学领域虚拟本体建模方法的步骤包括:
1)先由Map任务是对茶学领域本体模块的虚拟抽取,Map任务的个数由所涉及到茶学领域本体的个数确定;Map任务开展茶学领域本体模块虚拟抽取是基于社团划分:首先根据需求对茶学领域本体进行社团抽取,将与需求联系更紧密的茶学领域本体知识划分到一个本体社团中;然后对本体社团内的知识与需求进行相关的局部性判断,获得具有非局部性的本体知识;
局部性判断的方法为:若本体中的某一概念或概念间关系的删除,不能改变用户需求的意义,则该概念或关系具有关于用户需求局部性,否则,该概念或关系具有关于用户需求的非局部性;
2)由Reduce任务是对虚拟抽取出的茶学领域本体模块进行映射,最终生成茶学领域虚拟本体;
Reduce任务对茶学领域本体模块进行映射是基于茶学同义词词林的;先构建茶学同义词词林;然后以同义词词林为基础,计算虚拟抽取出的茶学领域本体模块概念间的相似度,实现茶学本体模块的映射,生成茶学虚拟本体模块;
2.1)构建茶学同义词词林的步骤包括:
步骤一:确定茶学同义词词林的收录范围;
步骤二:通过文献、书籍、网络收集茶学领域词汇;
步骤三:对收集的茶学领域词汇按词义进行分类;
步骤四:根据同义词词林编码规则,对茶学领域词汇进行编码,形成茶学同义词词林;
步骤五:邀请茶学领域专家对茶学同义词词林进行评估校正;
2.2)计算茶学领域本体模块的概念间的相似度,并设定阈值,获得相似度大于阈值的概念对;然后对该概念对对应的茶学领域本体模块增加等价属性,即得到茶学领域本体模块的映射。(若概念对相似度大于所设定的阈值,则说明此概念对的两个概念是等价的,从而为具有等价性质的概念对增加等价属性,实现概念所在的本体虚拟模块之间的映射,从而生成茶学领域虚拟本体。)
计算茶学领域本体模块概念间的相似度的方法为:
c1和c2是分属两个茶学领域本体模块的概念,i表示c1和c2编码开始出现不同的层数,N是第i层分支上结点的总数,D是c1和c2的在同义词词林中的距离。
进一步的,本建模方法中所涉及的茶学领域虚拟本体知识均储存在HBase数据库中,由建立基于HBase的茶学领域虚拟本体存储模型实现;
建立基于HBase的茶学领域虚拟本体存储模型的方法为:
RDF三元组是本体的基础结构;被表示成OWL的本体转换成RDF三元组来表示;一个RDF三元组被定义为<s,p,o>,其中:s表示主语,p表示谓语,o表示属性;s和o是本体中的概念,看做是结点;p是本体中概念间的属性,看做是结点间的连线;
建立基于HBase的茶学领域虚拟本体存储模型,是通过两个HBase表格来存储按需虚拟融合的茶学领域本体RDF三元组;两个HBase表格分别为SR_P_O表和OR_P_S表,如表1、表2所示:
表1 SR_P_O表存储结构
表2 OR_P_R表存储结构
SR_P_O表中:行键是由s和r组成的,其中:
r表示抽取茶学领域本体模块的所依据的需求;虚拟抽取出的茶学领域本体模块是一个按需所取的知识集合;在访问表格中的知识时,需要首先判断知识是否与需求相关;如果将需求作为属性放入列族,则需要进行全表扫描才能判断知识是否与需求相关;
SR_P_O表中的列族内部分成了两列,其中:
一列是Name,用于存放RDF三元组的谓语,即本体属性的名字,
另外一列是Value,用于存放RDF三元组的宾语,即本体属性的值。
sn是本体中RDF三元组的主语,pn是本体中RDF三元组的谓语,on是本体中RDF三元组的属性,rn表示抽取茶学领域本体模块的所依据的需求。
进一步的,所述步骤1)的流程为:
输入:O=<C,R>,O是待抽取的茶学领域本体,C是茶学领域本体的概念集,C=<c1,c2,…,cn>,R是茶学领域本体的概念间关系集;
RE=<re1,re2,…,rem>,RE是需求集合;
输出:MRE,MRE是需求相关的茶学领域本体模块;
步骤一:将茶学领域本体O看作是一个复杂网络;
步骤二:将需求rei看作是初始社团,令rei=cM
步骤三:Mi=Mi+cM;Mi是一个茶学领域本体社团;
步骤四:计算Mi的聚类系数λMi
步骤五:计算Mi邻居结点的聚类系数,λi,neighbor 1,…,λi,neighbor q
步骤六:对于Mi的任意邻居结点j的聚类系数λi,neighbor j(1≤j≤q):
若λi,neighbor jMi,则计算Mi与邻居结点j的相关度ΔλMi,i,neighbor j,并将邻居结点j加到候选集∧;
若λi,neighbor j≤λMi,则跳转到步骤八;
步骤七:找出候选集中相关度Δλ值最大的邻居结点,令结点j为cM,跳转到步骤三;
步骤八:CT=Mi
步骤九:遍历CT,CT是中间集;
步骤十:若ck(1≤k≤n)和rei(1≤i≤m)在本体社团Mi中它们之间不存在任何关系,则ck对于rei有局部性;
步骤十一:将ck从CT中移除,CT=CT-ck,跳转到步骤九,直到遍历结束;
步骤十二:若ck(1≤k≤n)和rei(1≤i≤m)在本体社团Mi中它们之间存在关系,则ck对于rei有非局部性;
步骤十三:将本体社团Mi中与ck存在关系的概念加入到rei生成一个新的rei
步骤十四:将rei从CT中移除,CT=CT-rei,跳转到步骤九,直到遍历结束;
步骤十五:Mrei=C-rei
步骤十六:i=i+1,跳转到步骤二,直到i=m;
步骤十七:MRE=∑Mrei
其中,结点和模块的聚类系数,以及模块与邻居结点的相关度计算方法如下:
对于一个复杂网络N=<n1,n2,…,np>,对于N中任意结点ni(1≤i≤p),结点ni的聚类系数λni计算公式为:
其中,k是结点ni的度,Eni是结点ni与其邻居结点所实际拥有的边数;
若M是N中的一个社团,社团M的聚类系数λM计算公式为:
m是社团M内结点的个数;
社团M与其邻居结点ni的相关度ΔλM,ni计算公式为:
ΔλM,ni=λnini-M
λni-M是结点ni除社团M之外的聚类系数。
进一步的,所述步骤2.1)中的步骤四中,同义词词林编码规则是以哈工大版的同义词词林编码规则为基础;
哈工大版本的同义词词林收录了大约七万个常用词汇,这些词汇在人民日报语料库中出现频率都不低于3;该版本共分成12个大类,94个中类,1428个小类,每个小类中又被分为若干个词群;
根据分类,同义词词林为每个词汇设置了一个8位的编码,其中第一位代表词汇所属大类,用一位大写英文字母表示;第二位表示词汇所属中类,用一位小写英文字母表示;第三位、第四位代表词汇所属小类,用两位阿拉伯数字表示;第五位代表词群,用一位小写英文字母表示;第六位、第七位代表词群中的词汇,用两位阿拉伯字母表示;第八位是标记为,用符号=、#、@表示,符号=表示编码表示的是一组同义词,符号#表示编码表示的是一组相关词汇,但不是同义词,符号@表示编码表示的是既不同义,又不相关的词汇。
本方法能实现云计算环境下多个茶学本体知识的按需获取,有效提高茶学本体知识的共享和复用效率。
附图说明
图1是茶学领域虚拟本体建模方法逻辑框架图。
具体实施方式
下面结合附图与具体实施方式对本技术方案进一步说明:
技术方案:茶学领域虚拟本体建模是基于云计算的MapReduce框架的,包括若干个Map任务和一个Reduce任务。其中,Map任务主要开展茶学领域本体模块的虚拟抽取,Map任务的个数由所涉及到茶学领域本体的个数确定。Reduce任务主要是对虚拟抽取后的茶学领域本体模块进行映射,最终生成茶学领域虚拟本体。为了更好的发挥MapReduce的效率,方法中所涉及的茶学虚拟本体知识均储存在HBase数据库中。
1、基于社团划分的茶学领域本体模块虚拟抽取
对茶学领域本体模块的虚拟抽取是根据需求进行的,但是并不是所有与需求相关的本体知识都是用户所需要的,用户所常用的也仅仅是所有与需求相关的本体知识中的一部分。有的知识尽管与需求相关,但是被用户所使用到的频率很少,甚至没有。因此,这部分知识就可以暂时不被抽取出来,这不仅能够降低本体知识的存储开销,也能够提高本体知识的推理效率。本发明在模块虚拟抽取阶段,首先根据需求对本体进行社团抽取,将与需求联系相对紧密的本体知识划分到一个社团中,然后在对本体社团内的知识进行与需求相关的局部性判断,获得具有非局部性的本体知识。若本体中的某一概念或概念间关系的删除,不能改变用户需求的意义,则该概念或关系具有关于用户需求局部性,否则,该概念或关系具有关于用户需求的非局部性。
输入:O=<C,R>,O是待抽取的茶学本体,C是本体的概念集,C=<c1,c2,…,cn>,R是本体的概念间关系集;
RE=<re1,re2,…,rem>,RE是需求集合
输出:MRE,需求相关的本体模块。
步骤一:将本体O看作是一个复杂网络;
步骤二:将rei看作是初始社团,令rei=cM
步骤三:Mi=Mi+cM
步骤四:计算Mi的聚类系数,λMi
步骤五:计算Mi邻居结点的聚类系数,λi,neighbor 1,…,λi,neighbor q
步骤六:对于Mi的任意邻居结点j的聚类系数λi,neighbor j(1≤j≤q),若λi,neighbor jMi,则计算Mi与邻居结点j的相关度ΔλMi,i,neighbor j,并将邻居结点j加到候选集∧,否则跳转到步骤八;
步骤七:找出候选集中Δλ值最大的邻居结点,令结点j为cM,跳转到步骤三;
步骤八:CT=Mi,Mi是一个本体社团;
步骤九:遍历CT
步骤十:若ck(1≤k≤n)和rei(1≤i≤m)在本体社团Mi中之间不存在任何关系,则ck对于rei有局部性;
步骤十一:将ck从CT中移除,CT=CT-ck,跳转到步骤九,直到遍历结束;
步骤十二:若ck(1≤k≤n)和rei(1≤i≤m)在本体社团Mi中之间存在关系,则ck对于rei有非局部性;
步骤十三:将本体社团Mi中与ck存在关系的概念加入到rei生成一个新的rei
步骤十四:将rei从CT中移除,CT=CT-rei,跳转到步骤九,直到遍历结束;
步骤十五:Mrei=C-rei
步骤十六:i=i+1,跳转到步骤二,直到i=m;
步骤十七:MRE=∑Mrei
其中,结点和模块的聚类系数,以及模块与邻居结点的相关度计算方法如下:
对于一个复杂网络N=<n1,n2,…,np>,对于N中任意结点ni(1≤i≤p),结点ni的聚类系数λni计算公式为:
其中,k是结点ni的度,Eni是结点ni与其邻居结点所实际拥有的边数。
若M是N中的一个社团,社团M的聚类系数λM计算公式为:
m是社团M内结点的个数。
社团M与其邻居结点ni的相关度ΔλM,ni计算公式为:
ΔλM,ni=λnini-M
λni-M是结点ni除社团M之外的聚类系数。
2、基于茶学同义词词林的本体模块映射
本方法通过构建茶学同义词词林,并以此为基础计算虚拟抽取出的本体模块概念间的相似度,实现茶学领域本体模块的映射,生成茶学领域虚拟本体
同义词词林是一个中文同义词词典,最早是由梅家驹提出的,当前被广泛使用的版本是由哈尔滨工业大学在最早版本的基础上扩展而来。目前,哈工大版本的同义词词林收录了大约七万个常用词汇,这些词汇在人民日报语料库中出现频率都不低于3。该版本共分成12个大类,94个中类,1428个小类,每个小类中又被分为若干个词群。根据以上分类,同义词词林为每个词汇设置了一个8位的编码,其中第一位代表词汇所属大类,用一位大写英文字母表示;第二位表示词汇所属中类,用一位小写英文字母表示;第三位、第四位代表词汇所属小类,用两位阿拉伯数字表示;第五位代表词群,用一位小写英文字母表示;第六位、第七位代表词群中的词汇,用两位阿拉伯字母表示;第八位是标记为,用符号=、#、@表示,符号=表示编码表示的是一组同义词,符号#表示编码表示的是一组相关词汇,但不是同义词,符号@表示编码表示的是既不同义,又不相关的词汇。哈工大版本的同义词词林是以通用词汇为主,虽然覆盖领域多,但是每个领域内的专业性词汇却不全。本发明以哈工大版本的同义词词林编码规则为基础,扩展了一批茶学领域专业词汇,形成了一个茶学同义词词林。构建茶学同义词词林的步骤如下:
步骤一:确定茶学同义词词林的收录范围;
步骤二:通过文献、书籍、网络收集茶学领域词汇;
步骤三:对收集的茶学领域词汇按词义进行分类;
步骤四:根据哈工大版同义词词林编码规则,对茶学领域词汇进行编码,形成茶学同义词词林;
步骤五:邀请茶学领域专家对茶学同义词词林进行评估校正。
构建完成茶学同义词词林后,根据相似度公式计算茶学领域本体模块概念间的相似度,并设定阈值,获得相似度大于阈值的概念对,对其增加等价属性,实现茶学领域本体模块的映射,本体概念相似度计算公式为:
c1和c2是分属两个本体模块的概念,i表示c1和c2编码开始不同的层数,N是第i层分支上结点的总数,D是c1和c2的在同义词词林中的距离。
3、基于HBase的茶学领域虚拟本体存储模型
RDF三元组是本体的基础结构。被表示成OWL的本体可以转换成RDF三元组来表示。一个RDF三元组被定义为<s,p,o>,其中s表示主语,p表示谓语,o表示属性。s和o是本体中的概念,可以看做是结点。p是本体中概念间的属性,可以看做是结点间的连线。本方法提出一种基于HBase的茶学领域虚拟本体存储模型,通过两个HBase表格来存储按需虚拟融合的茶学领域本体RDF三元组,分别为SR_P_O表和OR_P_S表,如表1、表2所示。
表1 SR_P_O表存储结构
表2 OR_P_R表存储结构
SR_P_O表中的行键是由s和r组成的。其中r表示抽取本体模块的所依据的需求。虚拟抽取出的本体模块是一个按需所取的知识集合。在访问表格中的知识时,需要首先判断知识是否与需求相关。如果将需求作为属性放入列族,则需要进行全表扫描才能判断知识是否与需求相关。所以将需求放入行键可以提高按需获取的知识的访问效率。SR_P_O表中的列族内部分成了两列,其中一列是Name,用于存放RDF三元组的谓语,即本体属性的名字,另外一列是Value,用于存放RDF三元组的宾语,即本体属性的值。OR_P_R表的结构与SR_P_O表的结构相似。
为验证所提出茶学领域虚拟本体建模方法的有效性,本发明在一台服务器上安装VMware vSphere Hypervisor(ESXi)6.0.0虚拟化平台来模拟云计算环境。在该平台上部署了4个Ubuntu操作系统的虚拟服务器,每个服务器上分别安装了Hadoop 1.1.2、HBase0.94.27和oracle JDK 1.7,形成了一个小型的云计算模型环境。其中1台虚拟服务器所为主服务器,部署了NameNode和JobTracker,另外3台虚拟服务器作为从服务器,分别部署了DataNode和TaskTracker。在此环境下,通过Eclipse平台设计java语言程序对方法进行了验证。
验证的具体步骤如下:
步骤一:将茶学领域相关本体导入HBase数据库;
步骤二:输入需求;
步骤三:根据需求获得与需求相关的茶学领域本体社团;
步骤四:以与需求相关的茶学领域本体社团为基础,对茶学领域知识进行需求相关的局部性判断;
步骤五:更新具有需求相关非局部性的茶学领域本体知识的HBase表行键,实现茶学领域本体模块的按需虚拟抽取;
步骤六:结合茶学同义词词林计算虚拟抽取出的茶学领域本体模块概念间的相似度;
步骤七:设置阈值,为相似度大于阈值的概念对设置等价属性,建立映射关系,生成茶学领域虚拟本体。
通过测试分析,取得了良好的效果,验证了该方法的可行性和有效性。茶学领域虚拟本体建模方法能实现云计算环境下多个茶学本体知识的按需获取,有效提高茶学本体知识的共享和复用效率。

Claims (4)

1.一种茶学领域虚拟本体建模方法,其特征是本建模方法基于云计算的MapReduce框架,本方法包括1个或多个Map任务、以及一个Reduce任务;
本茶学领域虚拟本体建模方法的步骤包括:
1)先由Map任务是对茶学领域本体模块的虚拟抽取,Map任务的个数由所涉及到茶学领域本体的个数确定;Map任务开展茶学领域本体模块虚拟抽取是基于社团划分:首先根据需求对茶学领域本体进行社团抽取,将与需求联系更紧密的茶学领域本体知识划分到一个本体社团中;然后对本体社团内的知识与需求进行相关的局部性判断,获得具有非局部性的本体知识;
局部性判断的方法为:若本体中的某一概念或概念间关系的删除,不能改变用户需求的意义,则该概念或关系具有关于用户需求局部性,否则,该概念或关系具有关于用户需求的非局部性;
2)由Reduce任务是对虚拟抽取出的茶学领域本体模块进行映射,最终生成茶学领域虚拟本体;
Reduce任务对茶学领域本体模块进行映射是基于茶学同义词词林的;先构建茶学同义词词林;然后以同义词词林为基础,计算虚拟抽取出的茶学领域本体模块概念间的相似度,实现茶学本体模块的映射,生成茶学虚拟本体模块;
2.1)构建茶学同义词词林的步骤包括:
步骤一:确定茶学同义词词林的收录范围;
步骤二:通过文献、书籍、网络收集茶学领域词汇;
步骤三:对收集的茶学领域词汇按词义进行分类;
步骤四:根据同义词词林编码规则,对茶学领域词汇进行编码,形成茶学同义词词林;
步骤五:邀请茶学领域专家对茶学同义词词林进行评估校正;
2.2)计算茶学领域本体模块的概念间的相似度,并设定阈值,
获得相似度大于阈值的概念对;然后对该概念对对应的茶学领域本体模块增加等价属性,即得到茶学领域本体模块的映射;
计算茶学领域本体模块概念间的相似度的方法为:
S i m ( c 1 , c 2 ) = &mu; &times; i 5 &times; c o s ( N &times; &Pi; 180 ) &times; ( N - D + 1 N )
c1和c2是分属两个茶学领域本体模块的概念,i表示c1和c2编码开始出现不同的层数,N是第i层分支上结点的总数,D是c1和c2的在同义词词林中的距离。
2.根据权利要求1所述的建模方法,其特征是本建模方法中所涉及的茶学领域虚拟本体知识均储存在HBase数据库中,由建立基于HBase的茶学领域虚拟本体存储模型实现;
建立基于HBase的茶学领域虚拟本体存储模型的方法为:
RDF三元组是本体的基础结构;被表示成OWL的本体转换成RDF三元组来表示;一个RDF三元组被定义为<s,p,o>,其中:s表示主语,p表示谓语,o表示属性;s和o是本体中的概念,看做是结点;p是本体中概念间的属性,看做是结点间的连线;
建立基于HBase的茶学领域虚拟本体存储模型,是通过两个HBase表格来存储按需虚拟融合的茶学领域本体RDF三元组;两个HBase表格分别为SR_P_O表和OR_P_S表,如表1、表2所示:
表1 SR_P_O表存储结构
表2 OR_P_R表存储结构
SR_P_O表中:行键是由s和r组成的,其中:
r表示抽取茶学领域本体模块的所依据的需求;虚拟抽取出的茶学领域本体模块是一个按需所取的知识集合;在访问表格中的知识时,需要首先判断知识是否与需求相关;如果将需求作为属性放入列族,则需要进行全表扫描才能判断知识是否与需求相关;
SR_P_O表中的列族内部分成了两列,其中:
一列是Name,用于存放RDF三元组的谓语,即本体属性的名字,
另外一列是Value,用于存放RDF三元组的宾语,即本体属性的值;
sn是本体中RDF三元组的主语,pn是本体中RDF三元组的谓语,on是本体中RDF三元组的属性,rn表示抽取茶学领域本体模块的所依据的需求。
3.根据权利要求1所述的建模方法,其特征是所述步骤1)的流程为:
输入:O=<C,R>,O是待抽取的茶学领域本体,C是茶学领域本体的概念集,C=<c1,c2,...,cn>,R是茶学领域本体的概念间关系集;
RE=<re1,re2,...,rem>,RE是需求集合;
输出:MRE,MRE是需求相关的茶学领域本体模块;
步骤一:将茶学领域本体O看作是一个复杂网络;
步骤二:将需求rei看作是初始社团,令rei=cM
步骤三:Mi=Mi+cM;Mi是一个茶学领域本体社团;
步骤四:计算Mi的聚类系数λMi
步骤五:计算Mi邻居结点的聚类系数,λi,neighbor1,…,λi,neighborq
步骤六:对于Mi的任意邻居结点j的聚类系数λi,neighborj(1≤j≤q):
若λi,neighborjMi,则计算Mi与邻居结点j的相关度ΔλMi,i,neighborj,并将邻居结点j加到候选集∧;
若λi,neighbor j≤λMi,则跳转到步骤八;
步骤七:找出候选集中相关度Δλ值最大的邻居结点,令结点j为cM,跳转到步骤三;
步骤八:CT=Mi
步骤九:遍历CT,CT是中间集;
步骤十:若ck(1≤k≤n)和rei(1≤i≤m)在本体社团Mi中它们之间不存在任何关系,则ck对于rei有局部性;
步骤十一:将ck从CT中移除,CT=CT-ck,跳转到步骤九,直到遍历结束;
步骤十二:若ck(1≤k≤n)和rei(1≤i≤m)在本体社团Mi中它们之间存在关系,则ck对于rei有非局部性;
步骤十三:将本体社团Mi中与ck存在关系的概念加入到rei生成一个新的rei
步骤十四:将rei从CT中移除,CT=CT-rei,跳转到步骤九,直到遍历结束;
步骤十五:Mrei=C-rei
步骤十六:i=i+1,跳转到步骤二,直到i=m;
步骤十七:MRE=∑Mrei
其中,结点和模块的聚类系数,以及模块与邻居结点的相关度计算方法如下:
对于一个复杂网络N=<n1,n2,…,np>,对于N中任意结点ni(1≤i≤p),结点ni的聚类系数λni计算公式为:
&lambda; n i = 2 E n i k ( k - 1 )
其中,k是结点ni的度,Eni是结点ni与其邻居结点所实际拥有的边数;
若M是N中的一个社团,社团M的聚类系数λM计算公式为:
&lambda; M = &Sigma; l = 1 m &lambda; n i m
m是社团M内结点的个数;
社团M与其邻居结点ni的相关度ΔλM,ni计算公式为:
ΔλM,ni=λnini-M
λni-M是结点ni除社团M之外的聚类系数。
4.根据权利要求1所述的建模方法,其特征是所述步骤2.1)中的步骤四中,同义词词林编码规则是以哈工大版的同义词词林编码规则为基础;
哈工大版本的同义词词林收录了大约七万个常用词汇,这些词汇在人民日报语料库中出现频率都不低于3;该版本共分成12个大类,94个中类,1428个小类,每个小类中又被分为若干个词群;
根据分类,同义词词林为每个词汇设置了一个8位的编码,其中第一位代表词汇所属大类,用一位大写英文字母表示;第二位表示词汇所属中类,用一位小写英文字母表示;第三位、第四位代表词汇所属小类,用两位阿拉伯数字表示;第五位代表词群,用一位小写英文字母表示;第六位、第七位代表词群中的词汇,用两位阿拉伯字母表示;第八位是标记为,用符号=、#、@表示,符号=表示编码表示的是一组同义词,符号#表示编码表示的是一组相关词汇,但不是同义词,符号@表示编码表示的是既不同义,又不相关的词汇。
CN201611087353.5A 2016-12-01 2016-12-01 一种茶学领域虚拟本体建模方法 Active CN106599117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611087353.5A CN106599117B (zh) 2016-12-01 2016-12-01 一种茶学领域虚拟本体建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611087353.5A CN106599117B (zh) 2016-12-01 2016-12-01 一种茶学领域虚拟本体建模方法

Publications (2)

Publication Number Publication Date
CN106599117A true CN106599117A (zh) 2017-04-26
CN106599117B CN106599117B (zh) 2019-12-03

Family

ID=58594621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611087353.5A Active CN106599117B (zh) 2016-12-01 2016-12-01 一种茶学领域虚拟本体建模方法

Country Status (1)

Country Link
CN (1) CN106599117B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447267A (zh) * 2018-10-16 2019-03-08 东北石油大学 融合数据元标准的叙词本体构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117281A (zh) * 2009-12-30 2011-07-06 北京亿维讯科技有限公司 一种构建领域本体的方法
WO2016108085A1 (en) * 2014-12-30 2016-07-07 Oscaro System and method for building, verifying and maintaining an ontology
CN105930531A (zh) * 2016-06-08 2016-09-07 安徽农业大学 一种基于混合模型的农业领域本体知识云维度优选方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117281A (zh) * 2009-12-30 2011-07-06 北京亿维讯科技有限公司 一种构建领域本体的方法
WO2016108085A1 (en) * 2014-12-30 2016-07-07 Oscaro System and method for building, verifying and maintaining an ontology
CN105930531A (zh) * 2016-06-08 2016-09-07 安徽农业大学 一种基于混合模型的农业领域本体知识云维度优选方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
金如忠: "面向动画领域的本体构建与推理研究", 《万方数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447267A (zh) * 2018-10-16 2019-03-08 东北石油大学 融合数据元标准的叙词本体构建方法
CN109447267B (zh) * 2018-10-16 2021-04-06 东北石油大学 融合数据元标准的叙词本体构建方法

Also Published As

Publication number Publication date
CN106599117B (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
Reali et al. Simpler grammar, larger vocabulary: How population size affects language
Castree et al. A dictionary of human geography
CN102117281B (zh) 一种构建领域本体的方法
CA2906651A1 (en) Methods and systems for purposeful computing
CN103500208A (zh) 结合知识库的深层数据处理方法和系统
Serrano‐Pascual et al. Women’s entrepreneurial subjectivity under scrutiny: Expert knowledge on gender and entrepreneurship
Dong et al. [Retracted] An Empirical Study on Application of Machine Learning and Neural Network in English Learning
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN111858962A (zh) 数据处理方法、装置及计算机可读存储介质
Shih et al. A knowledge-based approach to retrieving teaching materials for context-aware learning
Lee et al. A systematic idea generation approach for developing a new technology: Application of a socio-technical transition system
Han et al. Llms as visual explainers: Advancing image classification with evolving visual descriptions
Simperl et al. Combining human and computation intelligence: the case of data interlinking tools
CN114730317B (zh) 使用示意图的构思平台设备及方法
Jin et al. Building a deep learning-based QA system from a CQA dataset
Riaño et al. Design and application of an ontology to identify crop areas and improve land use
Newth Populism in abeyance: the survival of populist repertoires of contention in North Italy
CN106599117B (zh) 一种茶学领域虚拟本体建模方法
CN117217602A (zh) 一种通用化及自动化的无人机任务效能评估指标构建方法
Manna et al. CookingQA: A question answering system based on cooking ontology
Pal et al. Co-clustering triples from open information extraction
Ishizawa Affirmation of cultural diversity–Learning with the communities in the central Andes
CN106203504A (zh) 一种基于最优间隔分布脊回归的网络情感分类方法
Nissan Etymothesis, fallacy, and ontologies: An illustration from phytonymy
Schäfer et al. The Planning Moment: Colonial and Postcolonial Histories

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant