CN102231151A - 一种农业领域本体自适应学习建模方法 - Google Patents

一种农业领域本体自适应学习建模方法 Download PDF

Info

Publication number
CN102231151A
CN102231151A CN2011101292662A CN201110129266A CN102231151A CN 102231151 A CN102231151 A CN 102231151A CN 2011101292662 A CN2011101292662 A CN 2011101292662A CN 201110129266 A CN201110129266 A CN 201110129266A CN 102231151 A CN102231151 A CN 102231151A
Authority
CN
China
Prior art keywords
notion
agent
agriculture field
extracted
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101292662A
Other languages
English (en)
Other versions
CN102231151B (zh
Inventor
李绍稳
刘超
张友华
徐济成
辜丽川
林潇
叶琼
刘金花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Agricultural University AHAU
Original Assignee
Anhui Agricultural University AHAU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Agricultural University AHAU filed Critical Anhui Agricultural University AHAU
Priority to CN201110129266.2A priority Critical patent/CN102231151B/zh
Publication of CN102231151A publication Critical patent/CN102231151A/zh
Application granted granted Critical
Publication of CN102231151B publication Critical patent/CN102231151B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种根据农业领域知识的变化,通过优化本体学习规则的农业领域本体自适应学习建模方法。发明在已有研究成果的基础上,针对农业领域的本体学习的自适应问题,提出一种农业领域本体自适应学习建模方法,主要包括1、农业领域概念自适应提取,2、农业领域概念间关系自适应提取,3、基于多Agent的农业领域本体自适应学习模型集成等。本发明可以有效的提高农业领域本体自动构建的效率,提升所构建的农业领域本体质量,对大规模构建农业领域本体,进一步建立农业语义网络与知识网格,实现农业领域知识的充分共享和协同服务,具有一定的理论研究价值和实际意义。

Description

一种农业领域本体自适应学习建模方法
技术领域
本发明涉及农业语义网络与知识网格领域,公开了一种根据农业领域知识的变化,通过优化本体学习规则的农业领域本体自适应学习建模方法。
背景技术
随着语义网的提出和发展,支持数据、信息与知识的交换、共享和复用已经成为当今的信息系统要迫切面临的任务之一。本体的构建使得领域知识的共享和重用成为可能,它是用于描述或表达某一领域知识或者更大范围的一组概念或术语。目前,多数人认同的本体定义是Gruber提出的“本体是共享概念化的明确的形式化的规范”。基于特定的应用领域的规模或试点的抽象级别,可把本体论分成四种:元级本体、通用本体、领域本体和应用本体农业本体属于领域本体的范畴。按照联合国粮农组织(FAO)的定义,农业本体是一个包含农业术语、定义以及术语间规范关系说明的体系。茶学作为农业科学的一个重要分支,因此构建概念清晰,逻辑结构正确的农业领域本体,可以为茶学知识服务更好数据支持,实现农业领域知识的交换、共享和复用。
我们在构建农业本体的过程中,深刻体会到手工构建领域本体是一项复杂费时的工作。针对手工构建本体出现的种种困难,人们开始进行自动或半自动构建本体技术。而本体学习(Ontology Learning)正是自动或半自动构建本体的一系列方法和技术,它通过利用各种数据源以自动或半自动方式新建或扩充改编已有本体,由此构建一个新本体,为本体的大规模构建和应用指明了方向。本体学习的出现有效解决了完全手工方式构建本体的耗时、费力,易出现倾向性错误并且难于做到及时动态更新等缺点。在过去十年里,出现了许多本体构建工具,这些工具提供了友好的图形化界面和一致性检查机制。借助这些工具,用户可以把精力集中在本体内容的组织上,而不必了解本体描述语言的细节,而且避免了很多错误的发生,方便了本体的构建。但是,这些工具提供的仅仅是本体编辑功能,支持的仍然是手工构建本体的方式,由于手工方法费时、费力,使得本体的构建成为一项艰巨的任务。
本体学习无论是在减少人力消耗上,还是在提高本体构建的质量上,对本体建模理论的研究都具有极大的推动作用。在本体学习过程中,农业知识语料库里的信息,尤其WWW,是在持续增长并不断变化的,为了使所建本体更加合理,需要在自动或半自动构建本体时,根据相关领域知识的变化,实时地对本体学习规则进行优化。
发明内容
本发明在利用本体学习构建农业领域本体的过程中,根据相关数据源的变动、本体服务的需求,以及对已建本体的评估,构建基于多Agent的本体学习自适应调整的决策系统,对本体学习规则库进行不断地改进,以适应外界环境的变化,更好地构建本体。
一种农业领域本体自适应学习建模方法,使用多Agent技术集成预处理Agent、概念自适应提取Agent、概念间分类关系自适应提取Agent、概念间非分类关系提取Agent和自适应Agent。
预处理Agent采用逆向最大匹配算法进行分词预处理。
概念提取Agent在预处理后,采用互信息技术、右上下文依赖分析、领域相关性判断提取农业领域概念。
概念间分类关系提取Agent,在概念提取后,采用层次聚类的方法提取农业领域概念间分类关系。
概念间非分类关系提取Agent,在概念提取后,采用基于关联规则的方法提取农业领域概念间非分类关系。
调整概念提取Agent的自适应Agent通过计算已提取概念的准确率和召回率,结合贝叶斯网络逆向推理,确定需要调整阈值的环节,进行阈值调整。
调整概念间分类关系提取Agent的自适应Agent通过计算已提取概念间分类关系的熵和纯度,结合贝叶斯网络逆向推理,确定需要调整阈值的环节,进行阈值调整。
概念提取Agent使用改进的合成词提取算法进行合成词提取,然后通过领域相关性判断,实现农业领域概念的自适应提取。
概念间分类关系的提取Agent采用概念聚类和簇聚类的层次聚类方法实现农业领域概念间分类关系的提取。
概念间非分类关系提取Agent采用基于关联规则的方法,通过计算支持度和置信度判断概念间是否存在关系。
本发明的有益技术效果是:在已有研究成果的基础上,针对农业领域的本体学习的自适应问题,提出一种农业领域本体自适应学习建模方法,主要包括农业领域概念自适应提取,农业领域概念间关系自适应提取和基于多Agent的农业领域本体自适应学习模型集成等。本发明可以有效的提高农业领域本体自动构建的效率,提升所构建的农业领域本体质量,对大规模构建农业领域本体,进一步建立农业语义网络与知识网格,实现农业领域知识的充分共享和协同服务,具有一定的理论研究价值和实际意义。
附图说明
图1为 基于多Agent的农业领域本体自适应学习模型框架。
图2 为农业领域概念提取的贝叶斯网络图。
图3为  A 、P、R状态表。
图4为农业领域概念间分类关系提取贝叶斯网络。
图5农业领域概念间分类关系提取贝叶斯网络状态表。
具体实施方式
以下实施用例用于说明本发明,但不用来限制本发明的范围。
构建基于多Agent的本体学习自适应调整的决策系统,根据相关数据源的变动、本体服务的需求,以及对已建本体的评估,对本体学习规则库进行不断地改进,以适应外界环境的变化,更好地构建本体。
1、总体结构
多Agent系统以其具有的协作能力和高效性、鲁棒性等特点,被广泛地应用在各个领域。本发明将农业领域概念自适应提取模块、概念间关系自适应提取模块集成为一个多Agent系统模型。模型的主要框架如图1所示,主要包括人机接口、预处理Agent、概念提取Agent、分类关系提取Agent、非分类关系提取Agent和自适应Agent等六个部分。
(1)模块功能
人机接口是为人提供一个与多Agent系统交互的环境,通过人机接口可以向多Agent系统输入农业领域知识、提供自适应Agent所需的贝叶斯网络条件概率表、并获得构建好的农业领域本体;
预处理Agent对输入的农业语料进行预处理,包括去标点符号、分词等,为概念提取Agent提供分词后的字符串文本;
概念提取Agent通过右上下文依赖、互信息技术和领域相关性判断对预处理后的语料进行概念提取。
分类关系提取Agent主要利用聚类的方法提取概念间分类关系,其中概念聚类对采用自下而上的方法对概念进行分类,层次聚类对已经分类的概念进行分层,形成分类体系;
非分类关系提取Agent主要采用关联规则的方法对已提取的概念进行非分类关系提取;
自适应Agent是实现自适应性的重要模块之一,作用于概念提取Agent和分类关系提取Agent,通过所输入的条件概率分布表判断需要调整的环节,并对该环节作出调整,以实现自适应性。
(2)步骤流程
Step 1 用户通过人机接口将茶学语料导入模型系统;
Step 2 用户根据实验数据通过人机接口设定各个自适应Agent的条件概率分布表;
Step 3 茶学语料进入预处理Agent进行分词、去标点等预处理程序;
Step 4 经过预处理后的茶学字符串进入概念提取Agent,通过右上下文依赖、互信息技术、领域相关性判断来进行农业领域概念的提取;
Step 5 在进行农业领域概念提取的过程中,自适应Agent通过对准确率和召回率的计算,对概念提取进行贝叶斯逆向推理,确定需要调整阈值的环节并进行调整,以实现概念的自适应提取;
Step 6 已提取出的农业领域概念,分别进入分类关系提取Agent和非分类关系提取Agent中;
Step 7 已提取的农业领域概念在分类关系提取Agent中通过概念聚类、层次聚类进行农业领域概念间分类关系的提取;
Step 8 在进行农业领域概念分类关系提取的过程中,自适应Agent通过对熵和纯度的计算,对概念间非分类关系进行贝叶斯逆向推理,确定需要调整阈值的环节并进行调整,以实现概念间分类关系的自适应提取;
Step 9 已提取的农业领域概念在非分类关系提取Agent中通过基于关联规则的方法,对农业领域非分类关系进行提取;
Step 10 根据已提取好的农业领域概念、概念间分类关系和非分类关系构建农业领域本体,并通过人机界面返回给用户。
2、农业领域概念自适应提取方法
在概念提取方法中,大致可分为基于词典的方法,基于统计的方法和基于规则的方法等。本文中所用到的概念提取技术都属于基于统计的方法。
上下文依赖分析 (Context Dependency Analysis)是用来判断某个词语组合是否为一个完整的词语,通过分别计算左上下文依赖参数和右上下文依赖参数,并与预先设置的阈值相比较,判断词语组合的完整性。
定义:设x为一词语,L为x左边邻近的词集合,该集合为分词后得到的此单元,可以包含单词,词语等,R为x邮编邻近的词集合。则左上下文依赖和右上下文依赖分别定义为:
左上下文依赖(LCD)
X具有LCD,如果LSize=|L|<t1或者MAXαf(αx)/f(x)>t2,其中x为一词语,L是x左边邻近的词集合,t1,t2代表门限阈值,f (.)是词语频率,α∈L,|L|是x左边邻近词语的数目。
右上下文依赖(RLD)
X具有RCD,如果RSize=|R|<t1或者MAXβf(βx)/f(x)>t2,其中x为一词语,R是x右边邻近的词集合,t1,t2代表门限阈值,f (.)是词语频率,α∈R,|R|是x右边邻近词语的数目。
(2)领域相关性判断
领域相关性判断有多种方法,这些方法的主要思想是,通过公式建立词语频度、语料库文本之间的关系,并计算出领域度值,通过与阈值的比较,判断此词语的领域相关性。其中比较常用的有:
Rel x= f x,T*lg                                                
Figure 2011101292662100002DEST_PATH_IMAGE001
  和  
Figure 480916DEST_PATH_IMAGE002
当|D|=1时,上述方法失效,可以使用词语的频率freq作为领域相关性的评价标准,当词语的频率freq大于门限阈值是,该词语作为候选概念。
互信息(Mutual Information)可以用来评价两个字串之间关联程度。互信息值,即组成词语与合成词语的关联参数值,必须要大于根据经验所预设阈值,才能确定该词是否是一个完整的词语。
定义1:字串a、b的互信息用MIab表示两个字串的a、b之间的关联程度,用公式1计算如下:
Figure 2011101292662100002DEST_PATH_IMAGE003
(公式1)
对于合成词语,MIab值需大于预定义的门限阈值。阈值为经验值,可以根据实验结果来进行调整,最终取最佳值。
定义2:字串a、b、c的互信息用MIabc来表示,用公式2计算如下:
Figure 407284DEST_PATH_IMAGE004
(公式2)
例如合成词“柑橘粉虱”的组成词语“柑橘”与“粉虱”时常一起出现,因此应该组合成一个完整的词语。
在概念提取的过程中,一个文档在分词以后,将需要利用互信息技术和上下文依赖分析对合成词进行提取。由定义1、定义2可知,由于对不同数量的字串所组成的合成词进行判断,所使用的互信息公式不相同。那么,在对未知的文档实际进行概念提取的过程中,互信息公式的使用会对n个字串的合成词判断带来一定的难度。因此,本文提出一种改进的基于互信息技术和右上下文依赖分析的合成词提取方法。算法如下:
步骤一:设分词后的字串序列为x1  x2 …xi-1 / x xi+1… xn-1 / xn,(1<i<n)。其中,设“/”为原文中标点符号的标记。按照分词后的字串顺序,从x1开始进行合成词判断。令xi为字串序列中任意一字串。
步骤二:判断xi的右上下文依赖。如果RSize=|R|<t1或者MAXβf(βx)/f(xi)>t2,则xi具有右依赖,进行步骤三。否则,xi为一个完整词语,将其加入候选概念序列,开始判断xi+1的右上下文依赖。
其中,R是xi右边邻近的词集合,t1,t2代表门限阈值,f (.)是词语频率,α∈R,|R|是xi右边邻近词语的数目。
步骤三:如果xi+1不是中文标记符号,则进行步骤四。否则,xi为一个完整的词语,将其加入候选概念序列。转到步骤二,开始判断xi+2
步骤四:计算xi和xi+1互信息度,如果MIxixi+1>t(t为门限阈值),即xi、xi+1关联程度高,进行步骤五。否则,xi为一个完整词语,将其加入候选概念序列。转到步骤二,开始判断xi+1的右上下文依赖。
步骤五:将字串xi、xi+1合并为一个字串。查询字串序列中与xi的值相等,且右边相邻字串与xi+1相等的字串,将其合并为一个字串。
步骤六:将处理好的字串序列重新按顺序排列,令原来处理的xi、xi+1合并后的字串为xi,并转到步骤二。
在基于统计方法的概念提取过程中,概念提取的效率可能会受到具有不同特征的语料信息的影响。因此,对不同的语料进行概念提取,其门限阈值也可能有所变化。所以每在提取一定量的概念之后,需要利用利用茶学词典,计算所提取概念的准确率(Precision)和召回率(Recall),对已提取的农业领域概念进行评价。
Figure 2011101292662100002DEST_PATH_IMAGE005
(1)
Figure 889167DEST_PATH_IMAGE006
(2)
根据概念提取算法的特点、经验知识和大量实验,设计出的农业领域概念提取的贝叶斯网络(见图2),并为准确率和召回率分别确定阈值,其中准确率的阈值为P1,召回率的阈值为R1。若准确率或召回率小于阈值,则说明概念提取某一环节需要调整。在一次概念提取后,将计算出的准确率、召回率与阈值相比较。因此,可把准确率分为p1、p2两种状态,召回率分为r1、r2两种状态。设概念提取为A,根据算法1可把A分为a1、a2、a3三种状态(见图3)。
在基于贝叶斯网络的农业领域概念提取方法中,通过实验,学习各个节点的条件概率分布。每进行一定量的农业领域概念提取之后,计算已提取概念准确率和召回率,并通过贝叶斯逆向推理得出需要调整的环节,对其阈值进行调整。
3、农业领域分类关系自适应提取方法
基于语言规则的方法和基于广义后缀树的方法主要是针对概念集合中存在大量合成词概念的情况,利用合成词的特点,实现概念间分类关系的提取。然而在农业领域概念中还存在很多非合成词概念,这些概念没有固定的语法模式规则。鉴于这种情况可以采用层次聚类方法对概念间的分类关系进行提取。
(1)层次聚类
层次聚类是一种主要的聚类方法。它具有一些十分必要的特性使得它成为广泛应用的聚类方法。它生成一系列嵌套的聚类树(也称树状图(Dendrogram))来完成聚类。单点聚类(仅包含一个数据点)处在树的最底层,在树的顶层有一个根节点聚类。根节点聚类覆盖了全部数据节点。兄弟节点聚类则划分了他们共同的父节点中的所有数据点。
层次聚类有两种主要的方法:一个是合并(自下而上)聚类方法,这种方法的聚类过程从树状图的最底层开始,每一次通过合并最相似(距离最近)的聚类来形成上一层中的聚类。整个过程当全部数据点都合并到一个聚类(根节点聚类)中时停止。另一个是分裂(自上而下)聚类方法,这种方法的聚类过程从一个包含全部数据点的聚类(根)开始。然后把根节点聚类分裂成一些子聚类。每个子聚类再递归地继续往下分裂直到出现只包含一个数据点的单节点聚类出现,即每个聚类中仅包含一个数据点。在本文中使用的是合并聚类方法。
(2)概念聚类
每个农业领域中概念都可以使用一个向量来表示,那么这些向量就可以组成一个向量空间模型。我们可以通过计算向量距离来表示概念间的相似度。假定有矩阵C=( c 1c 2,… c j,…, c k,…, c n)(1≦j﹤k≦n)。其中,C表示所有的待聚类概念集合, c jc k分别表示其中第j个和第k个待聚类概念。每个概念的特征采用向量( W i1W i2, …,  W ik, … , W in)来表示,则概念j和k之间的相似度Sim( c jc k)可用下面定义的公式进行计算。
Sim( c jc k )= cos( W jpW kp)=
Figure 2011101292662100002DEST_PATH_IMAGE007
   公式4-1
其中,M为特征向量的维数, W p为向量的第P维, W jp = 
Figure 242788DEST_PATH_IMAGE008
,F(j)为j概念在集合中出现的频次,F(p)为k概念在集合中出现的频次,F(j,p)为j,p两个概念在集合中同时出现的频次。
    余弦法的实质是用 W jpW kp两个向量的几何家教的余弦来表示 c jc k 的相似度。若两个向量的夹角越大,那么他们的夹角余弦应该越小,则表示这两个向量所表示的概念词语的相似度越小。否则,相似度越高。
(3)簇聚类
簇间聚类主要通过计算簇间距离来判断簇间的相关程度。一般来说,计算簇间距离有以下三种方法,分别是单链接方法、全链接方法、平均链接方法。
l      单链接方法
在单链接(或单链)层次聚类中,两个聚类之间的距离是两个聚类中距离最近的两个数据点之间的距离,其中这两个数据点分别来自两个不同的聚类。也就是说单链接聚类算法在每一步合并那些最近元素具有最小值的聚类,即具有最短最近数据点的两个聚类。
l      全链接方法
在全链接(或全链)聚类中,两个聚类之间的距离是两个聚类中所有数据点之间的聚类的最大值,也就是说全链接聚类算法在每一步合并哪些最远元素具有最短距离的聚类,即具有最短最远数据点的两个聚类。
l      平均链接方法
平均链接方法是一种介于全链接方法对于异常值的敏感性和单链接方法形成长链的趋势之间的这种方法。在这种方法中,两个聚类之间的距离是两个聚类之中多个数据点对之间的距离之和的平均值。
(4)基于层次聚类的农业领域概念间分类关系提取
    利用层次聚类的方法进行农业领域概念间分类关系提取,首先要对已提取的农业领域概念进行聚类,计算概念集合中的每两个概念之间的相似度,如果该相似度大于预设阈值,那么这两个概念就归并为一簇。当概念集合中的所有概念通过两两计算归并为数个簇之后,开始进行层次聚类,获取概念层次关系。层次聚类采用平均链接方法来计算簇间的相似度,如果簇间相似度大于预定阈值,则进行簇的归并,直到所有的簇都归并为同一簇。
为了更好使用层次聚类方法提取农业领域概念间的分类关系,这就需要我们能够对提取出的分类关系进行评价,通过评价结果来改进提取方法。常用的聚类评价方法有以下三种,用户验证方法(User Inspection)是通过邀请专家来对聚类结果进行验收和评估,为了评估过程的客观性,一般都是由多个专家组成一个专家组来进行打分,然后去平均值;真实数据方法(Ground Truth)采用分类数据集来评估聚类,因为一个分类数据集中有很多类别,而每个类中的数据实例都有相同的属性值;间接评估方法(Indirect Evaluation)主要用于不属于主要人物的聚类操作中,我们可以通过利用主要任务的效率来衡量到底哪个聚类算法对于这个主要任务来是最合适的。下面主要介绍真实数据方法中的熵方法和纯度方法。
设数据集C中的类别集合为S=(s1,s2,…,sn)。聚类算法所生成的n个聚类把数据集C分成了C1,C2,…,Cn
l      熵(Entropy)
我们可以按照以下公式来计算整个聚类的熵值[60]:
Figure 2011101292662100002DEST_PATH_IMAGE009
对于每个聚类的熵值:
Figure 916346DEST_PATH_IMAGE010
其中,Pk(si)是聚类k或者Ck中属于类别si的数据点所占的比列。
l      纯度(Purity)
纯度是用来评价一个聚类中只包含一个类别的数据的程度[61]。整个聚类结果的纯度可以按照一下方法计算。
Figure 2011101292662100002DEST_PATH_IMAGE011
对于每个聚类的纯度:
由于不同的领域语料具有不同的特征,所以不同学科的农业领域概念间分类关系模式也有所区别。此外,所提出的农业领域概念准确性也不尽相同。因此本文提取一种具有自适应性的农业领域概念间分类关系提取方法,该方法以层次聚类算法为基础,通过计算聚类结果的熵和纯度,通过贝叶斯网络逆向推理,确定所需要调整的环节,以达到农业领域概念间分类关系提取的自适应效果。
根据概念提取方法和层次聚类方法的特点、经验知识和大量实验,设计出农业领域概念间分类关系提取的贝叶斯网络(见图4)。并且为熵和纯度分别确定阈值,其中熵的阈值为En,纯度的阈值为Pu。如果熵大于阈值或者纯度小于阈值,则说明某一环节需要调整。因此,在一次概念间的分类关系提取后,计算出熵和纯度,并与阈值相比较,通过贝叶斯网络的逆向推理得出需要调整的环节。农业领域概念间分类关系自适应提取贝叶斯网络状态表(见图5)。
在概念间分类关系提取贝叶斯网络中,考虑到概念间分类关系提取的效果在一定程度上受到提取的概念质量所影响。所以在层次聚类后,通过对聚类结果熵和纯度的计算,利用贝叶斯网络逆向推理确定需要调整的环节。如果是概念聚类或簇聚类需要调整的话,就直接调整其相关阈值。如果是概念提取环节需要调整的话,将通过另外的方法来确定是概念提取中需要调节的具体环节。
4、农业领域非分类关系提取方法
(1)关联规则
设I={i1,i2,…,im}是一个项目的集合(Item)集合,T=(t1,t2,…,tn)是一个(数据库)事务(Transaction)集合,其中每个事务ti是一个项目集合,并满足
Figure 2011101292662100002DEST_PATH_IMAGE013
[62]。
一个关联规则是一个如下形式的蕴含关系,
Figure 971076DEST_PATH_IMAGE014
,其中
Figure 2011101292662100002DEST_PATH_IMAGE015
Figure 964440DEST_PATH_IMAGE016
Figure 2011101292662100002DEST_PATH_IMAGE017
X(或Y)是一个项目的集合,称作项集(Itemset),并称X为前件,Y为后件。
如果项集X是事务
Figure 249927DEST_PATH_IMAGE018
的一个子集,则称ti包含(也称X覆盖ti)。X在T中的支持计数(Support Count)是T中包含X的事务的数目。支持度和置信度(Confidence)是两个常用的衡量关联规则强度的指标[63]。
支持度:规则
Figure 393464DEST_PATH_IMAGE014
的支持度是指T中包含
Figure 2011101292662100002DEST_PATH_IMAGE019
的事务的百分比,计算如下:
                  
Figure 916849DEST_PATH_IMAGE020
置信度:规则
Figure 877852DEST_PATH_IMAGE014
的置信度是指既包含了X又包含了Y的事务的数量占所有包含了X的事务的百分比。
                  
支持度是很重要的评价指标,如果它的值太小了,那么说明这个规则很可能的偶然发生的。而置信度决定了规则的可预测度。如果一条规则的置信度太低,那么从X就很难可靠地推断出Y。所以置信度太低的规则在实际应用中也不会有多大用处。
首先设置支持度阈值Sup和置信度阈值Conf。对于概念集中任意两个概念cj、ck,计算这两个概念的支持度和置信度,若他们支持度大于Sup,并且置信度大于Conf,那么说明概念cj和ck存在关系,具体算法如下:
For(j=1,j≤n,j++)
{
For(k=1,k≤n,k++)
           {
If  支持度(cj,ck)≥Sup and 置信度(cj,ck)≥Conf
Then
             cj,ck具有关系,即
Figure 775270DEST_PATH_IMAGE022
           }
}
5、农业领域本体形式化
在农业领域本体形式化的处理过程中,可采用Jena语义Web开发应用包中的API接口。使用Jena实现本体的形式化,首先就是要建立一个本体模型,之后才能够通过本体模型中所定义的方法操作模型,比如建立类以及类的语义属性,生成实例并赋值。
(1)建立本体模型
本体模型(OntModel)是对Jena RDF模型的扩展(继承自RDF模型),提供了处理本体数据的功能。Jena通过model包中的ModelFactory方法创建本体模型,它可以指定本体的描述语言、推理方式以及存储方式,同时提供了多种本体模型可供选择。例如:
OntModel om = ModelFactory.creatOntologyModel( );
该语句不含参数,默认设置是创建一个本体模型om,它使用OWL语言、基于内存存储、支持RDFS推理。
我们也可以应用模型类别(OntModelSpec)参数来创建不同的模型。例如:
OntModel om = ModelFactory.creatOntologyModel(OntModelSpec.DAML_MEM);该语句创建了一个使用无推理的DAML语言描述的本体模型。
(2)建立类以及类的语义属性
Jena提供了creatClass方法用来创建类。例如:
OntClass Pest = om.creatClass(Tea + “Pest”);
    其中om为(1)中建立的本体模型,Pest为所创建的类名,Tea为生成的本体的URI地址。
本体中主要有两种属性,一种是ObjectType属性,它分别关联该属性的Domain和Range;另一种是DataType属性,主要描述类本身的特征。采用createObjectProperty方法可以生成前一种属性,同时需要制定Domain和Range;采用createDataProperty方法可以生成后一种属性。
(3)生成实例并赋值
在Jena中,为创建的类生成实例,可采用OntModel中的createIndividual方法。先用getOntClass方法获取要创建实例的类并为其设置实例关系,然后再利用getIndividual方法得到要赋予属性的实例,同时采用getOntProperty获取需要关联的语义属性,最后采用Individual中的add方法为实例添加语义属性。

Claims (10)

1.一种农业领域本体自适应学习建模方法,其特征在于,使用多Agent技术集成预处理Agent、概念自适应提取Agent、概念间分类关系自适应提取Agent、概念间非分类关系提取Agent和自适应Agent。
2.如权利1要求所述的一种农业领域本体自适应学习建模方法,其特征在于,预处理Agent采用逆向最大匹配算法进行分词预处理。
3.如权利1要求所述的一种农业领域本体自适应学习建模方法,其特征在于,概念提取Agent在预处理后,采用互信息技术、右上下文依赖分析、领域相关性判断提取农业领域概念。
4.如权利1要求所述的一种农业领域本体自适应学习建模方法,其特征在于,概念间分类关系提取Agent,在概念提取后,采用层次聚类的方法提取农业领域概念间分类关系。
5.如权利1要求所述的一种农业领域本体自适应学习建模方法,其特征在于,概念间非分类关系提取Agent,在概念提取后,采用基于关联规则的方法提取农业领域概念间非分类关系。
6.如权利1要求所述的一种农业领域本体自适应学习建模方法,其特征在于,调整概念提取Agent的自适应Agent通过计算已提取概念的准确率和召回率,结合贝叶斯网络逆向推理,确定需要调整阈值的环节,进行阈值调整。
7.如权利1要求所述的一种农业领域本体自适应学习建模方法,其特征在于,调整概念间分类关系提取Agent的自适应Agent通过计算已提取概念间分类关系的熵和纯度,结合贝叶斯网络逆向推理,确定需要调整阈值的环节,进行阈值调整。
8.如权利3要求所述的一种农业领域本体自适应学习建模方法,其特征在于,概念提取Agent使用改进的合成词提取算法进行合成词提取,然后通过领域相关性判断,实现农业领域概念的自适应提取。
9.如权利4要求所述的农业领域本体自适应学习建模方法,其特征在于,概念间分类关系的提取Agent采用概念聚类和簇聚类的层次聚类方法实现农业领域概念间分类关系的提取。
10.如权利5要求所述的农业领域本体自适应学习建模方法,其特征在于,概念间非分类关系提取Agent采用基于关联规则的方法,通过计算支持度和置信度判断概念间是否存在关系。
CN201110129266.2A 2011-05-19 2011-05-19 一种农业领域本体自适应学习建模方法 Expired - Fee Related CN102231151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110129266.2A CN102231151B (zh) 2011-05-19 2011-05-19 一种农业领域本体自适应学习建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110129266.2A CN102231151B (zh) 2011-05-19 2011-05-19 一种农业领域本体自适应学习建模方法

Publications (2)

Publication Number Publication Date
CN102231151A true CN102231151A (zh) 2011-11-02
CN102231151B CN102231151B (zh) 2016-06-22

Family

ID=44843715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110129266.2A Expired - Fee Related CN102231151B (zh) 2011-05-19 2011-05-19 一种农业领域本体自适应学习建模方法

Country Status (1)

Country Link
CN (1) CN102231151B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831316A (zh) * 2012-08-24 2012-12-19 安徽农业大学 一种基于云本体的茶树虫害智能诊断原型系统
CN104462279A (zh) * 2014-11-26 2015-03-25 北京国双科技有限公司 分析对象特征信息的获取方法和装置
CN104679836A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种农业本体自动扩充方法
CN105653522A (zh) * 2016-01-21 2016-06-08 中国农业大学 一种针对植物领域的非分类关系识别方法
CN106372099A (zh) * 2016-07-07 2017-02-01 安徽农业大学 一种农业领域本体有效性评估方法
CN107103081A (zh) * 2017-04-26 2017-08-29 成都智库二八六信息技术有限公司 一种基于集成层次聚类的文本知识合成的方法
CN107704602A (zh) * 2017-10-16 2018-02-16 西南大学 基于agrovoc的大规模农业语义本体匹配方法
CN110134943A (zh) * 2019-04-03 2019-08-16 平安科技(深圳)有限公司 领域本体生成方法、装置、设备及介质
CN111177322A (zh) * 2019-12-30 2020-05-19 成都数之联科技有限公司 一种领域知识图谱的本体模型构建方法
CN112507060A (zh) * 2020-12-14 2021-03-16 福建正孚软件有限公司 一种领域语料库构建方法及系统
CN112699238A (zh) * 2020-12-29 2021-04-23 厦门市美亚柏科信息股份有限公司 一种基于标签的知识本体构建方法、终端设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074906A1 (en) * 2004-10-05 2006-04-06 Luc Steels Self-organization approach to semantic interoperability in peer-to-peer information exchange
CN101162472A (zh) * 2007-11-21 2008-04-16 中国科学院合肥物质科学研究院 用于农业复杂自适应搜索引擎系统的控制方法
CN101901277A (zh) * 2010-08-25 2010-12-01 华中科技大学 一种基于用户情景的动态本体建模方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074906A1 (en) * 2004-10-05 2006-04-06 Luc Steels Self-organization approach to semantic interoperability in peer-to-peer information exchange
CN101162472A (zh) * 2007-11-21 2008-04-16 中国科学院合肥物质科学研究院 用于农业复杂自适应搜索引擎系统的控制方法
CN101901277A (zh) * 2010-08-25 2010-12-01 华中科技大学 一种基于用户情景的动态本体建模方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘超 等: "农业领域本体自适应学习建模研究", 《农业网络信息》 *
刘超 等: "基于贝叶斯网络的农业领域概念自适应提取方法研究", 《2010年全国模式识别学术会议论文集》 *
徐济成: "面向农业领域的本体学习建模研究", 《中国优秀硕士学位论文全文数据库 信息科技缉》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831316B (zh) * 2012-08-24 2015-02-11 安徽农业大学 一种基于云本体的茶树虫害智能诊断原型系统
CN102831316A (zh) * 2012-08-24 2012-12-19 安徽农业大学 一种基于云本体的茶树虫害智能诊断原型系统
CN104462279B (zh) * 2014-11-26 2018-05-18 北京国双科技有限公司 分析对象特征信息的获取方法和装置
CN104462279A (zh) * 2014-11-26 2015-03-25 北京国双科技有限公司 分析对象特征信息的获取方法和装置
CN104679836A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种农业本体自动扩充方法
CN104679836B (zh) * 2015-02-06 2018-11-20 中国农业大学 一种农业本体自动扩充方法
CN105653522A (zh) * 2016-01-21 2016-06-08 中国农业大学 一种针对植物领域的非分类关系识别方法
CN105653522B (zh) * 2016-01-21 2019-04-05 中国农业大学 一种针对植物领域的非分类关系识别方法
CN106372099A (zh) * 2016-07-07 2017-02-01 安徽农业大学 一种农业领域本体有效性评估方法
CN106372099B (zh) * 2016-07-07 2020-06-16 安徽农业大学 一种农业领域本体有效性评估方法
CN107103081A (zh) * 2017-04-26 2017-08-29 成都智库二八六信息技术有限公司 一种基于集成层次聚类的文本知识合成的方法
CN107704602A (zh) * 2017-10-16 2018-02-16 西南大学 基于agrovoc的大规模农业语义本体匹配方法
CN107704602B (zh) * 2017-10-16 2021-02-02 西南大学 基于agrovoc的大规模农业语义本体匹配方法
CN110134943A (zh) * 2019-04-03 2019-08-16 平安科技(深圳)有限公司 领域本体生成方法、装置、设备及介质
CN111177322A (zh) * 2019-12-30 2020-05-19 成都数之联科技有限公司 一种领域知识图谱的本体模型构建方法
CN112507060A (zh) * 2020-12-14 2021-03-16 福建正孚软件有限公司 一种领域语料库构建方法及系统
CN112699238A (zh) * 2020-12-29 2021-04-23 厦门市美亚柏科信息股份有限公司 一种基于标签的知识本体构建方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN102231151B (zh) 2016-06-22

Similar Documents

Publication Publication Date Title
CN102231151A (zh) 一种农业领域本体自适应学习建模方法
Wang et al. Knowledge graph embedding via graph attenuated attention networks
Gal Uncertain schema matching
Sun et al. Data mining method for listed companies’ financial distress prediction
CN103544242B (zh) 面向微博的情感实体搜索系统
Rossi et al. Transforming graph data for statistical relational learning
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN108763319A (zh) 融合用户行为和文本信息的社交机器人检测方法和系统
CN103092911A (zh) 一种融合社会标签相似度基于k近邻的协同过滤推荐系统
CN108304380A (zh) 一种融合学术影响力的学者人名消除歧义的方法
Baralis et al. CAS-Mine: providing personalized services in context-aware applications by means of generalized rules
Xue et al. Optimizing ontology alignment through memetic algorithm based on partial reference alignment
CN107633093A (zh) 一种供电决策知识图谱的构建及其查询方法
Rinaldi et al. A matching framework for multimedia data integration using semantics and ontologies
Liu et al. The development of fuzzy rough sets with the use of structures and algebras of axiomatic fuzzy sets
Ramkumar et al. A survey on mining multiple data sources
CN103488637A (zh) 一种基于动态社区挖掘进行专家检索的方法
Vu et al. A graph-based approach for inferring semantic descriptions of wikipedia tables
CN102831316B (zh) 一种基于云本体的茶树虫害智能诊断原型系统
Fu et al. IbLT: An effective granular computing framework for hierarchical community detection
Ben Ishak et al. Probabilistic relational model benchmark generation: Principle and application
Chen et al. Research and application of cluster analysis algorithm
CN115293479A (zh) 舆情分析工作流系统及其方法
CN102663123B (zh) 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统
Zhao et al. Semantically structured service community discovery: based on relationship and functionality

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160622

Termination date: 20210519

CF01 Termination of patent right due to non-payment of annual fee