CN107704602A - 基于agrovoc的大规模农业语义本体匹配方法 - Google Patents
基于agrovoc的大规模农业语义本体匹配方法 Download PDFInfo
- Publication number
- CN107704602A CN107704602A CN201710959270.9A CN201710959270A CN107704602A CN 107704602 A CN107704602 A CN 107704602A CN 201710959270 A CN201710959270 A CN 201710959270A CN 107704602 A CN107704602 A CN 107704602A
- Authority
- CN
- China
- Prior art keywords
- top layer
- layer class
- agrovoc
- ontology
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000008569 process Effects 0.000 title claims abstract description 17
- 239000004576 sand Substances 0.000 claims description 27
- 238000001427 incoherent neutron scattering Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 4
- 241000207199 Citrus Species 0.000 description 6
- 235000020971 citrus fruits Nutrition 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 235000013305 food Nutrition 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000003337 fertilizer Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000003895 organic fertilizer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于AGROVOC的大规模农业语义本体匹配方法,包括以下步骤:首先,将目标本体AOs和AOx分别进行预处理;然后,基于AGROVOC词汇集,将目标本体进行顶层类的对齐;在目标本体AOs和AOx的顶层类对齐结果基础上,将目标本体分别进行分割,得到匹配顶层类集合和未匹配顶层类集合;匹配顶层类集合间的元素按本体块进行术语及语义学算法匹配,而未匹配顶层类集合间的元素无法进行分块匹配,直接进行术语及语义学算法匹配;将两者匹配结果合并得到AOs和AOx为目标本体的一种对齐。本发明的优势在于解决了现有本体对齐方法无法直接应用于农业本体的问题,并且可应用于规模巨大的农业本体的对齐。
Description
技术领域
本发明属于农业和信息等领域,涉及农业语义本体匹配和农业领域知识整合。尤其涉及一种基于AGROVOC的大规模农业语义本体匹配方法。
背景技术
语义本体对齐(alignment)是指将相关的两个或者多个语义本体的元素进行匹配,以解决不同知识库的语义异构性,并实现知识的整合。现有的本体对齐方法和技术可分为两种:一种是没有具体应用领域的一般性本体对齐方法(如SAMBO,Falcon等);另一种是针对具体应用领域的本体对齐方法。前者一般基于某些网络词典,如WordNet等,对目标本体进行匹配。后者主要针对生物医疗领域,根据该领域的标准参考词汇,对不同的生物医疗本体进行对齐。
农业领域语义本体主要针对农作物的种植精准管理难题,利用语义网相关技术:RDF(Resource Description Framework)、OWL(Web Ontology Language)、SPARQL(SPARQLProtocol and RDF Query Language)等,将相关领域知识生成可计算的资源,以期实现智能农业决策系统。为支撑农业领域的信息系统开发和知识整合,联合国国际粮农组织(FAO)发布了AGROVOC控制词汇集,目前包含32000个农业概念,其中25个顶层概念。
现有的本体对齐方法和技术无法直接应用到农业领域,其主要原因是农业本体包含大量的领域术语和词汇,而一般的网络词典如WordNet等不能解释这些领域术语和词汇,从而导致一般的本体对齐方法在农业语义本体对齐应用时成功率低,应用效果差。
发明内容
鉴于此,本发明的目的是提供本发明提出一种基于AGROVOC的大规模农业语义本体匹配方法,其目的是解决大规模农业领域语义本体缺乏有效对齐方法的问题。
本发明的目的是通过以下技术方案来实现的,基于AGROVOC的大规模农业语义本体匹配方法,包括以下步骤:
首先,将目标本体AOs和AOx分别进行预处理;
然后,基于AGROVOC词汇集,将目标本体进行顶层类的对齐;在目标本体AOs和AOx的顶层类对齐结果基础上,将目标本体分别进行分割,得到匹配顶层类集合和未匹配顶层类集合;
匹配顶层类集合间的元素按本体块进行术语及语义学算法匹配;未匹配顶层类集合间的元素无法进行分块匹配,直接进行术语及语义学算法匹配;
将两者匹配结果合并得到AOs和AOx为目标本体的一种对齐。
进一步,对语义本体进行预处理,具体包括以下步骤:
(1)本体格式检查:对目标本体进行格式检查,确保其格式为下面3种类型:Resource Description Framework、Resource Description Framework Schema及Ontology Modeling Language;
(2)本体元素名称检查:本体元素包括本体的类、实例和属性;确保元素的名称是有意义的、英文名称拼写完全和正确。
进一步,利用AGROVOC作为参考本体,对目标本体的顶层类进行对齐,目标本体顶层类对齐具体步骤如下:
(1)提取出AOs和AOx的顶层类集合,分别记为:UCs={cs 1,…,cs m},UCx={cx 1,..,cx n};
(2)提取AGROVOC的顶层概念;
(3)将AOs和AOx的顶层类分别与AGROVOC的标准概念对齐;
(4)对齐目标本体AOs和AOx的顶层类;
顶层类对齐具体为:
对于任意的顶层类cs i∈UCs,若存在某个顶层类使得下面3种情况之一成立,则cs i与匹配,记为其中i=1,2,…,m,j=1,2,…,n;
(a)cs i与都匹配于同一个AGROVOC概念;
(b)cs i与匹配于同一个AGROVOC的顶层概念下的不同子概念;
(c)cs i与其中一个匹配于某个AGROVOC的顶层概念,另一个匹配于某个AGROVOC的顶层概念的子概念。
进一步,目标本体匹配顶层类集合的对齐方法为;
(1)基于匹配顶层类集合UCs 1和UCx 1的匹配结果,对目标本体各自进行分块:
对任意的顶层类cs i∈UCs 1,提取与顶层类cs i关联的本体元素作为一个本体块,与顶层类cs i关联的元素包括它的子类SCs(cs i)、实例INSs(cs i)以及相关属性PRs(cs i);对任意的顶层类提取与顶层类关联的本体元素作为一个本体块,与顶层类关联的元素包括它的子类实例以及相关属性
将与顶层类cs i和顶层类对应的本体块分别记为Block(cs i)和则Block(cs i)=SCs(cs i)∪INSs(cs i)∪PRs(cs i),
(2)对给定的Block(cs i)和采用综合的术语匹配2个块的相应元素;
具体步骤和算法如下:
(i)采用字符串近似匹配算法n-gram和edit distance对Block(cs i)和中的元素进行匹配,得到相似度sdng和相似度sded;
(ii)采用语言学算法比较两个本体元素的名字并计算相似度sdling;
(iii)综合字符串近似匹配算法和语言学算法的方法取相应的权重对相似度sdng、sded、sdling进行叠加,获取所比较的本体元素的最终相似度sd;sd=sdng·wng+sded·wed+sdling·wling,wng,wed和wling表示权重;
(iv)对于相关属性PRs(cs i)和相关属性中元素,使用如下2个匹配策略:
(a)对于任意的ps∈PRs(cs i),若存在三元组(ss,ps,os)和(sx,px,ox),且实例ss≡sx及os≡ox,则认为ps≡px;
(b)若ps有定义域类:Ds和Dx且Ds≡Dx,px有定义域类Rs和Rx且Rs≡Rx,则认为ps≡px。
进一步,目标本体未匹配顶层类集合的对齐方法为;
(1)对未匹配顶层类集合UCs 2和UCx 2,采用字符串近似匹配算法n-gram和editdistance对UCs 2和UCx 2中的所有类和实例分别进行匹配,得到元素相似度sdng和相似度sded;
(2)采用语言学算法对UCs 2和UCx 2中的所有类和实例分别进行匹配,并计算相似度sdling;
(3)综合字符串近似匹配算法和语言学算法的方法,取相应的权重对相似度sdng、sded、sdling进行叠加,获取所比较的类和实例的最终相似度sd;sd=sdng·wng+sded·wed+sdling·wling,wng,wed和wling表示权重;
(4)设PRs(cs)和PRx(cx)中元素为关联cs和cx的属性,其中cs和cx是UCs 2和UCx 2中已配对的两个类,使用下述策略匹配属性:
(i)对于任意的ps∈PRs(cs),px∈PRx(cx),若存在三元组(ss,ps,os)和(sx,px,ox),且实例ss≡sx及os≡ox,则认为ps≡px;
(ii)若ps与px有定义域类:Ds和Dx且Ds≡Dx,Rs和Rx且Rs≡R,则认为ps≡px。
由于采用了上述技术方案,本发明具有如下的优点:
本发明所提出的农业领域语义本体匹配方法,与现有技术的区别主要是利用了AGROVOC这一控制词汇集作为本体顶层类的对齐中介,并以此对齐结果分割本体并进行后续的分块匹配。本发明的优势在于解决了现有本体对齐方法无法直接应用于农业本体的问题,并且可应用于规模巨大的农业本体的对齐。本发明为解决农业领域知识整合、未知农业本体解释和重用问题提供了解决方法并奠定了基础。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为基于AGROVOC的大规模农业语义本体对齐方法流程图;
图2为基于AGROVOC的本体顶层类对齐流程图。
具体实施方法
以下将结合附图,对本发明的优选实施例进行详细的描述;应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
图1是基于AGROVOC的大规模农业语义本体对齐方法所包含的过程。设AOs和AOx为目标本体,即:需要对齐的两个相关本体。首先,将目标本体分别进行预处理,其目的是提高匹配准确率和效率。然后,基于AGROVOC词汇集,将目标本体进行顶层类的对齐。在目标本体AOs和AOx的顶层类对齐结果基础上,将目标本体分别进行分割,得到匹配顶层类集合(UCs 1和UCx 1)和未匹配顶层类集合(UCs 2和UCx 2)。匹配顶层类集合间的元素(本体类、实例和属性)按本体块进行术语及语义学算法匹配,而未匹配顶层类集合间的元素无法进行分块匹配,直接进行术语及语义学算法匹配。将两者匹配结果合并得到AOs和AOx为目标本体的一种对齐。
1语义本体预处理
为了提高本体对齐的准确率,在进行匹配前需要对语义本体进行预处理。预处理包括下面两个步骤:
(1)本体格式检查对目标本体进行格式检查,确保其格式为下面3种类型:RDF(Resource Description Framework)、RDFS(Resource Description Framework Schema)及OWL(Ontology Modeling Language)。若目标本体不是上述3种格式,应使用相应工具自动或者人工转换成上述3种格式。
(2)本体元素名称检查本体元素包括本体的类(Class)、实例(Instance)和属性(Property)。需要确保元素的名称是有意义的(例如,以数字为名称的本体元素名:C01,是无意义的)、英文名称拼写完全(例如,表示有机肥,不应表示为:OrgF,而应表示为:OrganicFetilizer)和正确,以期最大程度利用基于字符串及语言学的匹配算法实现不同本体元素间的匹配。本体不同类型的元素名称命名还应遵循W3C的规范和建议。
2基于AGROVOC对齐目标本体顶层类
AGROVOC是联合国粮农组织(FAO,Food and Agriculture Organization of theUnited Nation)发布的农业领域控制词汇集,基于RDF/SKOS(Simple KnowledgeOrganization System)标准,它包含了农业领域的概念(Concept)、概念间的关系(Relation)以及多种语言的标签(Label)。如图2所示,本发明利用AGROVOC作为参考本体,对目标本体的顶层类进行对齐。目标本体顶层类对齐具体步骤如下:
(1)提取出AOs和AOx的顶层类,分别记为:UCs={cs 1,…,cs m},UCx={cx 1,..,cx n}。一般,本体的顶层类数量有限。
(2)提取AGROVOC的顶层概念。表1是AGROVOC的25个顶层概念及其可网络访问的URI(Uniform Resource Identifier)。
(3)将AOs和AOx的顶层类分别与AGROVOC的标准概念对齐。下面以柑橘肥水本体为例,介绍目标本体与AGROVOC的标准概念匹配的具体方法。在进行与AGROVOC概念匹配时,由于AGROVOC有32000个概念,数目较大,本发明提出下面2种方法结合实现目标本体顶层类与AGROVOC的快速匹配。(i)从25个顶层概念出发,逐层向下匹配。例如:柑橘本体类Method,从概念描述:http://aims.fao.org/standards/agrovoc/linked-open-data看出,methods为顶层概念,再点击它的子概念,由关系skos:narrower所链接,得到application methods为与Method匹配概念。(ii)利用AGROVOC的三元组数据库网页查询端,编写SPARQL语句,查询匹配概念。例如:柑橘本体的类CitrusFertilizer,为找到其匹配的概念,用下面的SPARQL查询语句执行语义数据库检索:
SELECT?t?l WHERE
{?s skos:prefLabel"fertilizers"@en.
?s skos:broader?t.
?t skos:prefLabel?l}
返回概念的标签为”fertilizers”的上一层概念c_2798(“farm inputs”),由于该概念不是顶层概念,由其skos:broader关系链接逐步找到其顶层概念为resource,得到匹配结果。表2是柑橘肥水本体的14个顶层类与AGROVOC的标准概念的匹配结果。
表 1 AGROVOC顶层概念
表2柑橘肥水本体顶层类与AGROVOC概念匹配
(4)对齐目标本体AOs和AOx的顶层类第(3)步将目标本体分别与AGROVOC的顶层概念进行了匹配,在此基础上,下面定义顶层类的匹配。
定义 1给定本体AOs和AOx,UCs={cs 1,…,cs m},UCx={cx 1,..,cx n}分别为其顶层类集合。对于任意的类cs i∈UCs,若存在某个类使得下面3种情况之一成立,则cs i与匹配,记为(a)cs i与都匹配于同一个AGROVOC概念;(b)cs i与匹配于同一个AGROVOC的顶层概念下的不同子概念;(c)cs i与其中一个匹配于某个AGROVOC的顶层概念,另一个匹配于该顶层概念的子概念。
这样,本体AOs和AOx的顶层类集合UCs和UCx分别划分为2个部分:匹配顶层类集合(UCs 1和UCx 1)和未匹配顶层类集合(UCs 2和UCx 2),即:UCs=UCs 1∪UCs 2,UCx=UCx 1∪UCx 2,且
3基于本体分割的农业本体匹配
对于大规模语义本体,对本体进行分割是降低本体规模,提升元素匹配效率的重要手段。本发明的本体分块以在第2步中对齐的目标本体顶层类为基础,对目标本体进行分割,形成本体块,然后进行术语层面的匹配。下面介绍目标本体匹配顶层类集合和未匹配顶层类集合的对齐方法。
(1)基于匹配顶层类集合(UCs 1和UCx 1)的匹配结果,对目标本体各自进行分块。对任意的顶层类cs i∈UCs 1,提取与cs i关联的本体元素作为一个本体块。与cs i关联的元素包括它的子类(SCs(cs i))、实例(INSs(cs i))以及相关属性(PRs(cs i))。以柑橘肥水本体的顶层类CitrusFertilizer为例,表3显示了如何使用SPARQL语句获取CitrusFertilizer所关联的元素,并且列出每个查询语句返回的结果。因此,CitrusFertilizer所确定的本体块包含表3所列元素,其中CitrusFertilizer的子类22个,实例32个,属性30个,共计84个本体元素。同理,将与CitrusFertilizer匹配的顶层类的相应本体块提取出,以进行下一步本体块间的匹配。这里,将与cs i和对应的本体块分别记为Block(cs i)和则Block(cs i)=SCs(cs i)∪INSs(cs i)∪PRs(cs i),
表3以顶层类CitrusFertilizer提取的本体块
(2)对给定的Block(cs i)和本发明采用综合的术语匹配2个块的相应元素。具体步骤和算法如下:
(i)采用字符串近似匹配算法n-gram和edit distance对Block(cs i)和中的元素进行匹配。其中,n-gram是根据要匹配的两个字符串的连续子串给出近似度,得到相似度sdng。算法edit distance是比较将一个字符串通过字符操作(删除、插入或替换)将其变为另一个字符串所需字符操作次数,由此得到相似度sded。
(ii)采用语言学算法比较两个本体元素的名字并计算相似度sdling。语言学算法是比较两组词语的相似度,依赖于网络词典(WordNet)提供词语的同义词等关系。
(iii)本发明采用综合上述2种字符串近似匹配算法和语言学算法的方法,取相应的权重对3个相似度进行叠加(公式(1)),获取所比较的本体元素的最终相似度sd。公式(1)的3个权重wng,wed和wling的经验值分别为0.26,0.37和0.37。算法1描述了匹配子类集合SCs(cs i)和中元素的过程。算法1的时间复杂度为O(N2),其中N为集合SCs和SCx基数的最大值。注意到在对本体进行分割后N值大幅度减少,使得时间复杂度大幅度下降。基于上述方法及算法1,可类似地定义匹配INSs(cs i)和中元素的算法。
sd=sdng·wng+sded·wed+sdling·wling (1)
(iv)对于PRs(cs i)和中元素,即关联cs i和的属性,本发明不使用上述字符串近似匹配算法进行对齐,而基于第(iii)步中已匹配的子类和实例,直接地使用如下2个匹配策略:(a)对于任意的ps∈PRs(cs i),若存在三元组(ss,ps,os)和(sx,px,ox),且实例ss≡sx及os≡ox,则认为ps≡px;(b)若ps与px有定义域(值域)类:Ds(Rs)和Dx(Rx),且Ds≡Dx(Rs≡Rx),则认为ps≡px。
(3)对未匹配顶层类集合(UCs 2和UCx 2),(i)首先,分别采用n-gram,editdistance,和语言学算法匹配其类和实例。算法2是对未匹配顶层类集合(UCs 2和UCx 2)中的类进行对齐的过程。算法2的时间复杂度为O(M2),其中M为集合SC2s和SC2x基数的最大值。(ii)再根据类和实例的匹配结果对与实例关联的属性进行对齐,具体方法如下。设PRs(cs)和PRx(cx)中元素为关联cs和cx的属性,其中cs和cx是由算法2确定匹配的类:(a)对于任意的ps∈PRs(cs),px∈PRx(cx),若存在三元组(ss,ps,os)和(sx,px,ox),且实例ss≡sx及os≡ox,则认为ps≡px;(b)若ps与px有定义域(值域)类,Ds(Rs)和Dx(Rx),且Ds≡Dx(Rs≡Rx),则认为ps≡px。
对于农业本体来说,一般情况下,未与AGROVOC匹配的顶层类占少数,故未匹配顶层类集合UCs 2和UCx 2数量有限,上述匹配步骤不会导致整体算法的时间复杂度增加。
本发明的关键在于采用AGROVOC农业领域标准词汇集作为农业本体顶层类(topclass)匹配的中介,这一步骤能提升本体对齐的准确率;在此顶层类匹配的基础上对农业本体进行分割,形成本体块,再进行本体块间的匹配,这一步骤能降低匹配时间复杂度,从而解决了农业领域大规模本体的对齐难题。
以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (5)
1.基于AGROVOC的大规模农业语义本体匹配方法,其特征在于:包括以下步骤:
首先,将目标本体AOs和AOx分别进行预处理;
然后,基于AGROVOC词汇集,将目标本体进行顶层类的对齐;在目标本体AOs和AOx的顶层类对齐结果基础上,将目标本体分别进行分割,得到匹配顶层类集合和未匹配顶层类集合;匹配顶层类集合间的元素按本体块进行术语及语义学算法匹配;未匹配顶层类集合间的元素无法进行分块匹配,直接进行术语及语义学算法匹配;
将两者匹配结果合并得到AOs和AOx为目标本体的一种对齐。
2.根据权利要求1所述的基于AGROVOC的大规模农业语义本体匹配方法,其特征在于:对语义本体进行预处理,具体包括以下步骤:
(1)本体格式检查:对目标本体进行格式检查,确保其格式为下面3种类型:ResourceDescription Framework、Resource Description Framework Schema及OntologyModeling Language;
(2)本体元素名称检查:本体元素包括本体的类、实例和属性;确保元素的名称是有意义的、英文名称拼写完全和正确。
3.根据权利要求1所述的基于AGROVOC的大规模农业语义本体匹配方法,其特征在于:利用AGROVOC作为参考本体,对目标本体的顶层类进行对齐,目标本体顶层类对齐具体步骤如下:
(1)提取出AOs和AOx的顶层类集合,分别记为:UCs={cs 1,…,cs m},UCx={cx 1,..,cx n};
(2)提取AGROVOC的顶层概念;
(3)将AOs和AOx的顶层类分别与AGROVOC的标准概念对齐;
(4)对齐目标本体AOs和AOx的顶层类;
顶层类对齐具体为:
对于任意的顶层类cs i∈UCs,若存在某个顶层类使得下面3种情况之一成立,则cs i与匹配,记为其中i=1,2,…,m,j=1,2,…,n;
(a)cs i与都匹配于同一个AGROVOC概念;
(b)cs i与匹配于同一个AGROVOC的顶层概念下的不同子概念;
(c)cs i与其中一个匹配于某个AGROVOC的顶层概念,另一个匹配于某个AGROVOC的顶层概念的子概念。
4.根据权利要求3所述的基于AGROVOC的大规模农业语义本体匹配方法,其特征在于:目标本体匹配顶层类集合的对齐方法为;
(1)基于匹配顶层类集合UCs 1和UCx 1的匹配结果,对目标本体各自进行分块:
对任意的顶层类cs i∈UCs 1,提取与顶层类cs i关联的本体元素作为一个本体块,与顶层类cs i关联的元素包括它的子类SCs(cs i)、实例INSs(cs i)以及相关属性PRs(cs i);对任意的顶层类提取与顶层类关联的本体元素作为一个本体块,与顶层类关联的元素包括它的子类实例以及相关属性
将与顶层类cs i和顶层类对应的本体块分别记为Block(cs i)和则Block(cs i)=SCs(cs i)∪INSs(cs i)∪PRs(cs i),
(2)对给定的Block(cs i)和采用综合的术语匹配2个块的相应元素;
具体步骤和算法如下:
(i)采用字符串近似匹配算法n-gram和edit distance对Block(cs i)和中的元素进行匹配,得到相似度sdng和相似度sded;
(ii)采用语言学算法比较两个本体元素的名字并计算相似度sdling;
(iii)综合字符串近似匹配算法和语言学算法的方法取相应的权重对相似度sdng、sded、sdling进行叠加,获取所比较的本体元素的最终相似度sd;sd=sdng·wng+sded·wed+sdling·wling,wng,wed和wling表示权重;
(iv)对于相关属性PRs(cs i)和相关属性中元素,使用如下2个匹配策略:
(a)对于任意的若存在三元组(ss,ps,os)和(sx,px,ox),且实例ss≡sx及os≡ox,则认为ps≡px;
(b)若ps有定义域类:Ds和Dx且Ds≡Dx,px有定义域类:Rs和Rx且Rs≡Rx,则认为ps≡px。
5.根据权利要求3所述的基于AGROVOC的大规模农业语义本体匹配方法,其特征在于:目标本体未匹配顶层类集合的对齐方法为;
(1)对未匹配顶层类集合UCs 2和UCx 2,采用字符串近似匹配算法n-gram和edit distance对UCs 2和UCx 2中的所有类和实例分别进行匹配,得到元素相似度sdng和相似度sded;
(2)采用语言学算法对UCs 2和UCx 2中的所有类和实例分别进行匹配,并计算相似度sdling;
(3)综合字符串近似匹配算法和语言学算法的方法,取相应的权重对相似度sdng、sded、sdling进行叠加,获取所比较的类和实例的最终相似度sd;sd=sdng·wng+sded·wed+sdling·wling,wng,wed和wling表示权重;
(4)设PRs(cs)和PRx(cx)中元素为关联cs和cx的属性,其中cs和cx是UCs 2和UCx 2中已配对的两个类,使用下述策略匹配属性:
(i)对于任意的ps∈PRs(cs),px∈PRx(cx),若存在三元组(ss,ps,os)和(sx,px,ox),且实例ss≡sx及os≡ox,则认为ps≡px;
(ii)若ps与px有定义域类:Ds和Dx且Ds≡Dx,Rs和Rx且Rs≡R,则认为ps≡px。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710959270.9A CN107704602B (zh) | 2017-10-16 | 2017-10-16 | 基于agrovoc的大规模农业语义本体匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710959270.9A CN107704602B (zh) | 2017-10-16 | 2017-10-16 | 基于agrovoc的大规模农业语义本体匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107704602A true CN107704602A (zh) | 2018-02-16 |
CN107704602B CN107704602B (zh) | 2021-02-02 |
Family
ID=61184314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710959270.9A Expired - Fee Related CN107704602B (zh) | 2017-10-16 | 2017-10-16 | 基于agrovoc的大规模农业语义本体匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107704602B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231151A (zh) * | 2011-05-19 | 2011-11-02 | 安徽农业大学 | 一种农业领域本体自适应学习建模方法 |
CN102243649A (zh) * | 2011-06-07 | 2011-11-16 | 上海交通大学 | 本体半自动信息抽取处理装置 |
CN102306177A (zh) * | 2011-08-25 | 2012-01-04 | 清华大学 | 一种多策略组合的本体或实例匹配方法 |
CN102629256A (zh) * | 2012-02-29 | 2012-08-08 | 浙江工商大学 | 一种农业信息本体的xml数据信息表示方法 |
CN102637163A (zh) * | 2011-01-09 | 2012-08-15 | 华东师范大学 | 一种基于语义的多层次本体匹配的控制方法及系统 |
CN104484433A (zh) * | 2014-12-19 | 2015-04-01 | 东南大学 | 一种基于机器学习的图书本体匹配方法 |
CN105335487A (zh) * | 2015-10-16 | 2016-02-17 | 北京农业信息技术研究中心 | 基于农业技术信息本体库的农业专家信息检索系统及方法 |
CN105512249A (zh) * | 2015-12-01 | 2016-04-20 | 福建工程学院 | 一种基于紧凑进化算法的本体匹配方法 |
US20160224893A1 (en) * | 2013-09-20 | 2016-08-04 | Namesforlife, Llc | Systems and methods for establishing semantic equivalence between concepts |
CN106372099A (zh) * | 2016-07-07 | 2017-02-01 | 安徽农业大学 | 一种农业领域本体有效性评估方法 |
US20170046425A1 (en) * | 2014-04-24 | 2017-02-16 | Semantic Technologies Pty Ltd. | Ontology aligner method, semantic matching method and apparatus |
CN107133671A (zh) * | 2017-05-26 | 2017-09-05 | 西南大学 | 基于农业八字方针的柑橘知识建模及大规模本体生成方法 |
-
2017
- 2017-10-16 CN CN201710959270.9A patent/CN107704602B/zh not_active Expired - Fee Related
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637163A (zh) * | 2011-01-09 | 2012-08-15 | 华东师范大学 | 一种基于语义的多层次本体匹配的控制方法及系统 |
CN102231151A (zh) * | 2011-05-19 | 2011-11-02 | 安徽农业大学 | 一种农业领域本体自适应学习建模方法 |
CN102243649A (zh) * | 2011-06-07 | 2011-11-16 | 上海交通大学 | 本体半自动信息抽取处理装置 |
CN102306177A (zh) * | 2011-08-25 | 2012-01-04 | 清华大学 | 一种多策略组合的本体或实例匹配方法 |
CN102629256A (zh) * | 2012-02-29 | 2012-08-08 | 浙江工商大学 | 一种农业信息本体的xml数据信息表示方法 |
US20160224893A1 (en) * | 2013-09-20 | 2016-08-04 | Namesforlife, Llc | Systems and methods for establishing semantic equivalence between concepts |
US20170046425A1 (en) * | 2014-04-24 | 2017-02-16 | Semantic Technologies Pty Ltd. | Ontology aligner method, semantic matching method and apparatus |
CN104484433A (zh) * | 2014-12-19 | 2015-04-01 | 东南大学 | 一种基于机器学习的图书本体匹配方法 |
CN105335487A (zh) * | 2015-10-16 | 2016-02-17 | 北京农业信息技术研究中心 | 基于农业技术信息本体库的农业专家信息检索系统及方法 |
CN105512249A (zh) * | 2015-12-01 | 2016-04-20 | 福建工程学院 | 一种基于紧凑进化算法的本体匹配方法 |
CN106372099A (zh) * | 2016-07-07 | 2017-02-01 | 安徽农业大学 | 一种农业领域本体有效性评估方法 |
CN107133671A (zh) * | 2017-05-26 | 2017-09-05 | 西南大学 | 基于农业八字方针的柑橘知识建模及大规模本体生成方法 |
Non-Patent Citations (7)
Title |
---|
WILLEM ROBERT VAN HAGE: "EvaluatingOntology-Alignment Techniques", 《AMSTERDAM:VRIJE UNIVERSITEIT》 * |
YING WANG等: "An ontology-based approach to integration of hilly citrus production knowledge", 《COMPUTERS AND ELECTRONICS IN AGRICULTURE》 * |
刘超等: "农业领域本体自适应学习建模研究", 《农业网络信息》 * |
史斌: "基于本体的农业资源地理信息服务技术研究", 《农机化研究》 * |
李楠等: "基于关联数据的农业知识管理体系——以FAO为例", 《知识管理论坛》 * |
王艺等: "基于语义本体的柑橘肥水管理决策支持系统", 《农业工程学报》 * |
陈彬彬: "基于双语图书本体匹配的推荐系统的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN107704602B (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271626B (zh) | 文本语义分析方法 | |
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
Vicient et al. | An automatic approach for ontology-based feature extraction from heterogeneous textualresources | |
US8712758B2 (en) | Coreference resolution in an ambiguity-sensitive natural language processing system | |
AU2008292779B2 (en) | Coreference resolution in an ambiguity-sensitive natural language processing system | |
US20090138454A1 (en) | Semi-Automatic Example-Based Induction of Semantic Translation Rules to Support Natural Language Search | |
CN102253930B (zh) | 一种文本翻译的方法及装置 | |
CN103229223A (zh) | 使用多个候选答案评分模型提供问题答案 | |
CN103229162A (zh) | 使用候选答案逻辑综合提供问题答案 | |
CN103250129A (zh) | 使用具有受限结构的文本提供具有延迟类型评估的问答 | |
CN102087669A (zh) | 基于语义关联的智能搜索引擎系统 | |
Abdulhayoglu et al. | Use of ResearchGate and Google CSE for author name disambiguation | |
CN106682209A (zh) | 一种跨语言科技文献检索方法及系统 | |
KR101095866B1 (ko) | 웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템 | |
CN112651234B (zh) | 一种半开放信息抽取的方法及装置 | |
CN114297404B (zh) | 一种领域评审专家行为轨迹的知识图谱构建方法 | |
Prudhomme et al. | Automatic Integration of Spatial Data into the Semantic Web. | |
Rowe et al. | Data. dcs: Converting Legacy Data into Linked Data. | |
CN107704602A (zh) | 基于agrovoc的大规模农业语义本体匹配方法 | |
Algosaibi et al. | Using the semantics inherent in sitemaps to learn ontologies | |
Xu et al. | Semantic annotation of ontology by using rough concept lattice isomorphic model | |
US11520989B1 (en) | Natural language processing with keywords | |
Nevzorova et al. | The Semantic Context Models of Mathematical Formulas in Scientific Papers. | |
CN110188169A (zh) | 一种基于简化标签的知识匹配方法、系统及设备 | |
Dung et al. | Ontology-based information extraction and information retrieval in health care domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210202 |