CN101710318A - 蔬菜供应链知识智能获取系统 - Google Patents
蔬菜供应链知识智能获取系统 Download PDFInfo
- Publication number
- CN101710318A CN101710318A CN200910092231A CN200910092231A CN101710318A CN 101710318 A CN101710318 A CN 101710318A CN 200910092231 A CN200910092231 A CN 200910092231A CN 200910092231 A CN200910092231 A CN 200910092231A CN 101710318 A CN101710318 A CN 101710318A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- retrieval
- semantic
- supply chains
- vegetable supply
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种知识获取系统领域,尤其是一种蔬菜供应链知识智能获取系统。本发明的目的是设计一套针对蔬菜供应链领域的知识智能获取系统,借助计算机媒介实现蔬菜供应链知识的有效传播,特别是实现国内外蔬菜供应链领域知识的传递。系统以蔬菜供应链本体模型为支撑,提供关键词检索、语义扩展检索与基于本体模型的语义检索三种检索方式,作为针对专业领域的知识获取工具,本系统具有高的查询效率。可以方便蔬菜供应链参与者、科研人员方便获取专业知识。
Description
技术领域
本发明涉及一种知识获取系统领域,尤其是一种蔬菜供应链知识智能获取系统。
背景技术
我国是农业大国,也是蔬菜生产大国,蔬菜产业在我国农业中占有重要的地位。随着市场经济的发展和国家农业产业结构的调整,在过去10年间,我国的蔬菜产量以每年大约9.3%的速度增加。我国蔬菜播种面积到2007年达到2.6亿亩,总产量5.65亿吨,人均占有量420多公斤。设施蔬菜到2007年达到5000多万亩。另据FAO统计,我国蔬菜播种面积和产量分别占世界的43%、49%,均居世界第一。蔬菜已成为增加农民收入的支柱产业。
但和发达国家相比,我国的蔬菜产业的发展存在着管理落后、信息化水平低、生产流通过程效率低下、流通成本高、产品安全受到质疑等问题。这些问题严重影响了我国蔬菜产业在国际市场上的竞争力。供应链管理(supply chain management,SCM)作为提高现代企业竞争力的重要手段,将其引入我国蔬菜产业生产中已成为提高我国蔬菜产业竞争力的当务之急。
我国蔬菜企业基础设施建设的不完善使得蔬菜供应链的物流成本和信息处理成本非常高,许多重要的技术和方法如JIT和ERP等在蔬菜供应链管理中还没有采用;加之我国蔬菜供应链结构的多样性,蔬菜供应链的参与者往往只考虑自身的利益得失,而很难直接体会到供应链管理所带来的好处。
另外,蔬菜供应链企业缺乏技术支持。和工业企业相比,蔬菜企业的发展十分滞后,蔬菜企业的供应链管理模型并没有被地方政府和农业组织充分意识到,他们往往很少为此提供足够的技术支持。
供应链管理对于中国蔬菜供应链的参与者来说还是一个新的概念。一般来说,我国蔬菜供应链的参与者主要有农民、农产品供应者、商人、收集者、运输者、批发者、零售者、出口商和进口商等。他们中的很多人的教育背景不高,供应链管理作为一个新的概念他们往往很难理解其重要作用而导致接受时间延迟。本发明旨在搜集国内外特别是欧美国家蔬菜供应链专业知识,并提供专业的语义获取技术来为蔬菜供应链知识的传播提供技术支撑。
目前,尽管已经有专业领域如花卉本体库的构建被提出,但针对专业农业知识的智能化知识获取系统仍是一个空白,将农业专业知识和通用的知识获取手段相结合是提高农业知识获取质量和效率的关键,与其相适应的专业知识的搜索推理算法的研究是其中的关键技术。
发明内容
本发明的目的在于提供一种可以解决上述问题的蔬菜供应链知识智能获取系统。
本发明采用如下技术方案:一种蔬菜供应链知识智能获取系统,其特征在于,包括:
一、知识采集
知识采集是知识获取系统建立的第一步骤,也是实现知识加工和提供知识服务的基础。由于蔬菜供应链知识获取系统所管理和提供服务的知识是面向特定领域的(蔬菜供应链管理领域)且涵盖了蔬菜供应链的所有环节(包括仓储、订单管理、运输、配送等),而这一特定领域的知识又以多种形式存在,如互联网知识、书本、专家的经验等。与一般的信息检索系统采用Robot技术从互联网上自动抓取知识的方式不同,要求针对这一特定领域的知识尽可能涵盖多的知识来源。这里采用了手工获取的方式来进行蔬菜供应链领域知识的获取。主要采集的知识是欧洲(德国、希腊、英国等国家)与亚洲(中国)由互联网支持的农产品供应链特别是蔬菜供应链相关的知识。知识采集和知识库建立的目的是缩小中国和欧洲国家在蔬菜供应链管理上的鸿沟,实现知识的共享。我们收集的知识主要包括:领域专家的经验、书本、报纸、案例、学术论文、实践经验等。知识收集的途径主要是互联网搜索、网站知识获取、书本文献查阅、专家走访等。目前我们蔬菜供应链知识库中已经收取了超过415条的相关知识,并且这一数目还在不断的增长中。
数据采集以后存贮在本地数据库中,数据库中的数据项条目如表(1)所示:
二、知识加工
知识采集后,要进行知识的加工处理。为了实现基于本体的智能知识检索,其中最重要的一步是建立领域本体库。领域本体是在领域专家的帮助下建立在本地知识库的基础上的。对于本地知识库中的数据利用RDF表示提取其数据信息。RDF以三元组的形式表示数据,对于以RDF表示的数据通过语义标引和语义映射在领域专家的帮助下实现领域本体库的构建。这其中的主要工作是提取数据信息,将数据项按照领域本体的结构进行组织和安排。这样,在进行信息检索时不仅能获得该数据项的信息还可以获取该数据项和其它数据项之间的关系。如描述领域概念的上下位关系、相似关系等。这也为后面知识服务过程中进行语义推理奠定了基础。
三、知识服务
系统建立的最后一步功能是提供知识服务,整个系统共向用户提供三种知识获取方式:基于关键词的检索、语义扩展检索和基于本体的知识获取。基于关键词的检索是一种传统的信息检索方式,它根据用户的输入采用关键词匹配的方式进行信息的检索。在本系统中提供该功能,一方面为适应用户的传统检索习惯,另一方面可以将这一传统检索技术的检索结果与基于本体的检索技术的检索结果作一个对比。语义扩展的检索是在关键词检索的基础上通过描述领域词汇相关度的词汇表进行语义扩展,经过语义扩展之后再进行信息的检索。基于本体的知识获取是第三种提供知识服务的方式,对于用户的知识检索需求,利用查询语义分析器将用户的查询请求转化为领域本体库中所使用的RDF三元组的形式。这样和在第二步中建立的领域知识本体库中的三元组进行匹配,利用Jena进行解析,把用户所需的知识从本体库和知识库中抽取出来,提供给用户。另外在Jena的基础上还可以进行语义推理、语义检索等知识服务。语义推理主要是利用推理机,推理出本体中所隐含的类之间的关系,从而实现检索语义的扩展。
在知识服务模块共提供给用户三种形式的知识获取方式,包括关键词检索、语义扩展检索和基于本体的语义检索。
(2)关键词检索
关键词检索使用一组有代表性的关键词(索引术语)来描述数据库中的每一项内容。它是一种传统的信息检索方式,目前许多著名的互联网搜索引擎如谷歌(www.google.com)和百度(www.baidu.com)等都是利用用户输入的关键词进行信息的查询。
基于关键词的检索优点和缺点同样明显,优点是简单、快捷、具有较快的检索速度。缺点主要有:1.检索意图表达困难,通常用户很难用一个或几个简单的关键词就能表达自己的检索意图,这导致检索效率不高。2.由于语言中的一词多义或者一义多词现象,使得关键词检索很难解决同义词查询的问题。如对于“Apple”可以理解成蔬菜中的苹果还可以理解成一个著名电脑公司的品牌。另外,由于文化教育背景等的差异,用户查询同样的信息也很可能选用不同的关键词。3.关键词检索的另一个主要问题是所谓的“信息孤岛”问题,由于关键词只能反映原始数据项的描述,不能反映数据项的具体内容,这导致原本存在概念上相关的信息不能反映其内在联系,在检索时也就不能通过一个数据项的信息来获取与其关联的文档信息,这也是语义检索所着力解决的问题。另外,在关键词的检索中,往往过于追求检索的查全率,这导致查询的结果往往数量非常庞大,而用户根难有精力来对其进行分析。
(2)语义扩展检索
通过定义蔬菜供应链领域知识语义词典,在语义词典的支持下经过语义扩展、语义蕴含、语义外延、语义联想等语义扩展得到一组具有较强语义相关性的查询条件集合,在进行语义扩展的过程中可以根据概念间的关系描述,进行相关的语义推理。
基于语义扩展的查询能够提高信息检索的查全率和查准率等参数。然而,由于语义推理过程发生在与用户交互的在线阶段,这势必会增加单位用户的平均服务时间,影响服务器的响应性能,尤其当存在大量并发用户时,系统的性能下降尤为明显。
(3)基于本体的语义检索
通过构建蔬菜供应链领域本体模型,本体模型中描述了蔬菜供应链概念间的关系。通过将本体模型进行形式化表示,加入推理规则来完成对有关元数据的推理处理,得出隐含的检索信息。由于蔬菜供应链本体模型描述了蔬菜供应链知识概念间的相互关系,通过基于本体模型的语义检索可以较好的反映用户检索意图,得到较高的查全查准率。
本发明的目的是设计一套针对蔬菜供应链领域的知识智能获取系统,借助计算机媒介实现蔬菜供应链知识的有效传播,特别是实现国内外蔬菜供应链领域知识的传递。系统以蔬菜供应链本体模型为支撑,提供关键词检索、语义扩展检索与基于本体模型的语义检索三种检索方式,作为针对专业领域的知识获取工具,本系统具有高的查询效率。可以方便蔬菜供应链参与者、科研人员方便获取专业知识。
附图说明
图1是本发明数据库中的数据项示意图;
图2是本发明概念之间的相关性示意图;
图3是本发明系统性能分析示意图;
图4是本发明蔬菜供应链知识智能获取系统结构图;
图5是本发明蔬菜供应链领域概念扩展示意图;
图6是本发明蔬菜供应链本体构建流程图;
图7是本发明中国蔬菜供应链模式;
图8是本发明蔬菜供应链本体中部分类结构;
图9是本发明蔬菜供应链本体中合同生产者类的属性槽;
图10是本发明系统主界面;
图11是本发明关键词搜索模块;
图12是本发明语义扩展搜索模块;
图13是本发明基于本体的语义扩展搜索模块。
本发明的目的、功能及优点将结合实施例,参照附图做进一步说明。
具体实施方式
如图所示,
(一)定义蔬菜供应链语义词典
参照WordNet(wordnet.princeton.edu)的做法对蔬菜供应链领域的概念进行语义分析。建立了用于描述蔬菜供应链概念之间相关性的语义词典。
首先定义了用于描述蔬菜供应链过程中数据的元数据,在进行语义扩展检索时,对于用户提交的初始查询条件,在语义词典的支持下经过语义扩展、语义蕴含、语义外延、语义联想等语义扩展得到一组具有较强语义相关性的查询条件集合,语义扩展过程如附图2所示,在进行语义扩展的过程中可以根据概念间的关系描述,进行相关的语义推理。
(二)本体构建及基于本体的语义检索
(1)使用Protégé构建蔬菜供应链领域本体模型
基于本体的蔬菜供应链管理知识语义获取是系统开发的重点模块。为此首先要构造蔬菜供应链管理本体。
由于本体理论的研究刚刚兴起,目前主要还处于理论研究层面,至今仍没有成熟的基于本体的软件开发框架,而且不同领域具有各自的特点,目前并没有一个统一的构建领域本体的方法。比较有名的本体构造方法主要有:TOVE法、METH本体法、骨架法、KACTUS工程法、SENSUS法、IDEF5法、七步法等。这些领域本体构造方法各具特色,且每一种构造方法都有一个总的流程和各步的操作规则构成。在构造蔬菜供应链本体的过程中采用了类似于七步法的构造方法。由于目前还没有见到与蔬菜供应链领域相关的领域本体,因此,整个本体的构造过程中没有本体重用这一步,整个构造过程共分六步如附图3所示。
首先,分析我国蔬菜供应链运作模式(附图4),确定蔬菜供应链领域的范围,在构造初始阶段给出系统所需的蔬菜供应链领域的所有概念的定义。在第三步中,要建立蔬菜供应链领域本体的框架,在此框架中要描述各个概念及其之间的关系;然后对建立的本体进行编码和形式化表示。最后要对所建立的本体进行检查和评估,以确定所建立的领域本题满足要求并且符合本体建立时所定义的规则。检查的过程中还要看概念是否定义完整以及概念间的关系描述是否完整。另外,构造领域本体的过程是一个不断重复,不断完善的过程。
我们使用Protégé本体建模工具来创建蔬菜供应链领域本体。在Protégé中最左边的一列是类标签,使用类标签导航来创建蔬菜供应链知识本体的所有类结构。在Protégé中类是以层次结构组织的,每个类可以包含子类,类及子类可以定义自己的属性。在刚开始Protégé的类结构中只包含THING类及它的子类SYSTEM-CLASS,其中THING类是Protégé中所有类的父类,SYSTEM-CLASS类定义了一些基本元素包括类、槽等。在Protégé中要创建一个新的类可以通过点击创建类按钮,在类的编辑区可以输入类的相关信息如类的名称、文档、约束等。要创建某个类的子类,首先选中此类然后点击创建类按钮。如创建系统中“商人”类的子类,须先选择“商人”类。附图5是在Protégé3.2中定一个蔬菜供应链本体的部分类结构。
在Protégé中类的属性通过槽(Slot)来描述,创建槽的过程和创建类的过程类似。其中默认值选项可以用来设置所有使用和继承这个槽的类及其实例的默认值。领域(Domain)选项用来确定当前槽所属的领域。附图6是创建的蔬菜供应链管理中“合同生产者”这个类的一个属性槽的实例。
当创建完本体中的类、槽及其约束关系后,再创建类的实例。对于一个类可以创建其多个实例,其槽的属性值应根据定义的约束来输入。对于使用Protégé创建领域本体一方面由于Protégé表达的原因许多的领域知识不能输入,另一方面对于蔬菜供应链本体没有必要输入其全部的信息,因为现实世界中的蔬菜供应链的模型是十分复杂并且是不断发生变化的。只需要输入满足应用需要的内容即可。
在利用Protégé建立好蔬菜供应链领域本体后,保存时选择语言为RDF/XML。RDF(Resource Description Framework)目前已经被认为是表示和处理半结构化数据的最好选择,它已经成为W3C组织推荐的与XML和SOAP等标准并列的标准。采用RDF来表示领域本体模型的核心是建立三元组描述,即将复杂的事物描述简化成一系列的三元组描述。RDF中的每个陈述包含主体、谓词和客体三部分,相对而言,RDF模型的描述能力更强,因此本模型在进行元数据语义编码时选择RDF模型作为参考;本体存储为RDF格式的另一个原因是可以使用Jena工具包在Java程序中解析和使用所定义的领域本体模型。在Protégé保存本体时选择的保存文件类型为OWL形式。
(2)利用Jena解析蔬菜供应链领域本体
对于保存为OWL格式的蔬菜供应链本体,为了实现基于本体的语义检索,利用Jena来解析和使用建立的蔬菜供应链本体。在使用Java和Jena解析本体的过程中主要使用的开发包有:
java.lang.*
java.lang.String.*
java.util.*
com.hp.hpl.jena.rdf.model.*
com.hp.hpl.jena.util.*
com.hp.hpl.jena.rdf.*;
com.hp.hpl.jena.ontology.*;
com.hp.hpl.jena.reasoner.*;
com.hp.hpl.jena.vocabulary.*;
com.hp.hpl.jena.reasoner.rulesys.*;
import java.io.*;
利用Jena解析蔬菜供应链本体模型的第一步是要将本体模型读入,在读入本体模型之前先使用了ModelFactory类中的createDefaultMode()方法创建一个空的基于内存存储的模型(Model或model)。Jena还包含了Model接口的其他实现方式。例如,使用关系数据库的,这些类型Model接口也可以从ModelFactory中创建。
Model model=ModelFactory.createDefaultModel();空的模型创建后,利用Model接口的read函数,读入利用Protégé创建的领域本体模型。
model.read(new InputStreamReader(蔬菜供应链本体模型文件),
″″);然后再创建一个资源,和传统信息检索相比,智能信息检索最大的特点就是在检索过程中引入了资源。资源可以想象成任何可以确定要识别的东西,并被一个统一资源定位符(URI)所标识。
Resource myresource=model.createResource();资源拥有属性(property),属性的名字也是一个URI,每个属性都有一个值。
在进行基于本体的蔬菜供应链语义检索时,对于用户输入的检索要求,要将其转化为RDF的资源对象。然后根据此资源对象来获取建立好的蔬菜供应链领域本体模型的资源对象。然后再使用模型的listSubjectsWithProperty方法来列出本体模型中所有具有给定的属性,且属性值为给定检索值的资源。listSubjectsWithProperty方法的返回值为ResIterator类型,对于获取的具有给定属性的资源通过hasNext方法可以获得所有的满足检索条件的资源。此过程可以用下列代码描述:
ResIterator
iter=model.listSubjectsWithProperty(searchProperty,searchV
alue);
while(iter.hasNext()){
Resource r=iter.nextResource();
}
对于要检索的词及其语义关系,通过模型的
listObjectsOfProperty方法和hasNext方法可以列出对应的所有条目。
NodeIterator
result=model.listObjectsOfProperty(r,searchProperty);
while(result.hasNext()){
temp=result.next();
}
在蔬菜供应链本体模型中定义了蔬菜供应链领域概念并主要描述了这些概念之间的概念上下位关系,和概念之间的等同关系等语义关系。通过对概念及其关系的这种资源形式描述,对于一个领域概念,可以根据检索需求获取其满足给定关系的其它领域概念。并在此基础上实现二次检索。
在利用本体模型进行蔬菜供应链语义元数据的语义处理时。一个很重要的特点是要根据领域本体和推理规则来完成对有关元数据的推理处理,得出隐含的信息,服务于后续的查询操作。以经过语义编码的元数据为推理的起点,根据规则对其进行扩充,求得其所蕴含的更丰富的信息。本体模型的推理方式主要有OWL推理方式、RDFS推理方式、传递推理、自定义规则推理和外部推理机等。传递推理是指基于具有传递特性的属性进行的推理,如:rdfs:subPropertyOf和rdfs:subClassOf属性。这种推理比较简单,也容易实现。RDFS推理基本上可以被OWL推理代替,OWL的推理能力更强。OWL推理方式实际上还只能支持OWL_Lite的推理规则,不支持OWL_DL的推理规则。对于自定义的推理比较复杂,需要自定义完整的推理公理和规则。由于目前Jena的自身推理机效率还不是很令人满意,许多开源项目的推理机经常用来做为外部推理机使用。如Racer,Pellet等,其中Racer还支持OWL_DL规则的推理,效率也比较好。在建立推理规则时使用一个外部文件来定义所需要的推理规则。然后将推理规则读入作为资源的属性:
myresource.addProperty(ReasonerVocabulary.PROPruleMode,″hybrid″);
myresource.addProperty(ReasonerVocabulary.PROPruleSet,″推理规则文件″);
然后创建此推理机的一个实例:
Reasoner reasoner=GenericRuleReasonerFactory.theInstance().create(myresource);
最后将推理机的实例和读入的本体模型的数据结合起来创建一个推理模型。
infModel=ModelFactory.createInfModel(reasoner,数据);
领域本体提供了语义推理所必须的规则和条件,元数据库则为语义推理提供了需要的“土壤”条件。根据语义推理在智能信息检索系统中所处阶段的不同,可在具体的推理系统中,公理往往通过子类、子属性、属性定义域、属性值域、基数限制和互不相交等规范化的术语来描述,由于这些术语的语义已为大众广泛接受,因此,通过它们定义出来的公理知识具有良好的通用性。为此,W3C在RDF和OWL规范中,专门制定了相应的公理定义标签,如rdfs:subClassOf、rdfs:subPropertyOf、rdfs:domain、rdfs:range、owl:equivalentClass等,正是这些规范化的标签使得公理推理部分可以由专门的通用处理程序如Jena的本体推理方法来完成。
根据语义推理在语义万维网体系结构种所处层面的不同,可以分为公理推理和定理推理。公理推理是建立在人们对事物具有共同认识的基础之上,常常是一些有关常识性知识的推理,定理推理则是从具体的应用出发,根据特定的领域规则进行推理。
本体的推理规则文件的制定应当多使用公理推理。如下面是系统中使用的两个公理的推理规则:
[等同关系(?a等同于?c),(?b等同于?c),notEqual(?a,?b)->(?a等同于?b)]
[近义关系(?a近义于?b),(?a近义于?c),notEqual(?b,?c)->(?b近义于?c)]
推理规则可以根据实际需要来进行补充,在补充过程中公理推理和定理推理都是需要的,但从通用性角度出发,应尽可能多的采用公理推理,而减少定理推理在整个推理系统中的比例。
(三)系统界面、检索过程及评测
系统的界面设计参照了谷歌、百度等已有搜索引擎简洁明快的样式,实验系统的主界面如附图7所示。
附图8为利用本系统的关键词搜索模块搜索关键词”supply chain”的结果,共计返回166条相关记录。
附图9为利用本系统的语义扩展搜索模块搜索关键词”supplychain”的结果,共计返回239条相关记录。
附图10为利用本系统的基于本体语义扩展搜索模块搜索关键词”supply chain”的结果,第一次搜索根据本体模型列出了模型中概念之间的语义关系。由于用户在进行信息检索时,一般很难在第一次就准确的描述出检索要求,只有在不断的检索过程逐渐的提炼和明确最终的检索目标。在搜索出给定语义关系的概念后,可以根据用户的检索需求进行基于关键词或者语义扩展的二次搜索得到所需的搜索结果。这样能方便的引导用户检索出所需的文献信息
选取和蔬菜供应链过程相关的五个概念:{agri_product、fruit、inventory、logistics、transportation}来测试知识获取系统的查准率和查全率。由于系统是针对蔬菜供应链领域而建立,在数据收集的过程中数据已经经过了分析和处理,因此对于每种方法的检索结果都具有很高的查准率,重点考察不同检索策略的查全率指标。
由于本体模型中定义了相关概念及其之间的关系,在进行信息检索时其信息查全率接近1,以此为基础分别计算了关键词检索和语义扩展检索的平均查全率指标。可以看到由于在本体模型中对蔬菜供应链知识进行了语义标注,基于本体模型的检索可以获得最高的查全率指标。而对于语义扩展也取得了比传统检索技术-关键词检索好的查全率指标,同时还看到语义扩展检索的效果依赖于语义词典的定义。通过语义词典的扩充,其平均查全率指标还可以进一步提高。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (1)
1.一种蔬菜供应链知识智能获取系统,其特征在于,包括:
一、知识采集
知识采集是知识获取系统建立的第一步骤,也是实现知识加工和提供知识服务的基础。由于蔬菜供应链知识获取系统所管理和提供服务的知识是面向特定领域的(蔬菜供应链管理领域)且涵盖了蔬菜供应链的所有环节(包括仓储、订单管理、运输、配送等),而这一特定领域的知识又以多种形式存在,如互联网知识、书本、专家的经验等。与一般的信息检索系统采用Robot技术从互联网上自动抓取知识的方式不同,要求针对这一特定领域的知识尽可能涵盖多的知识来源。这里采用了手工获取的方式来进行蔬菜供应链领域知识的获取。主要采集的知识是欧洲(德国、希腊、英国等国家)与亚洲(中国)由互联网支持的农产品供应链特别是蔬菜供应链相关的知识。知识采集和知识库建立的目的是缩小中国和欧洲国家在蔬菜供应链管理上的鸿沟,实现知识的共享。我们收集的知识主要包括:领域专家的经验、书本、报纸、案例、学术论文、实践经验等。知识收集的途径主要是互联网搜索、网站知识获取、书本文献查阅、专家走访等。目前我们蔬菜供应链知识库中已经收取了超过415条的相关知识,并且这一数目还在不断的增长中。
数据采集以后存贮在本地数据库中,数据库中的数据项条目如表(1)所示:
二、知识加工
知识采集后,要进行知识的加工处理。为了实现基于本体的智能知识检索,其中最重要的一步是建立领域本体库。领域本体是在领域专家的帮助下建立在本地知识库的基础上的。对于本地知识库中的数据利用RDF表示提取其数据信息。RDF以三元组的形式表示数据,对于以RDF表示的数据通过语义标引和语义映射在领域专家的帮助下实现领域本体库的构建。这其中的主要工作是提取数据信息,将数据项按照领域本体的结构进行组织和安排。这样,在进行信息检索时不仅能获得该数据项的信息还可以获取该数据项和其它数据项之间的关系。如描述领域概念的上下位关系、相似关系等。这也为后面知识服务过程中进行语义推理奠定了基础。
三、知识服务
系统建立的最后一步功能是提供知识服务,整个系统共向用户提供三种知识获取方式:基于关键词的检索、语义扩展检索和基于本体的知识获取。基于关键词的检索是一种传统的信息检索方式,它根据用户的输入采用关键词匹配的方式进行信息的检索。在本系统中提供该功能,一方面为适应用户的传统检索习惯,另一方面可以将这一传统检索技术的检索结果与基于本体的检索技术的检索结果作一个对比。语义扩展的检索是在关键词检索的基础上通过描述领域词汇相关度的词汇表进行语义扩展,经过语义扩展之后再进行信息的检索。基于本体的知识获取是第三种提供知识服务的方式,对于用户的知识检索需求,利用查询语义分析器将用户的查询请求转化为领域本体库中所使用的RDF三元组的形式。这样和在第二步中建立的领域知识本体库中的三元组进行匹配,利用Jena进行解析,把用户所需的知识从本体库和知识库中抽取出来,提供给用户。另外在Jena的基础上还可以进行语义推理、语义检索等知识服务。语义推理主要是利用推理机,推理出本体中所隐含的类之间的关系,从而实现检索语义的扩展。在知识服务模块共提供给用户三种形式的知识获取方式,包括关键词检索、语义扩展检索和基于本体的语义检索。
(1)关键词检索
关键词检索使用一组有代表性的关键词(索引术语)来描述数据库中的每一项内容。它是一种传统的信息检索方式,目前许多著名的互联网搜索引擎如谷歌(www.google.com)和百度(www.baidu.com)等都是利用用户输入的关键词进行信息的查询。
基于关键词的检索优点和缺点同样明显,优点是简单、快捷、具有较快的检索速度。缺点主要有:1.检索意图表达困难,通常用户很难用一个或几个简单的关键词就能表达自己的检索意图,这导致检索效率不高。2.由于语言中的一词多义或者一义多词现象,使得关键词检索很难解决同义词查询的问题。如对于“Apple”可以理解成蔬菜中的苹果还可以理解成一个著名电脑公司的品牌。另外,由于文化教育背景等的差异,用户查询同样的信息也很可能选用不同的关键词。3.关键词检索的另一个主要问题是所谓的“信息孤岛”问题,由于关键词只能反映原始数据项的描述,不能反映数据项的具体内容,这导致原本存在概念上相关的信息不能反映其内在联系,在检索时也就不能通过一个数据项的信息来获取与其关联的文档信息,这也是语义检索所着力解决的问题。另外,在关键词的检索中,往往过于追求检索的查全率,这导致查询的结果往往数量非常庞大,而用户很难有精力来对其进行分析。
(2)语义扩展检索
通过定义蔬菜供应链领域知识语义词典,在语义词典的支持下经过语义扩展、语义蕴含、语义外延、语义联想等语义扩展得到一组具有较强语义相关性的查询条件集合,在进行语义扩展的过程中可以根据概念间的关系描述,进行相关的语义推理。
基于语义扩展的查询能够提高信息检索的查全率和查准率等参数。然而,由于语义推理过程发生在与用户交互的在线阶段,这势必会增加单位用户的平均服务时间,影响服务器的响应性能,尤其当存在大量并发用户时,系统的性能下降尤为明显。
(3)基于本体的语义检索
通过构建蔬菜供应链领域本体模型,本体模型中描述了蔬菜供应链概念间的关系。通过将本体模型进行形式化表示,加入推理规则来完成对有关元数据的推理处理,得出隐含的检索信息。由于蔬菜供应链本体模型描述了蔬菜供应链知识概念间的相互关系,通过基于本体模型的语义检索可以较好的反映用户检索意图,得到较高的查全查准率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910092231A CN101710318A (zh) | 2009-09-08 | 2009-09-08 | 蔬菜供应链知识智能获取系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910092231A CN101710318A (zh) | 2009-09-08 | 2009-09-08 | 蔬菜供应链知识智能获取系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101710318A true CN101710318A (zh) | 2010-05-19 |
Family
ID=42403110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910092231A Pending CN101710318A (zh) | 2009-09-08 | 2009-09-08 | 蔬菜供应链知识智能获取系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101710318A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722569A (zh) * | 2012-05-31 | 2012-10-10 | 浙江理工大学 | 基于rdf图路径游走的知识发现装置及方法 |
CN102819858A (zh) * | 2012-07-30 | 2012-12-12 | 北京中科盘古科技发展有限公司 | 一种动画素材组织和应用的方法 |
CN102968458A (zh) * | 2012-10-31 | 2013-03-13 | 北京百度网讯科技有限公司 | 一种基于永久知识编号的搜索结果优化方法和装置 |
CN102999625A (zh) * | 2012-12-05 | 2013-03-27 | 北京海量融通软件技术有限公司 | 一种检索请求语义扩展方法 |
CN103020283A (zh) * | 2012-12-27 | 2013-04-03 | 华北电力大学 | 一种基于背景知识的动态重构的语义检索方法 |
WO2014061032A1 (en) * | 2012-10-17 | 2014-04-24 | Dulipati V Satish | System and framework for supply chain management |
CN105808734A (zh) * | 2016-03-10 | 2016-07-27 | 同济大学 | 一种基于语义网的钢铁制造过程知识间隐性关系获取方法 |
CN106844652A (zh) * | 2017-01-20 | 2017-06-13 | 上海大学 | 一种基于知识地图的产品知识导航方法 |
CN108549667A (zh) * | 2018-03-23 | 2018-09-18 | 绍兴诺雷智信息科技有限公司 | 一种结构化工程设计知识的语义检索方法 |
CN109325070A (zh) * | 2018-09-21 | 2019-02-12 | 中国科学院重庆绿色智能技术研究院 | 一种基于本体的烹饪知识构建方法与系统 |
CN110023851A (zh) * | 2016-11-23 | 2019-07-16 | 开利公司 | 具有知识库的建筑管理系统 |
CN110070465A (zh) * | 2019-03-20 | 2019-07-30 | 上海德衡数据科技有限公司 | 一种基于多智能体运维的数据中心增值化服务系统 |
CN110633348A (zh) * | 2019-07-30 | 2019-12-31 | 中国人民解放军国防科技大学 | 一种基于本体的高性能计算资源池化索引查询方法 |
CN111221785A (zh) * | 2018-11-27 | 2020-06-02 | 中云开源数据技术(上海)有限公司 | 一种多源异构数据的语义数据湖构建方法 |
CN111552788A (zh) * | 2020-04-24 | 2020-08-18 | 上海卓辰信息科技有限公司 | 基于实体属性关系的数据库检索方法、系统与设备 |
CN111667324A (zh) * | 2020-07-08 | 2020-09-15 | 云南唯恒基业科技有限公司 | 一种基于知识图谱的中药材产业供应链分析系统 |
CN116842142A (zh) * | 2023-08-29 | 2023-10-03 | 南通康盛医疗器械有限公司 | 一种医疗器械智能化检索系统 |
-
2009
- 2009-09-08 CN CN200910092231A patent/CN101710318A/zh active Pending
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722569A (zh) * | 2012-05-31 | 2012-10-10 | 浙江理工大学 | 基于rdf图路径游走的知识发现装置及方法 |
CN102722569B (zh) * | 2012-05-31 | 2014-10-22 | 浙江理工大学 | 基于rdf图路径游走的知识发现装置及方法 |
CN102819858A (zh) * | 2012-07-30 | 2012-12-12 | 北京中科盘古科技发展有限公司 | 一种动画素材组织和应用的方法 |
CN102819858B (zh) * | 2012-07-30 | 2015-07-01 | 北京中科盘古科技发展有限公司 | 一种动画素材组织和应用的方法 |
WO2014061032A1 (en) * | 2012-10-17 | 2014-04-24 | Dulipati V Satish | System and framework for supply chain management |
CN102968458B (zh) * | 2012-10-31 | 2018-10-16 | 北京百度网讯科技有限公司 | 一种基于永久知识编号的搜索结果优化方法和装置 |
CN102968458A (zh) * | 2012-10-31 | 2013-03-13 | 北京百度网讯科技有限公司 | 一种基于永久知识编号的搜索结果优化方法和装置 |
CN102999625A (zh) * | 2012-12-05 | 2013-03-27 | 北京海量融通软件技术有限公司 | 一种检索请求语义扩展方法 |
CN103020283B (zh) * | 2012-12-27 | 2015-12-09 | 华北电力大学 | 一种基于背景知识的动态重构的语义检索方法 |
CN103020283A (zh) * | 2012-12-27 | 2013-04-03 | 华北电力大学 | 一种基于背景知识的动态重构的语义检索方法 |
CN105808734A (zh) * | 2016-03-10 | 2016-07-27 | 同济大学 | 一种基于语义网的钢铁制造过程知识间隐性关系获取方法 |
CN105808734B (zh) * | 2016-03-10 | 2020-07-28 | 同济大学 | 一种基于语义网的钢铁制造过程知识间隐性关系获取方法 |
CN110023851A (zh) * | 2016-11-23 | 2019-07-16 | 开利公司 | 具有知识库的建筑管理系统 |
CN110023851B (zh) * | 2016-11-23 | 2023-04-21 | 开利公司 | 具有知识库的建筑管理系统 |
CN106844652A (zh) * | 2017-01-20 | 2017-06-13 | 上海大学 | 一种基于知识地图的产品知识导航方法 |
CN108549667A (zh) * | 2018-03-23 | 2018-09-18 | 绍兴诺雷智信息科技有限公司 | 一种结构化工程设计知识的语义检索方法 |
CN108549667B (zh) * | 2018-03-23 | 2022-04-08 | 绍兴诺雷智信息科技有限公司 | 一种结构化工程设计知识的语义检索方法 |
CN109325070A (zh) * | 2018-09-21 | 2019-02-12 | 中国科学院重庆绿色智能技术研究院 | 一种基于本体的烹饪知识构建方法与系统 |
CN111221785A (zh) * | 2018-11-27 | 2020-06-02 | 中云开源数据技术(上海)有限公司 | 一种多源异构数据的语义数据湖构建方法 |
CN110070465A (zh) * | 2019-03-20 | 2019-07-30 | 上海德衡数据科技有限公司 | 一种基于多智能体运维的数据中心增值化服务系统 |
CN110633348A (zh) * | 2019-07-30 | 2019-12-31 | 中国人民解放军国防科技大学 | 一种基于本体的高性能计算资源池化索引查询方法 |
CN110633348B (zh) * | 2019-07-30 | 2021-05-04 | 中国人民解放军国防科技大学 | 一种基于本体的高性能计算资源池化索引查询方法 |
CN111552788B (zh) * | 2020-04-24 | 2021-08-20 | 上海卓辰信息科技有限公司 | 基于实体属性关系的数据库检索方法、系统与设备 |
CN111552788A (zh) * | 2020-04-24 | 2020-08-18 | 上海卓辰信息科技有限公司 | 基于实体属性关系的数据库检索方法、系统与设备 |
CN111667324A (zh) * | 2020-07-08 | 2020-09-15 | 云南唯恒基业科技有限公司 | 一种基于知识图谱的中药材产业供应链分析系统 |
CN116842142A (zh) * | 2023-08-29 | 2023-10-03 | 南通康盛医疗器械有限公司 | 一种医疗器械智能化检索系统 |
CN116842142B (zh) * | 2023-08-29 | 2023-12-19 | 南通康盛医疗器械有限公司 | 一种医疗器械智能化检索系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101710318A (zh) | 蔬菜供应链知识智能获取系统 | |
Martinez et al. | Integrating data warehouses with web data: A survey | |
Wang et al. | Q2semantic: A lightweight keyword interface to semantic search | |
Martínez-Prieto et al. | Exchange and consumption of huge RDF data | |
CN103646032B (zh) | 一种基于本体和受限自然语言处理的数据库查询方法 | |
CN100416570C (zh) | 一种基于问答库的中文自然语言问答方法 | |
CN100440224C (zh) | 一种搜索引擎性能评价的自动化处理方法 | |
Andrews et al. | A classification of semantic annotation systems | |
CN1858737B (zh) | 一种数据搜索的方法和系统 | |
CN102722542B (zh) | 一种资源描述框架图模式匹配方法 | |
Tran et al. | SemSearchPro–Using semantics throughout the search process | |
CN101169780A (zh) | 一种基于语义本体的检索系统和方法 | |
Trillo et al. | Using semantic techniques to access web data | |
US8977625B2 (en) | Inference indexing | |
CN102360367A (zh) | 一种xbrl数据搜索方法及搜索引擎 | |
CN102081660B (zh) | 基于语义相关的xml文档关键字检索排序方法 | |
CN103425740A (zh) | 一种面向物联网的基于语义聚类的物资信息检索方法 | |
Mehrbod et al. | Matching heterogeneous e-catalogues in B2B marketplaces using vector space model | |
Bouramoul et al. | How ontology can be used to improve semantic information retrieval: the AnimSe finder tool | |
Jiang et al. | The technology of intelligent information retrieval based on the semantic web | |
Ben Mustapha et al. | Semantic search using modular ontology learning and case-based reasoning | |
Gómez Berbís et al. | SEAN: Multi-ontology semantic annotation for highly accurate closed domains | |
Suryanarayana et al. | Stepping towards a semantic web search engine for accurate outcomes in favor of user queries: Using RDF and ontology technologies | |
Kotis et al. | Learning useful kick-off ontologies from Query Logs: HCOME revised | |
Chen et al. | A semantic query approach to personalized e-Catalogs service system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20100519 |