CN101482875A

CN101482875A - 信息查询方法及其装置

Info

Publication number: CN101482875A
Application number: CNA2008102410221A
Authority: CN
Inventors: 王杨; 宋阳; 郭飞; 李波; 孙大勇; 齐冬
Original assignee: China Mobile Group Beijing Co Ltd
Current assignee: China Mobile Group Beijing Co Ltd
Priority date: 2008-12-24
Filing date: 2008-12-24
Publication date: 2009-07-15

Abstract

本发明提供一种信息查询方法及其装置。该方法包括：接收用户输入的查询请求；将输入的所述查询请求转换为本体查询请求；根据所述本体查询请求在预存领域本体、和/或模糊本体中进行查询；判断是否获得与所述本地查询请求匹配的查询结果；若判断结果为获得所述查询结果，则将所述查询结果进行显示其中，所述领域本体是指对信息资源的语义的描述；所述模糊本体是指对信息资源所包含的词语、以及各个词语之间关系的描述。通过本发明利用基于语义网的技术获得领域本体和模糊本体来进行信息查询，查询快速且查询结果准确，大大提高查询效率；使得用户很容易找到真正需要的信息。

Description

信息查询方法及其装置

技术领域

本发明涉及通信网络技术，特别涉及信息查询方法及其装置。

背景技术

随着信息技术的不断改进发展，企业应用自己的信息系统来实现系统内部管理和业务数据分析的途径也在不断成熟和发展。中国移动飞信也有自己的信息管理系统，即飞信业务管理平台。在该飞信业务管理平台上可以对飞信的业务数据进行查询、统计、分析，并对飞信的业务配置和系统配置进行管理。

若实现信息系统的管理，需要能够迅速、准确地查询信息系统内部的相关信息。目前飞信业务管理的信息查询技术主要有两种类型，即分类目录和基于关键字的全文检索。由于飞信业务管理平台内包含有大量的飞信业务信息、技术信息、运维管理信息、运营支撑信息，并且这些信息之间还互相关联。

因此，在实现本发明的过程中发明人发现现有技术的缺陷在于：查询结果不准确，不能反映用户的真实需求；查询结果中有太多垃圾信息，用户难以从中找到自己真正需要的信息等。

发明内容

本发明实施例的目的在于提供一种信息查询方法及其装置。通过利用基于语义网的技术获得领域本体和模糊本体来进行信息查询，查询快速且查询结果准确，大大提高查询效率；通过本发明使得用户很容易找到真正需要的信息。

为实现上述目的，本发明实施例提供一种信息查询方法，该方法包括：接收用户输入的查询请求；将输入的所述查询请求转换为本体查询请求；根据所述本体查询请求在预存领域本体、或模糊本体中进行查询；判断是否获得与所述本地查询请求匹配的查询结果；若判断结果为获得所述查询结果，则将所述查询结果进行显示；其中，所述领域本体是指对信息资源的语义的描述；所述模糊本体是指对信息资源所包含的词语、以及各个词语之间关系的描述。

为实现上述目的，本发明实施例提供一种信息查询装置，该装置包括：

请求接收单元，所述接收单元用于接收用户输入的查询请求；

请求转换单元，所述转换单元用于将输入的所述查询请求转换为本体查询请求；

查询单元，所述查询单元用于根据所述本体查询请求在预存领域本体、或模糊本体中进行查询；其中，所述领域本体是指对信息资源的语义的描述；所述模糊本体是指对信息资源所包含的词语、以及各个词语之间关系的描述；

判断单元，所述判断单元用于判断是否获得与所述本地查询请求匹配的查询结果；

显示单元，若所述判断单元的判断结果为获得所述查询结果，所述显示单元用于将所述查询结果进行显示。

本发明实施例的有益效果在于，通过利用基于语义网的技术获得领域本体和模糊本体来进行信息查询，查询快速且查询结果准确，大大提高查询效率；通过本发明使得用户很容易找到真正需要的信息。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1是现有语义网的体系结构示意图；

图2本发明实施例1的查询装置构成示意图；

图3是本发明实施例2的查询装置构成示意图；

图4是图3中领域本体获取单元的构成示意图之一；

图5是图3中领域本体获取单元的构成示意图之二；

图6是图5中分析提取单元的构成示意图；

图7是图3中模糊本体获取单元的构成示意图；

图8是本发明实施例3的飞信管理平台体系架构图；

图9是本发明应用实例4的信息查询方法流程图；

图10是本发明实施例5的查询方法流程图；

图11是本发明实施例5中建立领域本体的流程图；

图12是形式化概念格的示意图；

图13是本发明实施例5中的模糊形式化概念格的示意图；

图14是本发明实施例5中的聚合后的概念结构示意图；

图15是本发明实施例5中的建立模糊本体的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图，对本发明实施例作进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本发明实施例提供一种信息查询方法及其装置。

近年来语义网逐渐成为WWW领域的研究热点以及智能化网络服务和应用开发中的关键技术之一。语义网是由Tim Berners-Lee提出的使Web内容能被机器理解的构想。它为有逻辑内涵的Web内容提供语义结构及相应的信息访问和集成机制，从而为构建一个能够按需集成各种信息、完成特定任务的信息管理奠定基础。

因此，本发明实施例基于语义网来实现信息的查询。以语义网技术为基础，利用语义网技术对信息系统中领域概念进行本体建模，然后根据本体模型用带有语义的元数据对信息资源进行描述，并以此为基础来支撑整个信息系统的信息查询。

首先对一些基本概念进行说明。

领域本体是对信息资源进行概念上的建模，它类似于面向对象技术中类的概念，它是对信息资源进行语义描述的一个基础模型。描述一个具体信息资源的语义过程就叫元数据标注。一个元数据标注类似于一个对象，它是一个本体模型的实例。

元数据标注是根据本体对概念的定义来对信息进行语义描述，在该模型中它有手工标注和自动标注两种方式。手工标注适合在创建一个信息资源的时候直接对这个信息进行元数据描述，自动标注适合对已有的信息资源进行元数据描述。

模糊本体是是指对信息资源所包含的词语、以及各个词语之间关系的描述，包括放大或缩小。建立模糊本体的基本想法是：在信息系统的信息查询中，有时候用户自己很难清楚地表达出自己的需求，在这样的情况下我们应该提供一些查询的修改建议来让用户逐步地理解自己的真实需求，从而让用户找到最满足他需求的查询。

实施例1

本发明实施例提高一种信息查询装置，如图2所示，该装置包括请求接收单元201、请求转换单元202、查询单元203、判断单元204和显示单元205；其中，该接收单元201用于接收用户输入的查询请求；该转换单元202用于将输入的该查询请求转换为本体查询请求；该查询单元用于根据该本体查询请求在预存领域本体、或模糊本体中进行查询；该判断单元204用于判断是否获得与该本地查询请求匹配的查询结果；若该判断单元204的判断结果为获得该查询结果，该显示单元205用于将该查询结果进行显示。

如图2所示，该装置还包括关键字查询单元206，若该判断单元204的判断结果为未获得与该本地查询请求匹配的查询结果，该关键字查询单元206用于根据输入的该查询请求利用基于关键字的方式进行查询，以获得查询结果；该显示单元205还用于将获得的查询结果进行显示。该关键字查询的方式可采用限于的任何一种方式，此处不再赘述。

如图2所示，该装置还可包括存储单元207，该存储单元207用于储存该领域本体和/或模糊本体，供查询单元使用。

在本实施例中，可根据该本体查询请求进行领域本体查询、或者模糊本体查询。但是，在较为复杂的场景可进行领域本体查询和模糊本体查询。

在领域本体查询中，可在预存领域本体数据库中进行查询，获得与本体查询请求匹配的查询结果。

在模糊本体查询中，可在预存模糊本体数据库中进行查询，获得查询结果。在本实施例中，该查询结果不仅包括与该本体请求匹配的结果，还包括该本体请求对应的推荐的查询条件，由于模糊本体的场景就是用户不能很清楚地表达自己的查询需求，因此，在模糊本体查询中可在语义上给用户推荐其他查询条件。

由上述实施例可知，基于语义网，先将输入的查询请求转换为本体查询请求，这样，可在预先获取的领域本体、模糊本体中进行查询，查询快速且准确，满足用户多方面的要求。若采用该方式未获得查询结果时，可采用传统的基于关键字查询的方式进行检索，以获得相应的查询结果。

实施例2

本发明实施例提供一种信息查询装置，如图3所示，该装置包括请求接收单元201、请求转换单元202、查询单元203、判断单元204、显示单元205、关键字查询单元206和存储单元207，其作用与实施例1类似，此处不再赘述。

此外，该装置还可包括排序单元301，在该查询单元203获得该查询结果之后，该排序单元301用于对所述查询结果进行排序；该显示单元205还用于将排序后的该查询结果进行显示。

在本实施例中，该排序单元301根据相似度大小对查询结果进行排序。

此外，为例查询单元203更加方便的查询，可将该本体查询请求进行预处理。这样，该装置还可包括预处理单元(未示出)，该预处理单元用于对该本体查询请求进行预处理；这样，该查询请求可根据该预处理后的本体查询请求在预存领域本体、或模糊本体中进行查询。

在本实施例中，可以预先建立领域本体，以获得领域本体。这样，如图3所示，该装置还包括领域本体获取单元302，用于获取该领域本体。

在本实施例中，该领域本体这个部分是对企业内各种信息，信息的属性，信息之间的关系进行显式的概念建模，以此来达到信息的共享和机器能够对信息的进行理解的目的。

例如，对于飞信项目组内部有很多技术专用术语，但并不是所有的术语都有统一的名称，如飞信有一个核心服务叫SIP-C Access Proxy，也有简称叫SAP，或者SAP2.0等等；同时也存在用一个名称代表不同的对象的情况，例如缩写SS，既可以表示“服务器端”，也可以表示“速配交友服务”。因此，对于这些含有二义性的专业术语如果采用传统的基于关键字的搜索方式，会得到很多无用的结果，在这种情况下，我们就要针对飞信的业务和技术知识建立领域本体，获取领域本体，使机器可以理解一个对象的真实含义。

在本实施例中，建立该领域本体，即获取领域本体有两种方式：一种是在飞信内部专家的协助下直接对概念进行建模，以获取领域本体，这种方式适合第一次进行概念建模或者对新的概念进行建模的情况。另外一种方式是通过对已有信息的分析，来提取出领域本体模型。

因此，如图4所示，该领域本体获取单元302，包括标注单元401和第一转换单元402；其中，该标注单元401用于利用本体建模语言对信息资源进行标注，以生成文本形式的描述文件；该第一转换单元402用于将文本形式的描述文件转换为数据库的表格形式的描述文件，以获得该领域本体。

在本实施例中，该标注单元401根据领域本体的定义对具体的信息资源进行标注，产生有语义的元数据，其中，可以使用RDF和RDFS语言作为元数据标注语言，RDF描述资源对象，使得所描述的资源的元数据信息成为机器可理解的信息。RDF Schema使用一种机器可以理解的体系来定义描述资源的词汇，其目的是提供词汇嵌入的机制或框架，在该框架下多种词汇可以集成在一起实现对资源的描述。

例如，飞信领域专家通过本体语言对信息资源对应的概念建模，以获得领域本体，可采用以下方式进行标注，其中代码片段如下：

<Service1>dc:title″CRBT″.

<Service1>dc:creator<WuHaodong>.

<service1>dc:coverage<Surrounding Service>

<Service1>dc:deploy<ss-01>.

<Service2>dc:title″IBS″.

<Service2>dc:creator<Lihao>.

<service2>dc:coverage<Core Service>

<Service2>dc:deploy<ss-02>.

<Service2>dc:deploy<ss-03>.

<Wuhaodong>rdf:type<Manager>.

<Wuhaodong>worksIn<FOSS>.

<Lihao>rdf：type<Develpoer>.

<Lihao>worksIn<SS>.

<ss-01>rdf:type<Server>.

<ss-01>locatedIn<G1001>.

<ss-02>rdf:type<Server>.

<ss-02>locatedIn<G1002>.

<ss-03>rdf:type<Server>.

<ss-03>locatedIn<G1003>.

<Surrounding Service>dependenton<Core Service>

在该例子中描述了两个服务Service1和Service2，其中Service1的名称是“CRBT”，创建人是“WuHadodong”，服务类型是“Surrounding Service”；该服务部署在“ss-01”上；Service2的名称是“IBS”，创建人是“Lihao”，服务类型是“Core Service”，该服务部署在“ss-02”和“ss-03”上。而对象“WuHadodong”的身份是“Manager”，他所在的部门是“FOSS”；对象“Lihao”的身份是“Developer，他所在的部门是“SS”。“ss-01”，“ss-02”和“ss-03”都是一种“Server”，其中“ss-01”位于“G1001”中，“ss-02”和“ss-03”分别位于“G1002”和“G1003”中。“SurroundingService”依赖于“Core Service”。

在进行标注后，将该文本格式的描述文件转换为表格形式的描述文件，并将该转换后的描述文件储存在该存储单元207中。其中，该第一转换单元402可采用本体转换器实现。上述方式适用于第一次进行概念建模或对新的概念建模的情况。

此外，还可通过对已存在信息的分析，来提取获得领域本体模型。在本实施例中，这种获得领域本体的过程是一种自动建立领域本体的方式。它借鉴了传统搜索引擎中索引器的工作方式，从信息中自动提取出本体描述文件，然后将该描述文件进行转换处理，然后存储在存储单元207中。

在这种情况下，如图5所示，该领域本体获取单元302包括分析提取单元501和第二转换单元502；其中，该分析提取单元501用于对信息资源进行分析，以获得文本形式的描述文件；该第二转换单元502用于将文本形式的描述文件转换为数据库的表格形式的描述文件，以获得该领域本体。

在本实施例中，该存在的信息资源可由企业内部资源(文档、网页)获得，但不限于此，还可用其它方式获得。

在本实施例中，对于飞信系统内部包括非结构化、半结构化的信息，该分析提取单元501可从该非结构化、半结构化的信息中自动提取本体。

在本实施例中，可采用形式化概念分析方法来自动提取本体。

此外，考虑到该形式化概念分析方法还有一些局限性，比如不能很好得表达概念间相似度的大小，从而导致不易对概念按照相关度的大小进行排序。基于这种情况，在本实施例中，在该形式化概念分析方法的基础之上，还可采用模糊形式化概念分析方式来自动提取本体，该方式引入了相似度的概念，可以对概念按照相似度大小进行排序。

以下以使用该模糊形式化概念分析方式行自动提取本体进行说明。在这种情况下，如图6所示，该分析提取单元502可包括模糊形式化概念分析单元601、概念聚集单元602和概念的本体转换单元603。其中，该模糊形式化概念分析单元601用于对该信息资源进行模糊形式化概念分析，以生成该信息资源对应的概念的模糊形式化概念格；该概念聚集单元602用于将该模糊形式化概念格中的相似的概念进行聚集，以生成概念层次结构；该概念的本体转换单元603，用于将该概念层次结构转换为本体。其中，该本体为文本形式的描述文件。

由上述实施例可知，图4和图5的两种获取领域本体的这两种方式往往可以是混合采用的，可以互相补充，使本体更加完善。

此外，在信息系统的信息查询中，有时候用户自己很难清楚地表达出自己的需求，在这样的情况下，不仅需要提供与本体查询请求匹配的结果，而且还需要提供一些查询的修改建议，即查询条件来让用户逐步地理解自己的真实需求，从而让用户找到最满足他需求的查询。

因此，在这种情况下，考虑到满足用户的更多的需求，还需要获得模糊本体。因此，如图3所示，该装置还包括模糊本体获取单元303。

例如，在飞信项目中，要在飞信业务管理平台上查询短信故障的相关信息，由于查询人也不知道短信故障是由哪些服务引起的，因此他无法知道要查询哪些服务的具体信息。但如果建立了模糊本体，就可以把“短信故障”这个本体和“SMS服务”，“IBS服务”本体联系起来，让查询人在查询“短信故障”的时候把相关服务的查询也提示出来，这样查询人就很清楚如果要进一步分析短信故障原因，需要去查询哪些服务的信息。

在这种情况下，可首先对资源信息的描述信息进行分析，这个描述信息是从索引中获取的。经过分析可以得出描述信息所包含的词语在语义上的“放大”或“缩小”关系，这种关系包括两种情况：语义上的“放大”或“缩小”；其中“放大”关系表示扩大搜索的范围，以显示更多的结果，“缩小”关系表示缩小搜索的范围，使搜索结果更精确。这样，在用户提交查询请求后，在查询结果中可以列出语义上“放大”或“缩小”的查询，这样可以让用户一步一步地查询到自己需要的信息。

如图7所示，该模糊本体获取单元303可包括：

索引单元701，用于索引资源信息文件，以获得所述资源信息的描述信息；

模糊本体生成单元702，用于根据所述描述信息生成相应的模糊本体。

如图3所示，该装置还可包括管理单元304，用于对各种信息进行管理。例如，进行安全管理、数据访问管理、用户权限管理等。

此外，该装置还可包括信息提供单元(图中未示出)，用于为该领域本体获取单元302和模糊本体获取单元303提供原始的资源信息。

在本实施例中，该查询装置可用于任何信息查询领域。

由上述实施例可知，基于语义网建立领域本体和模糊本体，以获得领域本体、模糊本体。当进行查询时，可根据预建的领域本体、模糊本体中进行查询，查询快速且准确，满足用户多方面的要求。若采用该方式未获得查询结果时，可采用传统的基于关键字查询的方式进行检索，以获得相应的查询结果。

实施例3

以下结合附图8、并且结合语义网的体系构成说明该查询装置的具体应用。以利用该语义网建立飞信业务管理平台为例进行说明。

首先参照图1对语义网的基本架构体系进行说明。如图1所示，该体系结构共有七层，自下而上其各层功能逐渐增强。其中，

第一层：Unicode和URI。Unicode是一个字符集，该字符集中所有字符都用两个字节表示，可以表示65536个字符，基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合，并且可以同时进行检索。URI(Uniform Resource Identifier)，即统一资源定位符，用于唯一标识网络上的一个概念或资源。在语义Web体系结构中，该层是整个语义Web的基础，其中Unicode负责处理资源的编码，URI负责资源的标识。

第二层：XML+NS+xmlschema。XML是一个精简的SGML，它综合了SGML的丰富功能与HTML的易用性，允许用户在文档中加入任意的结构，而无需说明这些结构的含意。NS(Name Space)即命名空间，由URI索引确定，目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema是DTD(Docu-ment Data Type)的替代品，它本身采用XML语法，但比DTD更加灵活，提供更多的数据类型，能更好地为有效的XML文档服务并提供数据校验机制。正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XMLSchema所提供的多种数据类型及检验机制，使其成为语义Web体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构，通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。

第三层：RDF+RDF Schema。RDF是一种描述WWW上的信息资源的一种语言，其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势，进行基于Web的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题，使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话，那么RDF就可以看作为一种标准化的元数据语义描述规范。RDFSchema使用一种机器可以理解的体系来定义描述资源的词汇，其目的是提供词汇嵌入的机制或框架，在该框架下多种词汇可以集成在一起实现对Web资源的描述。

第四层：Ontology vocabulary(本体)。该层是在RDF(S)基础上定义的概念及其关系的抽象描述，用于描述应用领域的知识，描述各类资源及资源之间的关系，实现对词汇表的扩展。在这一层，用户不仅可以定义概念而且可以定义概念之间丰富的关系。

第五至七层：Logic、Proof、Trust。Logic负责提供公理和推理规则，而Logic一旦建立，便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证，证明其有效性。通过Proof交换以及数字签名，建立一定的信任关系，从而证明语义Web输出的可靠性以及其是否符合用户的要求。

本发明实施例以语义网技术为基础，利用语义网技术对信息系统中领域概念进行本体建模，然后根据本体模型用带有语义的元数据对信息资源进行描述，并以此为基础来支撑整个信息系统的信息查询。

图8是本发明基于语义网建立的飞信业务管理平台的体系结构示意图。如图8所示，该框架可以分为四层，下面我们来分别介绍这四层：

数据层：和一般的企业信息系统不同的是这个框架中的数据层包含两类结构化的数据：普通的数据库，和存储本体的本体数据库，上述数据可储存在一个存储器中、或者使用不同的存储器分别进行存储。

如图8所示，该文档及网页资源由信息提供单元提供，领域本体获取单元可从非结构化和半结构化的网页和文档，以及结构化的数据库中生成领域本体，然后将该领域本体存储在本体库中。在这个框架中生成该领域本体的方法可以不同，产生的领域本体也可以存储在不同的本体数据库中，因此，这个框架可以很灵活地进行扩充。该层是把语义网技术引入到了企业信息系统中来，对飞信业务监控和管理相关的信息和数据进行了语义建模，这为该企业信息系统的中间服务以及应用提供了语义支持，这也是该企业信息系统框架和一般的企业信息系统的最大区别。此外，模糊本体获取单元还可从上述网页、文档、以及结构化的数据库中生成模糊本体。

基础门户服务层：这一层几乎提供了所有的企业信息系统都必须具备的基础服务，如安全管理，数据访问管理，用户权限管理，单点登录机制。这一层为中间服务层提供了基础的功能支持。

中间服务层：该层的主要作用实现企业内的业务逻辑。由于企业信息系统一个最主要的功能就是让企业员工方便地获取信息，而目前获取信息最主要的方式还是搜索引擎，因此，基于语义的搜索引擎成为了这个框架的核心，它基于数据层中的本体库，为用户提供基于语义的查询，从而使搜索结果能够更满足用户的需求。该服务层可以根据业务需要进行扩充，而且由于有数据层的支持，可以实现基于语义的扩充。

应用层：应用层提供了供最终用户使用的功能。在这一层我们列出了一些企业信息系统的主要功能。该层可以根据中间服务层进行扩充，可以为用户提供更多的功能。

其中，该基于语义的搜索引擎可采用实施例1或实施例2的信息查询装置，其构成此处不再赘述。

实施例4

本发明实施例提供一种信息查询方法，如图9所示，该方法包括：接收用户输入的查询请求(见步骤901)；将输入的该查询请求转换为本体查询请求(见步骤902)；根据该本体查询请求在预存领域本体、或模糊本体中进行查询(见步骤903)；判断是否获得与该本地查询请求匹配的查询结果(见步骤904)；若判断结果为获得该查询结果，则将该查询结果进行显示(见步骤905)。

在步骤904中，若判断结果为未获得与该本地查询请求匹配的查询结果，则该方法还包括：根据输入的所述查询请求利用基于关键字的方式进行查询，以获得查询结果；(见步骤906)，将获得的查询结果进行显示(见步骤907)。

在本实施例中，在步骤901中输入查询请求，例如，通常用户输入的查询请求是基于关键字的查询请求，例如，输入查询请求是：“SAP or IBS”，该查询表示要查询有关SAP或者IBS的的内容；

在本实施例中，若该本体查询请求需要RDF格式的查询格式，在步骤902中，将该SAP or IBS关键字转换为RDF格式的本体查询请求，这样，转换过来就是：

<OR>rdf:Operators</OR>。

这样，可根据该查询请求在预建的领域本体、或模糊本体数据库中进行查询。

在模糊本体查询中，可在预存模糊本体数据库中进行查询，获得查询结果。在本实施例中，该查询结果不仅包括与该本体请求匹配的结果，还包括该本体请求对应的推荐的查询条件，由于模糊本体的场景就是用户不能很清楚地表达自己的查询需求，因此，在模糊本体查询中可在语义上给用户推荐其他查询条件，这样，该用户可根据该查询条件进一步进行查询，直到获得准确的查询结果。

由上述实施例可知，当进行查询时，可根据预建的领域本体、模糊本体中进行查询，查询快速且准确，满足用户多方面的要求。若采用该方式未获得查询结果时，可采用传统的基于关键字查询的方式进行检索，以获得相应的查询结果。

实施例5

本发明实施例提供一种信息查询方法，其过程如图10所示，该方法还包括：

步骤1001，获取并储存领域本体和模糊本体。

首先，对获取领域本体进行说明。

在本实施例中，获取领域本体有两种方式：一种是在飞信内部专家的协助下直接对概念进行建模，以获取领域本体，这种方式适合第一次进行概念建模或者对新的概念进行建模的情况。另外一种方式是通过对已有信息的分析，来提取出领域本体模型。

第一种方式：

利用本体建模语言对信息资源进行标注，以生成文本形式的描述文件；将文本形式的描述文件转换为数据库的表格形式的描述文件，以获得该领域本体。

如图4所示，该标注单元401根据领域本体的定义对具体的信息资源进行标注，产生有语义的元数据，其中，可以使用RDF和RDFS语言作为元数据标注语言，RDF描述资源对象，使得所描述的资源的元数据信息成为机器可理解的信息。RDF Schema使用一种机器可以理解的体系来定义描述资源的词汇，其目的是提供词汇嵌入的机制或框架，在该框架下多种词汇可以集成在一起实现对资源的描述。

例如，飞信领域专家通过本体语言对信息资源对应的概念建模，可采用方式进行标注，其中代码片段如下：

<Service1>dc:title″CRBT″.

<Service1>dc:creator<WuHaodong>.

<service1>dc:coverage<Surrounding Service>

<Service1>dc:deploy<ss-01>.

<Service2>dc:title″IBS″.

<Service2>dc:creator<Lihao>.

<service2>dc:coverage<Core Service>

<Service2>dc:deploy<ss-02>.

<Service2>dc:deploy<ss-03>.

<Wuhaodong>rdf:type<Manager>.

<Wuhaodong>worksIn<FOSS>.

<Lihao>rdf:type<Develpoer>.

<Lihao>worksIn<SS>.

<ss-01>rdf:type<Server>.

<ss-01>locatedIn<G1001>.

<ss-02>rdf:type<Server>.

<ss-02>locatedIn<G1002>.

<ss-03>rdf:type<Server>.

<ss-03>locatedIn<G1003>.

<Surrounding Service>dependenton<Core Service>

上述方式较适用于第一次进行概念建模或对新的概念建模的情况。

第二种方式：

通过对已存在信息的分析来提取获得领域本体。

在本实施例中，这种获得领域本体的过程是一种自动建立领域本体的方式。它借鉴了传统搜索引擎中索引器的工作方式，从信息中自动提取出本体描述文件，然后将该描述文件进行转换处理，然后存储在存储单元207中。

在这种情况下，该存在的信息资源可由企业内部资源(文档、网页)获得，但不限于此，还可用其它方式获得。

在本实施例中，对于飞信系统内部包括非结构化、半结构化的信息，可采用形式化概念分析方法来自动提取本体。

此外，考虑到该形式化概念分析方法还有一些局限性，比如不能很好得表达概念间相似度的大小，从而导致很难对概念按照相关度的大小进行排序。在本实施例中，在该形式化概念分析方法的基础之上，还可采用模糊形式化概念分析方式，该方式引入了概念相似度，可以对概念按照相似度大小进行排序。

因此，该第二种方式采用模糊形式化概念分析方式提取领域本体。以下对该采用模糊形式化概念分析方式进行详细说明，如图11所示，该方式可采用如下步骤：

步骤1101，对信息资源进行模糊形式化概念分析，生成模糊化概念格；

在本实施例中，模糊形式化概念分析是把模糊逻辑引入的形式化概念分析中来，用来表达那些模糊的信息。

为了更清楚的解释我们的分析方法，我们要先做一些定义：

定义1：形式化上下文。它是一个三元组K＝(O，P，R)，其中O表示对象的集合，P表示属性的集合，R表示O到P的一个模糊关系集合，即R＝O×P。其中对每一个关系(o，p)∈R都有一个值μ(o，p)，且μ(o，p)∈[0，1]。

形式化上下文的概念也可以用表来进行描述，例如，有三个文档D1、D2、D3，具有三个属性B(Biztalk)、E(Exchange)、S(SQL Server)，代表文档描述的主题，文档和属性间的关系可以用μ(o，p)描述，μ(o，p)的值越大，说明文档与属性间的关系越近。如表1所示为描述的形式化上下文：

表1 形式化上下文描述

文档	属性B	属性E	属性S
文档	属性B	属性E	属性S	D1	0.7	0.1	0.6
D2	0.9	0.8	0.2	D1	0.7	0.1	0.6
D2	0.9	0.8	0.2	D3	0.1	0.3	0.7

在本实施例中，在现有的形式化上下文的基础上，增加了一个阀值的概念，即可以对文档和属性间关系的值设定一个阀值T，低与这个值时，可以认为该文档与该属性不相关。例如，当设置该阀值T＝0.5时，则带阀值的形式化上下文就转换为表2的形式。

表2 带阀值的形式化上下文描述

文档	属性B	属性E	属性S
文档	属性B	属性E	属性S	D1	0.7	—	0.6
D2	0.9	0.8	—	D1	0.7	—	0.6
D2	0.9	0.8	—	D3	—	—	0.7

在本实施例中，可认为对形式化概念的描述就是形式化概念的属性，这样对象和概念间的关系就等于对象和概念不同属性间关系的一个交集。因此，该对象和属性间的每一个关系都可以用形式化上下文中的μ(o，p)的值来表示，根据模糊理论，该对象与属性所有关系交集的μ(o，p)的值等于μ_min(o，p)。

定义2：给定一个形式化上下文K＝(O，P，R)和一个阀值T，我们定义

A * = {p &Element; P | &ForAll; o &Element; A : μ (o, p) &GreaterEqual; T},

其中

A &SubsetEqual; O .

B * = {o &Element; O | &ForAll; p &Element; B : μ (o, p) &GreaterEqual; T},

其中

B &SubsetEqual; P .

形式化上下文中带阀值T的一个模糊形式化概念可以表示为：(A_f＝ω(A)，B)，其中

A &SubsetEqual; O,

B &SubsetEqual; P,

A^*＝B，B^*＝A。对每一个对象o∈ω(A)都一个关系值μ_o，μ_o定义为：μ_o＝minμ(o，p)(p∈B)。

从这个公式我们可以看出如果属性集合B为空时，μ_o ^＝1

定义3：假设(A₁，B₁)，(A₂，B₂)是形式化上下文k＝(O，P，R)中的两个模糊形式化概念，如果概念(ω(A₁)，B₁)是概念(ω(A₂)，B₂)的子概念，表示为：(ω(A₁)，B₁)≤(ω(A₂)，B₂)，那么当且仅当

ω (A_{1}) &SubsetEqual; ω (A_{2})

时，(ω(A₂)，B₂)是(ω(A₁)，B₁)的父概念。

定义4：模糊形式化概念格。一个模糊形式化概念格是一个带阀值T的形式化上下文K的集合F(K)，并且在这个形式化上下文K中所有的模糊形式化概念都应该满足≤的偏序化关系。

定义5：模糊形式化概念K₁＝(ω(A₁)，B₁)和它的子概念K₂＝(ω(A₂)，B₂)间的相似度定义为：

E (K_{1}, K_{2}) = \frac{| ω (A_{1}) \cap ω (A_{2}) |}{| ω (A_{1}) \cup ω (A_{2}) |} .

通过这些定义我们可以知道对于表1如果采用形式化概念分析方法可以得到一个形式化概念格，如图12所示。如果采用模糊形式化概念分析方法则可以得到如图13所示的形式化概念格。

比较图12和图13所示的概念格，可以看出采用模糊形式化分析的方法可以提供更多的额外信息，例如，每个模糊形式化概念中对象和属性间关系的值以及模糊形式化概念之间的相似度的值，这些信息对构造概念结构非常重要。

举例说明获取模糊形式化概念之间的相似度的值的方法。如图13所示，概念C1包含属性B，有两个文档D1和D2都包含属性B，其中D1和属性B的相关度是0.7，D2和属性B的相关度是0.9；概念C3包含属性B、E，同时包含属性B、E的只有文档D2，且D2和属性B的相关度是0.8(根据前面的定义，取文档D2和属性B、E之间相关度较小的值，由于0.8<0.9，因此，此处的相关度为0.8)，根据公式

E (K_{1}, K_{2}) = \frac{| ω (A_{1}) \cap ω (A_{2}) |}{| ω (A_{1}) \cup ω (A_{2}) |},

C1和C2间的相关度为D2/D1+D2＝0.8/0.7+0.9＝0.5(其中C1和C2的交集为D2，C1和C2的并集为D1和D2)，同理可获得概念C1和C4之间的相似度为0.38；C2和C4之间的相似度为0.46，如图13所示，此处不再赘述。

步骤1102，根据生成的概念格进行概念聚集，以生成概念层次结构。

该概念聚集的含义是把相似的形式化概念聚集在一起，在形式化概念分析中即使不同概念只有很小的区别，也是把这些概念作为一系列独立的概念。这在实际的应用中会导致很多本来是相同的概念被分为了不同的概念，这样既不能满足我们的需要也不降低了本体查询的准确性和效率。

因此，在本实施例中，将一些相似的概念聚集在一起，形成一个概念集。而对相似的衡量正是基于定义5的相似度，这样，可预先设置一个相似度阀值Ts，如果两个概念的相似度大于该预设阀值，则可以将这两个概念聚集在一起。

定义6：概念集。对于一个相似度阀值为Ts的模糊形式化概念格K，概念集Sk是K的一个子集，并且Sk满足下面这样一些属性：

Sk存在一个最小上界概念Cs，其中Cs不和它的任何父概念相似。

对于Sk中的任何一个概念C≠C_s，C都至少有一个父概念C′∈S_k，满足E(C，C′)>T_s。

如果令该相似度阀值T_s＝0.5，则对图13中的模糊形式化概念格可以得到概念集：{C1，C3}，{C2}，{C4}，因为概念C1和C3的的相似度大于等于0.5，因此，可以对C1，C3进行聚集，得到一个概念集。经过概念聚合后，可以从图13中的概念格得到图14的概念结构。

在本实施例中，生成该概念集的算法Cluster如下：

Input：模糊形式化概念格F(K)，概念格中的起始概念Cs，相似度阀值Ts

Output：概念集Sk

Process：

1.S_k←{}

2.F′(K)←空的模糊形式概念格

3.把C_s加入到F′(K)中

4.for each F(K)中C_s的子概念C′

5.F′(C′)←Cluster(C′，F(K)，T_s)

6.ifE(C_s，C′)<T_sthen

7.S_k←S_k∪{F′(C′)}

8.else

9.将F′(C′)插入到F′(K)中，并将sup(F′(K))作为C_s的子概念

10.end foreach

11.S_k←S_k∪F′(K)

步骤1103，进行概念的本体转换，以生成本体。该本体为文本形式，如本实施例5中的Service1和Service2的标注形式。

步骤1104，将该文本形式的本体转换为数据库表格形式的本体；

步骤1105，存储转换后的本体到存储单元207中。

其次，对获取模糊本体进行说明。

在信息系统的信息查询中，当用户自己很难清楚地表达出自己的需求时，需要提供一些查询的修改建议来让用户逐步地理解自己的真实需求，从而让用户找到最满足需求的查询结果。

在本实施例中，提出一种逐步精确用户查询的方法：建立一个模糊本体来表达用户查询请求中不同词语之间的联系，这种联系包括两种情况：语义上的“放大”和“缩小”。其中，可预先建立模糊本体来表达用户查询请求中不同词语之间的联系，当用户提出了一个查询请求以后，然后在该“放大”和“缩小”两个方向上给出一些查询建议，可让用户选择更满足他需要的查询。这个过程不断进行，直到用户找到最满足需要的查询结果。

为了详细说明该算法，首先定义语义的“放大”和“缩小”。

假设C＝(i₁，i₂，...，i_n)表示n个信息的集合，i＝(t₁，t₂，...，t_n)表示该信息用n个词语来描述。如果一个描述词语tj在信息i中出现了，则用occur(t_j，i)表示，k_occur(t_j，i)表示在信息i中出现频率，k_occur(t_j，i)＝f(|t_j|)，其中函数f定义如下：

定义一个词语t_i比词语t_j在语义上“缩小”的程度为NT(t_i，t_j)，NT(t_i，t_j)的值为k_NT(t_i，t_j)。k_NT(t_i，t_j)的计算公式如下：

k_{NT} (t_{i}, t_{j}) = \frac{Σ_{i &Element; c} k_{occur} (t_{i}, i) &CircleTimes; k_{occur} (t_{j}, i)}{Σ_{i &Element; c} k_{occur} (t_{i}, i)}

其中，

表示模糊连接符号，定义为词语t_i和词语t_j在同一个信息i的描述中出现的频率。该公式的含义是词语t_i比词语t_j在语义上“缩小”的程度与在C中的所有信息描述中，词语t_i和词语t_j在同一个信息i中共同出现的频率在词语t_i的出现频率中所占的百分比成正比。很明显如果k_NT(t_i，t_j)的值为1，就表示在所有的信息描述中凡是词语t_i出现的时候，词语t_j也都出现了。如果k_NT(t_i，t_j)的值为0，则表示词语t_i和词语t_j从来没有共同出现过。

定义一个词语t_i比词语t_j在语义上“放大”的程度为BT(t_i，t_j)，从前面的定义描述中可以很清楚地知道：

BT (t_{i}, t_{j}) &DoubleLeftRightArrow; NT (t_{j}, t_{i})

如果BT(t_i，t_j)的值为k_BT(t_i，t_j)，则有：

k_BT(t_i，t_j)＝k_NT(t_j，t_i)

如图15所示，获取模糊本体的过程包括：

步骤1501，索引资源信息文件；

可从企业内部资源，例如，文档和网页中获取该资源信息文件。

步骤1502、1503，根据该资源信息生成相应的模糊本体，并将该模糊本体进行储存。

在本实施例中可采用如下步骤获得模糊本体并储存。

第一步：计算所有k_NT(t_i，t_j)和k_NT(t_j，t_i)的值。然后选择k_NT(t_i，t_j)和k_NT(t_j，t_i)中值较大的一个来反映词语t_i和词语t_j之间的语义关系，并删掉那个较小的值。之所以选择较大的值是因为建立模糊本体的想法是来源于用户难以用搜索词语来表达他的信息需求，因此，我们要尽力去查找和用户搜索词语在语义上有关联的其他词语，这就要求尽量用k_NT(t_i，t_j)和k_NT(t_j，t_i)中较大的值来反映词语之间的语义关联，从而扩大查找范围。

第二步：确定一个临界值p来筛选掉在第一步中保留下来的k_NT(t_i，t_j)的值。之所以要这样是因为如果有两个词语k_NT(t_i，t_j)和k_NT(t_j，t_i)的值都非常小，这样可以认为两者之间并没有什么语义关系，这样的值是应该被删除的。临界值的确定需要根据实际情况设置和调整。

第三步：将剩下的(NT(t_i，t_j)，k_NT(t_i，t_j))添加到模糊本体中。

第四步：模糊本体构造完成后，对创建好的本体进行一次裁减的过程。之所以要剪裁是因为在本体中可能会存在一些多余的关系。例如，对一个关系NT(t_i，t_j)，在t_i和t_j之间可能存在一条或多条间接关系：NT(t_i，t_x1)，NT(t_x1，t_x2)，…，NT(t_xn，t_j)，令P为t_i和t_j之间所有间接关系的集合，然后取k_NT(p)的最小值记为m。根据在构造模糊本体的第一步中所采取的筛选原则，如果已构造好的模糊本体中的k_NT(t_i，t_j)<m，那么该(NT(t_i，t_j)，k_NT(t_i，t_j))应该从模糊本体中删除。

构造好“缩小”的语义关系的模糊本体后(我们称为NT本体)，可根据公式很容易地构造出“放大”的语义关系的模糊本体(我们称为BT本体)，与上述类似，此处不再赘述。

由上述可知，NT关系实际上是对一个概念的具体化，而BT关系是对一个概念的抽象化。进行逐步精确查询的方法是：当用户提交一个查询q之后，在界面上会显示出NT本体的所有项和BT本体的所有项，其中NT本体中项的排列顺序按k_NT(t_i，t_j)的值递减排列，这样可以逐步的具体化q；而BT本体中项的排列顺序按k_BT(t_i，t_j)的值递增排列，这样可以逐步抽象化q。用户可以根据自己的实际需要在NT或者BT本体中选择一项作为新的查询。如果选择NT本体中的项，则新的查询q_n＝q∩t_NT，如果选择BT本体中的项，则新的查询q_n＝q∪t_BT。其中，∩表示交集，∪表示并集。

这样，通过上述方式可获得领域本体和模糊本体，供查询时使用。

步骤1002～步骤1005、以及步骤1008～1009与图9所示的步骤901～904、步骤906～907类似，此处步骤赘述。

在本实施例中，在步骤1004之前，该方法还可包括：对该本体请求进行预处理，使之符合本查询系统的格式。

在本实施例中，在步骤1007显示查询结果之前，还可对该查询结果进行排序(见步骤1006)，这样，可为该用户提供便利。在本实施例中，可根据相似度对查询结果进行排序，以下举具体的实例进行说明。

以下以建立领域本体、且查询领域本体为例进行说明。

第一，预备阶段，首先建立领域本体，并将该领域本体进行储存。如：

<Zhaojing>rdf:type<Employee>.

<Zhaojing>worksIn<ICM>.

<Zhaojing>worksFor<Program>.

<Wuhaodong>rdf:type<Manager>.

<Wuhaodong>worksIn<PFC>.

<Wuhaodong>worksFor<Sales>.

<ICM>rdf:type<Factory>.

<ICM>locatedIn<Baoding>.

<Baoding>rdf:type<City>.

<Baoding>belongsToProvince<Heibei>.

<PFC>rdf:type<Office>.

<PFC>locatedIn<Wuhan>.

<Wuhan>belongsToProvince<Hubei>

<Software Engineering>belongsToSubcategory<Computer Science>

<Algorithms>belongsToSubcategory<Computer Science>

<Database Technology>belongsToSubcategory<Computer Science>

上面是一些本体的描述，并定义了一些概念和关系。

<Resource1>dc:title＂Software Metrics＂.

<Resource1>dc:creator<Zhaojing>.

<Resource1>dc:coverage<Software Engineering>.

<Resource2>dc:title＂Petri net design＂.

<Resource2>dc:creator<Wuhaodong>.

<Resource2>dc:coverage<Software Engineering>.

<Resource2>dc:coverage<Workflow Technology>.

<Resource2>dc:coverage<Algorithms>.

上面描述了两个资源，包括资源的标题，创建者，所覆盖的内容。

第二，用户输入查询请求，在此假设查询关键字为“Software Engineering”。

第三，将用户输入的查询请求转换为本体查询请求；

根据本体的描述机制，我们把belongsToSubcategory定义为dc：coverage的一个子属性，并且把dc：coverage定义为一个传递属性，通过推理Resource1的描述变成了：

<Resource1>dc:title＂Software Metrics＂

<Resource1>dc:creator<Zhaojing>

<Resource1>dc:creator<ICM>

<Resource1>dc:creator<Program>

<Resource1>dc:coverage<Software Engineering>

<Resource1>dc:coverage<Computer Science>

转换后的本体查询请求为：

<Query1>dc:coverage<Software Engineering>

<Query1>dc:coverage<Computer Science>

第四，基于本体的推理引擎，查找与该本体查询请求匹配的查询结果；

<Resource1>dc:title＂Software Metrics＂.

<Resource1>dc:creator<Zhaojing>.

<Resource1>dc:coverage<Software Engineering>.

<Resource2>dc:title＂Petri net design＂.

<Resource2>dc:creator<Wuhaodong>.

<Resource2>dc:coverage<Software Engineering>.

<Resource2>dc:coverage<Workflow Technology>.

<Resource2>dc:coverage<Algorithms>.

第五，根据查询结果的相似度对该查询结果进行排序。

首先，计算资源和查询中相同属性不重复的值的总数，然后求出资源中该属性的值的个数和总数之比，这个值就是资源和查询之间的相似度。

例如，在Resource1和Query1之间dc：coverage属性值的总数是2，Resource1中dc：coverage属性值的个数也是2，则Resource1和Query1的相似度为

\frac{2}{2} = 1 .

同理可以计算出Resource2和Query1的相似度为

\frac{3}{4} = 0.75,

这样，对于Query1而言，由于Resource1和Query1的相似度大于Resource2和Queryl的相似度(1>0.75)，因此，在查询结果中Resource1将排在Resource2之前。

第六，根据排序结果显示查询结果。

以上为领域本体的查询过程，模糊本体的查询过程基本相同，区别主要在于模糊本体还会返回语义上扩大或缩小的推荐查询，例如上述实例，用关键字“Software Engineering”进行查询时，模糊本体还会返回语义上放大和缩小的查询结果——“Computer Science”、“Software Metrics”、“Petri net design”，而不只是“Software Metrics”、“Petri net design”。

在上述实施例中，领域本体查询和模糊本体查询可同时使用，或者分别使用，视具体情况来定。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息查询方法，其特征在于，所述方法包括：

接收用户输入的查询请求；

将输入的所述查询请求转换为本体查询请求；

根据所述本体查询请求在预存领域本体、或模糊本体中进行查询；

判断是否获得与所述本地查询请求匹配的查询结果；

若判断结果为获得所述查询结果，则将所述查询结果进行显示；

其中，所述领域本体是指对信息资源的语义的描述；所述模糊本体是指对信息资源所包含的词语、以及各个词语之间关系的描述。

2.根据权利要求1所述的方法，其特征在于，若判断结果为未获得与所述本地查询请求匹配的查询结果，则所述方法还包括：

根据输入的所述查询请求利用基于关键字的方式进行查询，以获得查询结果；

将获得的查询结果进行显示。

3.根据权利要求1所述的方法，其特征在于，在将所述查询结果进行显示之前，所述方法还包括：对所述查询结果进行排序；

所述将查询结果进行显示，包括：将排序后的所述查询结果进行显示。

4.根据权利要求1所述的方法，其特征在于，在将输入的所述查询请求转换为本体查询请求后，所述方法还包括：

对所述本体查询请求进行预处理；

根据所述本体查询请求在预存领域本体、或模糊本体中进行查询，包括：

根据所述预处理后的所述本体查询请求在预存领域本体、或模糊本体中进行查询。

5.根据权利要求1所述的方法，其特征在于，获取所述领域本体。

6.根据权利要求5所述的方法，其特征在于，所述获取领域本体，包括：

利用本体建模语言对信息资源进行标注，以生成文本形式的描述文件；

将文本形式的描述文件转换为数据库的表格形式的描述文件，以获得所述领域本体。

7.根据权利要求5所述的方法，其特征在于，所述获取领域本体，包括：

对信息资源进行分析，以获得文本形式的描述文件；

8.根据权利要求7所述的方法，其特征在于，所述对信息资源进行分析，包括：

对所述信息资源进行模糊形式化概念分析，以生成所述信息资源对应的概念的模糊形式化概念格；

将所述模糊形式化概念格中的相似的概念进行聚集，以形成概念集；

将所述概念集转换为本体，以生成文本形式的描述文件。

9.根据权利要求1所述的方法，其特征在于，获取所述模糊本体。

10.根据权利要求9所述的方法，其特征在于，所述获取模糊本体，包括：

索引资源信息文件；

根据所述资源信息生成相应的模糊本体。

11.一种信息查询装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括关键字查询单元，若所述判断单元的判断结果为未获得与所述本地查询请求匹配的查询结果，所述关键字查询单元用于根据输入的所述查询请求利用基于关键字的方式进行查询，以获得查询结果；

所述显示单元还用于将获得的查询结果进行显示。

13.根据权利要求11所述的装置，其特征在于，所述装置还包括排序单元，在所述查询单元获得所述查询结果之后，所述排序单元用于对所述查询结果进行排序；

所述显示单元还用于将排序后的所述查询结果进行显示。

14.根据权利要求11所述的装置其特征在于，所述装置还包括：

预处理单元，所述预处理单元用于对所述本体查询请求进行预处理；

所述查询单元用于根据所述预处理后的所述本体查询请求在预存领域本体、或模糊本体中进行查询。

15.根据权利要求11所述的装置，其特征在于，所述装置还包括存储单元，所述存储单元用于储存所述领域本体和/或模糊本体。

16.根据权利要求11所述的装置，其特征在于，所述装置还包括领域本体获取单元，用于获取所述领域本体。

17.根据权利要求16所述的装置，其特征在于，所述领域本体获取单元，包括：

标注单元，所述描述单元用于利用本体建模语言对信息资源进行标注，以生成文本形式的描述文件；

第一转换单元，所述第一转换单元用于将文本形式的描述文件转换为数据库的表格形式的描述文件，以获得所述领域本体。

18.根据权利要求16所述的装置，其特征在于，所述领域本体获取单元，包括：

分析提取单元，所述分析提取单元用于对信息资源进行分析，以获得文本形式的描述文件；

第二转换单元，所述第二转换单元用于将文本形式的描述文件转换为数据库的表格形式的描述文件，以获得所述领域本体。

19.根据权利要求18所述的装置，其特征在于，所述分析提取单元，包括：

模糊形式化概念分析单元，用于对该信息资源进行模糊形式化概念分析，以生成该信息资源对应的概念的模糊形式化概念格；

概念聚集单元，用于将该模糊形式化概念格中的相似的概念进行聚集，以生成概念层次结构；

概念的本体转换单元，用于将该概念层次结构转换为本体。

20.根据权利要求11所述的装置，其特征在于，所述装置还包括模糊本体获取单元。

21.根据权利要求20所述的装置，其特征在于，所述模糊本体获取单元，包括：

索引单元，用于索引资源信息文件；

模糊本体生成单元，用于根据所述资源信息生成相应的模糊本体。

22.根据权利要求16或20所述的装置，其特征在于，所述装置还包括信息提供单元，用于为该领域本体获取单元、模糊本体获取单元提供的信息资源。