CN102567314A - 知识查询装置和方法 - Google Patents

知识查询装置和方法 Download PDF

Info

Publication number
CN102567314A
CN102567314A CN2010105776237A CN201010577623A CN102567314A CN 102567314 A CN102567314 A CN 102567314A CN 2010105776237 A CN2010105776237 A CN 2010105776237A CN 201010577623 A CN201010577623 A CN 201010577623A CN 102567314 A CN102567314 A CN 102567314A
Authority
CN
China
Prior art keywords
knowledge base
notion
domain knowledge
description
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105776237A
Other languages
English (en)
Other versions
CN102567314B (zh
Inventor
赵鹏
刘国萍
顾茜
杨明川
广小明
冯晓冬
贾海燕
雷葆华
饶少阳
蔡永顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201010577623.7A priority Critical patent/CN102567314B/zh
Publication of CN102567314A publication Critical patent/CN102567314A/zh
Application granted granted Critical
Publication of CN102567314B publication Critical patent/CN102567314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识查询装置和方法。其中,该装置包括领域知识库、数据抽取预处理模块、并行数据挖掘模块、查询引擎模块以及存储计算模块,存储计算模块包括多个并行的存储计算节点,其中,数据抽取预处理模块分别与领域知识库和存储计算模块相连,并行数据挖掘模块分别与领域知识库和存储计算模块相连,查询引擎模块分别与领域知识库和存储计算模块相连。本发明在云计算服务分类层次中提出KaaS概念,将从数据源中分析出的概念和挖掘出的全局规则更新到领域知识库中,以方便地为客户端提供语义查询和知识服务。

Description

知识查询装置和方法
技术领域
本发明涉及云计算技术领域,特别地,涉及一种知识查询装置和方法。
背景技术
互联网上的数据量大、分布存储、异构和非结构化使得Web数据挖掘的搜索空间增大,维数高,发现知识的盲目性变高。如果借助数据的语义信息则能够进行有效地数据筛选、降低维数、并提高数据质量。
传统的数据挖掘方法基于命题逻辑和单表结构,描述能力弱,无法处理资源描述框架(Resource Description Framework,RDF)三元组表示的Web资源。基于归纳逻辑程序设计(Inductive Logic Programming,ILP)的方法在近些年得到广泛研究和应用,一方面能够有效处理多关系数据结构,另一方面在挖掘过程中还可以充分利用本体描述的领域知识,发挥语义计算的潜能。
无论是基于命题逻辑的方法还是基于归纳逻辑程序设计的ILP方法,在面临海量Web数据挖掘时,都要解决样本量或子句空间过大、单机存储容量受限的问题,云计算技术提供的海量数据分布式存储和MapReduce(是Google提出的一个软件架构,用于大规模数据集的并行运算)并行计算能力恰好提供了有益的补充。
图1是现有技术中云计算服务分类示意图。
如图1所示,云计算技术按照服务层次可以分为基础设施即服务(IaaS,Infrastructure as a Service)、平台即服务(PaaS,Platform as aservice)和软件即服务(SaaS,Software as a service)。SaaS应用普及后,一方面在云端积累大量托管数据,这些数据得不到有效挖掘利用;另一方面,由于SaaS应用面向专业市场和特定领域,在SaaS应用之间彼此形成信息孤岛,无法保证语义一致性,无法实现有效地信息共享。
此外,目前还不能对SaaS应用和互联网应用数据进行有效地挖掘和利用,因而无法为用户提供语义查询和知识服务。
发明内容
本发明要解决的一个技术问题是提供一种知识查询装置和方法,能够有效挖掘SaaS应用和互联网应用,从而为用户提供语义查询和知识服务。
根据本发明的一方面,提出了一种知识查询装置,包括领域知识库、数据抽取预处理模块、并行数据挖掘模块、查询引擎模块以及存储计算模块,存储计算模块包括多个并行的存储计算节点,其中,领域知识库,用于存储以本体描述的多个概念、多个概念之间的关联关系以及指向RDF描述数据的索引结构;数据抽取预处理模块,分别与领域知识库和存储计算模块相连,用于将从数据源中抽取的Web页面缓存到多个并行的存储计算节点中,对Web页面进行聚类分析,对聚类分析出的结果进行RDF描述,以及将RDF描述数据抽象出的概念添加到领域知识库中、和/或与领域知识库中的概念建立关联关系,并在领域知识库中建立指向RDF描述数据的索引结构;每个存储计算节点,用于对数据抽取预处理模块缓存的Web页面进行局部挖掘,以学习出局部规则;并行数据挖掘模块,分别与领域知识库和存储计算模块相连,用于从领域知识库中读取索引结构,根据索引结构计算Map并行处理的任务数和每个任务所在的存储计算节点,从每个任务所在的存储计算节点收集挖掘出的局部规则,并根据所收集的局部规则生成全局规则,利用全局规则更新领域知识库;查询引擎模块,分别与领域知识库和存储计算模块相连,用于接收概念查询和知识实例查询请求,在领域知识库中进行概念查询,以及根据待查询知识实例对各存储计算节点上的RDF描述数据进行查询。
根据本发明装置的一个实施例,该装置还包括语义推理模块,分别与查询引擎模块和领域知识库相连,用于在领域知识库中查询不到待查询概念的情况下对待查询概念进行推理,以在领域知识库中找到与待查询概念语义距离最近的概念。
根据本发明装置的另一实施例,查询引擎模块包括概念查找单元,用于从领域知识库中查找与待查询知识实例对应的概念和子概念;节点查找单元,与概念查找单元相连,用于根据索引结构查询与概念和子概念对应的RDF描述数据所在的存储计算节点;查询请求单元,与节点查找单元相连,用于向查询出的存储计算节点发出并行查询请求,并接收查询出的存储计算节点返回的RDF描述数据。
根据本发明装置的又一实施例,数据源包括SaaS应用和互联网应用中的至少一种。
根据本发明装置的再一实施例,全局规则包括关联关系和分类规则中的至少一种。
根据本发明的另一方面,还提出了一种知识查询方法,包括从数据源中抽取Web页面,并缓存到多个并行的存储计算节点中;对Web页面进行聚类分析,并对聚类分析出的结果进行RDF描述;将RDF描述数据抽象出的概念添加到领域知识库中、和/或与领域知识库中的概念建立关联关系,并在领域知识库中建立指向RDF描述数据的索引结构;从领域知识库中读取索引结构,并根据索引结构计算Map并行处理的任务数和每个任务所在的存储计算节点;从每个任务所在的存储计算节点收集挖掘出的局部规则,并根据所收集的局部规则生成全局规则,利用全局规则更新领域知识库;接收概念查询和知识实例查询请求;在领域知识库中进行概念查询,以及根据待查询知识实例对各存储计算节点上的RDF描述数据进行查询。
根据本发明方法的一个实施例,该方法还包括利用可视化建模工具构建领域知识库。
根据本发明方法的另一实施例,将RDF描述数据抽象出的概念添加到领域知识库中、和/或与领域知识库中的概念建立关联关系,并在领域知识库中建立指向RDF描述数据的索引结构的步骤包括判断领域知识库中是否存在RDF描述数据抽象出的概念;如果领域知识库中不存在RDF描述数据抽象出的概念,则将抽象出的概念添加到领域知识库中,通过分析建立抽象出的概念与领域知识库中已有概念的关联关系,并在领域知识库中建立指向RDF描述数据的索引结构;如果领域知识库中存在RDF描述数据抽象出的概念,则利用抽象出的概念对RDF描述数据进行标注,以建立指向RDF描述数据的索引结构。
根据本发明方法的又一实施例,根据待查询知识实例对各存储计算节点上的RDF描述数据进行查询的步骤包括从领域知识库中查找与待查询知识实例对应的概念和子概念;根据索引结构查询与概念和子概念对应的RDF描述数据所在的存储计算节点;向查询出的存储计算节点发出并行查询请求,并接收查询出的存储计算节点返回的RDF描述数据。
根据本发明方法的再一实施例,数据源包括SaaS应用和互联网应用中的至少一种。
根据本发明方法的再一实施例,全局规则包括关联关系和分类规则中的至少一种。
本发明提供的知识查询装置和方法,在云计算服务分类层次中提出KaaS概念,将从数据源中分析出的概念和挖掘出的全局规则更新到领域知识库中,以方便地为客户端提供语义查询和知识服务。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分。在附图中:
图1是现有技术中云计算服务分类示意图。
图2是本发明云计算服务层次分类示意图。
图3是本发明装置的一个实施例的结构示意图。
图4是本发明的二级索引结构示意图。
图5是本发明装置的另一实施例的结构示意图。
图6是本发明装置的又一实施例的结构示意图。
图7是本发明方法的一个实施例的流程示意图。
图8是本发明方法的另一实施例的流程示意图。
图9是本发明实施例中网关产品本体模型的示意图。
图10是本发明实施例中领域知识库更新后的网关概念关系示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。本发明的示例性实施例及其说明用于解释本发明,但并不构成对本发明的不当限定。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
图2是本发明云计算服务层次分类示意图。
如图2所示,为了解决现有技术中的问题,本发明首先提出在现有的云计算服务层次分类上增加知识即服务层(Knowledge as aService,KaaS),以完善云计算服务分类体系。
本发明的目的是通过语义Web挖掘与云计算技术的结合提出一种以本体论为基础、以云计算MapReduce框架为并行计算模型的知识服务系统和方法。
图3是本发明装置的一个实施例的结构示意图。
如图3所示,该实施例的装置10可以包括领域知识库11、数据抽取预处理模块12、并行数据挖掘模块13、查询引擎模块14以及存储计算模块15,存储计算模块15包括多个并行的存储计算节点1511,其中,
领域知识库11,用于存储以本体描述的多个概念、多个概念之间的关联关系以及指向RDF描述数据的索引结构,在一个实例中,索引结构如图4所示;
数据抽取预处理模块12,分别与领域知识库11和存储计算模块15相连,用于将从数据源中抽取的Web页面缓存到多个并行的存储计算节点1511中,对Web页面进行聚类分析,对聚类分析出的结果进行RDF描述,以及将RDF描述数据抽象出的概念添加到领域知识库中、和/或与领域知识库中的概念建立关联关系,并在领域知识库中建立指向RDF描述数据的索引结构,其中,数据源可以包括SaaS应用和互联网应用中的至少一种;
每个存储计算节点1511,用于对数据抽取预处理模块12缓存的Web页面进行局部挖掘,以学习出局部规则,例如,可以启动节点ILP算法进行局部挖掘,本节点学习出的局部规则作为候选规则;
并行数据挖掘模块13,分别与领域知识库11和存储计算模块15相连,用于从领域知识库中读取索引结构,根据索引结构计算Map并行处理的任务数和每个任务所在的存储计算节点,从每个任务所在的存储计算节点收集挖掘出的局部规则,并根据所收集的局部规则生成全局规则,利用全局规则更新领域知识库,其中,全局规则可以包括关联关系和分类规则中的至少一种;
查询引擎模块14,分别与领域知识库11和存储计算模块15相连,用于接收概念查询和知识实例查询请求,在领域知识库中进行概念查询,以及根据待查询知识实例对各存储计算节点上的RDF描述数据进行查询。
该实施例在云计算服务分类层次中提出KaaS概念,将从数据源中分析出的概念和挖掘出的全局规则更新到领域知识库中,以方便地为客户端提供语义查询和知识服务。
图5是本发明装置的另一实施例的结构示意图。
如图5所示,与图3中的实施例相比,该实施例的装置20还可以包括:
语义推理模块21,分别与查询引擎模块14和领域知识库11相连,用于在领域知识库中查询不到待查询概念的情况下对待查询概念进行推理,以在领域知识库中找到与待查询概念语义距离最近的概念。
图6是本发明装置的又一实施例的结构示意图。
如图6所示,与图3中的实施例相比,该实施例的装置30中的查询引擎模块31可以包括:
概念查找单元311,用于从领域知识库中查找与待查询知识实例对应的概念和子概念;
节点查找单元312,与概念查找单元311相连,用于根据索引结构查询与概念和子概念对应的RDF描述数据所在的存储计算节点;
查询请求单元313,与节点查找单元312相连,用于向查询出的存储计算节点发出并行查询请求,并接收查询出的存储计算节点返回的RDF描述数据。
图7是本发明方法的一个实施例的流程示意图。
如图7所示,该实施例可以包括以下步骤:
S102,从数据源中抽取Web页面,并缓存到多个并行的存储计算节点中,其中,数据源可以包括SaaS应用和互联网应用中的至少一种,并且数据源的个数可以是一个或多个;
例如,可以利用关键字从SaaS应用和/或互联网应用中抽取数据,并将抽取出的数据存储到各个计算节点中,其中,存储数据时对计算节点的选取可以综合考虑各个计算节点的负荷和运算处理能力。
S104,对Web页面进行聚类分析,并对聚类分析出的结果进行RDF描述,其中,聚类分析的目的是对Web页面数据进行粗划分,以提高挖掘的效率,进行聚类分析后形成的RDF描述数据代表抽象出的概念和概念的内涵;
举例说明,输入一组关键字(该组关键字可以是抽取数据的关键字)和Web页面数据,然后采用诸如SVM(Support Vector Machines)等方法进行聚类分析,将Web页面数据划分成不同的粗类,再对每个粗类进行RDF描述。
S106,将RDF描述数据抽象出的概念添加到领域知识库中、和/或与领域知识库中的概念建立关联关系,并在领域知识库中建立指向RDF描述数据的索引结构;
具体地,可以判断领域知识库中是否存在RDF描述数据抽象出的概念,例如,可以通过关键词或概念相似度比对的方式将抽象出的概念与领域知识库中的相关概念进行比对;
如果领域知识库中不存在RDF描述数据抽象出的概念,则将抽象出的概念添加到领域知识库中,通过分析抽象出的概念的内涵建立抽象出的概念与领域知识库中已有概念的关联关系,并在领域知识库中建立指向RDF描述数据的索引结构;如果领域知识库中存在RDF描述数据抽象出的概念,则利用抽象出的概念对RDF描述数据进行标注,以建立指向RDF描述数据的索引结构。
S108,从领域知识库中读取索引结构,并根据索引结构计算Map并行处理的任务数和每个任务所在的存储计算节点。
S110,每个任务所在的存储计算节点可以利用ILP算法对数据源进行规则挖掘,并行数据挖掘模块从每个任务所在的存储计算节点收集挖掘出的局部规则,并根据所收集的局部规则生成全局规则,在生成全局规则的过程中,可以对各个局部规则进行组合和/或剔除局部规则中不合理的规则,再利用全局规则更新领域知识库,其中,全局规则可以包括关联关系和分类规则中的至少一种;
举例说明,在S104中进行聚类分析后,可能会存在同一概念的多个RDF描述,并且这些描述分布在不同的计算节点上,在本步骤中需要对这些分布在不同计算节点上的RDF描述数据分别进行挖掘,得到每个计算节点的局部规则,然后再并行挖掘不同计算节点的局部规则以得到最终的全局规则。以网关为例,在领域知识库中最初定义了网关,但是没有语音网关这个子概念的定义,可以通过聚类分析后得到语音网关这个子概念,通过并行挖掘后得到这个子概念的分类规则(例如,这个子概念的属性信息),语音网关是与语音网关相关的这一类数据的标签。
S112,接收概念查询和知识实例查询请求。
S114,在领域知识库中进行概念查询,以及根据待查询知识实例对各存储计算节点上的RDF描述数据进行查询;
具体地,可以从领域知识库中查找与待查询知识实例对应的概念和子概念;根据索引结构查询与概念和子概念对应的RDF描述数据所在的存储计算节点;向查询出的存储计算节点发出并行查询请求,并接收查询出的存储计算节点返回的RDF描述数据;
举例说明,如果所查询的为知识实例,则需要执行查询重写,即,依据领域知识库中的索引结构将对知识实例的查询重写为对相应存储计算节点上RDF描述数据的分布式查询。
该实施例通过ILP算法进行规则的挖掘可以有效地利用语义信息和背景知识。同时,利用云平台的海量存储能力和分布式计算能力增强了Web挖掘的效率,在并行挖掘过程中利用语义标注的索引信息能够方便地将任务分布到多个存储计算节点,提高了任务执行的效率。
图8是本发明方法的另一实施例的流程示意图。
如图8所示,该实施例可以包括以下步骤:
S202,利用可视化建模工具构建领域知识库;
S204,从数据源中抽取Web页面,并缓存到多个并行的存储计算节点中;
S206,对Web页面进行聚类分析,并对聚类分析出的结果进行RDF描述;
S208,将RDF描述数据抽象出的概念添加到领域知识库中、和/或与领域知识库中的概念建立关联关系,并在领域知识库中建立指向RDF描述数据的索引结构;
S210,从领域知识库中读取索引结构,并根据索引结构计算Map并行处理的任务数和每个任务所在的存储计算节点;
S212,从每个任务所在的存储计算节点收集挖掘出的局部规则,并根据所收集的局部规则生成全局规则,利用全局规则更新领域知识库;
S214,接收概念查询和知识实例查询请求;
S216,在领域知识库中进行概念查询,以及根据待查询知识实例对各存储计算节点上的RDF描述数据进行查询。
在本发明方法的又一实施例中,以概念“网关”为例进行说明。网关经常在家庭或者小型企业网络中使用,用于连接局域网和Internet,是把一种协议转换成另一种协议的设备。在领域知识库中构建的网关产品初始本体如图9所示,按照图9对网关的定义可以将网关抽象成包含用户端口、网络端口等,用于完成协议转换的设备。
经过资源搜集和聚类分析,结合领域知识库中的网关概念,得到与网关本体语义相关的RDF描述数据(部分)如下:
<rdf:RDF>
   <rdf:Description about=”concept_1”>
    <k:tag>gw</k:tag>
    <k:hasUports>
        <rdf:Bag>
            <rdf:li rdf:resource=”ethernet”/>
            <rdf:li rdf:resource=”fxs”/>
        </rdf:Bag>
    </k:hasUports>
    <k:hasNports>
        <rdf:Bag>
            <rdf:li rdf:resource=”ethernet”/>
        </rdf:Bag>
    </k:hasNports>
    <k:hasProtocols>
        <rdf:Bag>
            <rdf:li rdf:resource=”tcp/ip”/>
            <rdf:li rdf:resource=”http”/>
            <rdf:li rdf:resource=”nat”/>
            <rdf:li rdf:resource=”sip”/>
            <rdf:li rdf:resource=”h323”/>
        </rdf:Bag>
    </k:hasProtocols>
</rdf:Description>
<rdf:Description about=”concept_2”>
    <k:tag>gw</k:tag>
    <k:hasUports>
        <rdf:Bag>
           <rdf:li rdf:resource=”ethernet”/>
        </rdf:Bag>
    </k:hasUports>
    <k:hasNports>
        <rdf:Bag>
            <rdf:li rdf:resource=”ethernet”/>
        </rdf:Bag>
    </k:hasNports>
    <k:hasProtocols>
        <rdf:Bag>
            <rdf:li rdf:resource=”tcp/ip”/>
            <rdf:li rdf:resource=”http”/>
            <rdf:li rdf:resource=”https”/>
            <rdf:lirdf:resource=”nat”/>
            <rdf:li rdf:resource=”ipsec”/>
        </rdf:Bag>
    </k:hasProtocols>
</rdf:Description>
在上述RDF描述数据中,concept_1和concept_2表示聚类分析后得到的RDF描述数据,gw表示语义标记,声明这两个概念在语义上与网关本体最接近(具备用户端口和网络端口,并且实现一定的协议转换功能),接下来利用ILP方法可以从RDF描述数据中学习出concept_1和concep_2的分类规则(即,找出这个两个概念的不同点):
class(X,concept_1):hasUports(X,fxs)
class(X,concept_1):hasProtocols(X,sip)
class(X,concept_1):hasProtocols(X,h323)
class(X,concept_2):hasProtocols(X,https)
class(X,concept_2):hasProtocols(X,ipsec)
上述规则表明,concept_1代表的产品集合都有共同的特征,即,带语音接口fxs、支持voip标准协议(例如,sip、h322),是语音网关的显著特征;concept_2代表的产品集合都支持https协议和ipsec协议,是安全网关必备的特征。
concept_1和concept_2将作为新的概念补充到领域知识库中,并补充上述ILP方法挖掘的分类规则,同时与网关概念建立is-a(是)关系。
由于在云计算环境中,RDF描述数据分布在各个云存储计算节点,需要在领域知识库中建立全局的索引结构,以便于进行分布式并行挖掘和分布式并行查询。
该索引结构可以为两级索引,如图4所示,一级索引用于查找领域知识库中概念的定义,字段包括概念名、云计算节点ID、存放概念RDF描述的数据文件全路径名和RDF文件中概念的资源标识URI;二级索引用于查找概念的实例,字段包括概念名、以Web文件URI表示的概念实例。两级索引均以概念名作为关键字。在本例中,概念名为concept_1和concept_2,这两个概念分别代表了语音网关产品和安全网关产品。
在并行挖掘阶段,容易从索引结构中计算出MapReduce的任务个数,并启动相关节点的ILP学习算法,得出满足于局部最优的分类规则,即,区别于同一节点上的其它概念的特征描述,并行数据挖掘模块收集和比对所有来自计算节点的分类规则(即,候选规则),如果某个规则不是全局最优,即,可以蕴含出全局中某个负例,则需要进一步学习以得到全局的最优规则。对于本例而言,假设本例中的两个概念的RDF描述存储在不同的计算节点,分别启动ILP算法后,由于两个节点各自只有一个概念,本地ILP算法直接结束,所有的RDF描述将作为候选规则由并行数据挖掘模块收集,并进行全局学习得到上述关于concept_1和concept_2的网关分类规则。
在本例中,挖掘出规则并更新领域知识库后得到的网关概念关系如图10所示,网关概念可以包括语音网关和安全网关两个子概念。
对领域知识库中领域知识的查询流程可以包括:客户端提交网关概念查询请求,查询引擎模块从领域知识库中得到语音网关和安全网关两个子概念,并根据索引结构,得到两个概念的RDF描述数据所在的存储计算节点,并将对网关概念的知识查询转换成对语音网关和安全网关的RDF描述数据查询请求,这个查询重写同样采用MapReduce并行架构,存储计算节点启动后,将查询RDF描述数据并返回给查询引擎模块,查询引擎模块汇总查询结果后返回给客户端。
该实施例由于在领域知识库中引入了索引结构,可以快速得到MapReduce任务个数和每个任务所在的计算节点,并且由于基于MapReduce架构实现ILP方法的挖掘过程和领域知识库的知识查询过程的分布式并行执行,所以显著提高了挖掘和查询的执行效率。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (11)

1.一种知识查询装置,其特征在于,包括领域知识库、数据抽取预处理模块、并行数据挖掘模块、查询引擎模块以及存储计算模块,所述存储计算模块包括多个并行的存储计算节点,其中,
所述领域知识库,用于存储以本体描述的多个概念、所述多个概念之间的关联关系以及指向RDF描述数据的索引结构;
所述数据抽取预处理模块,分别与所述领域知识库和所述存储计算模块相连,用于将从数据源中抽取的Web页面缓存到所述多个并行的存储计算节点中,对所述Web页面进行聚类分析,对聚类分析出的结果进行RDF描述,以及将RDF描述数据抽象出的概念添加到所述领域知识库中、和/或与所述领域知识库中的概念建立关联关系,并在所述领域知识库中建立指向所述RDF描述数据的索引结构;
每个存储计算节点,用于对所述数据抽取预处理模块缓存的Web页面进行局部挖掘,以学习出局部规则;
所述并行数据挖掘模块,分别与所述领域知识库和所述存储计算模块相连,用于从所述领域知识库中读取索引结构,根据所述索引结构计算Map并行处理的任务数和每个任务所在的存储计算节点,从每个任务所在的存储计算节点收集挖掘出的局部规则,并根据所收集的局部规则生成全局规则,利用所述全局规则更新所述领域知识库;
所述查询引擎模块,分别与所述领域知识库和所述存储计算模块相连,用于接收概念查询和知识实例查询请求,在所述领域知识库中进行概念查询,以及根据待查询知识实例对各存储计算节点上的RDF描述数据进行查询。
2.根据权利要求1所述的装置,其特征在于,所述装置还包括:
语义推理模块,分别与所述查询引擎模块和所述领域知识库相连,用于在所述领域知识库中查询不到待查询概念的情况下对所述待查询概念进行推理,以在所述领域知识库中找到与所述待查询概念语义距离最近的概念。
3.根据权利要求1所述的装置,其特征在于,所述查询引擎模块包括:
概念查找单元,用于从所述领域知识库中查找与所述待查询知识实例对应的概念和子概念;
节点查找单元,与所述概念查找单元相连,用于根据所述索引结构查询与所述概念和子概念对应的RDF描述数据所在的存储计算节点;
查询请求单元,与所述节点查找单元相连,用于向查询出的存储计算节点发出并行查询请求,并接收所述查询出的存储计算节点返回的RDF描述数据。
4.根据权利要求1所述的装置,其特征在于,所述数据源包括SaaS应用和互联网应用中的至少一种。
5.根据权利要求1所述的装置,其特征在于,所述全局规则包括关联关系和分类规则中的至少一种。
6.一种知识查询方法,其特征在于,包括:
从数据源中抽取Web页面,并缓存到多个并行的存储计算节点中;
对所述Web页面进行聚类分析,并对聚类分析出的结果进行RDF描述;
将RDF描述数据抽象出的概念添加到领域知识库中、和/或与所述领域知识库中的概念建立关联关系,并在所述领域知识库中建立指向所述RDF描述数据的索引结构;
从所述领域知识库中读取索引结构,并根据所述索引结构计算Map并行处理的任务数和每个任务所在的存储计算节点;
从每个任务所在的存储计算节点收集挖掘出的局部规则,并根据所收集的局部规则生成全局规则,利用所述全局规则更新所述领域知识库;
接收概念查询和知识实例查询请求;
在所述领域知识库中进行概念查询,以及根据待查询知识实例对各存储计算节点上的RDF描述数据进行查询。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
利用可视化建模工具构建所述领域知识库。
8.根据权利要求6所述的方法,其特征在于,所述将RDF描述数据抽象出的概念添加到领域知识库中、和/或与领域知识库中的概念建立关联关系,并在所述领域知识库中建立指向所述RDF描述数据的索引结构的步骤包括:
判断所述领域知识库中是否存在RDF描述数据抽象出的概念;
如果所述领域知识库中不存在所述RDF描述数据抽象出的概念,则将所述抽象出的概念添加到所述领域知识库中,通过分析建立所述抽象出的概念与所述领域知识库中已有概念的关联关系,并在所述领域知识库中建立指向所述RDF描述数据的索引结构;
如果所述领域知识库中存在所述RDF描述数据抽象出的概念,则利用所述抽象出的概念对所述RDF描述数据进行标注,以建立指向所述RDF描述数据的索引结构。
9.根据权利要求6所述的方法,其特征在于,所述根据待查询知识实例对各存储计算节点上的RDF描述数据进行查询的步骤包括:
从所述领域知识库中查找与所述待查询知识实例对应的概念和子概念;
根据所述索引结构查询与所述概念和子概念对应的RDF描述数据所在的存储计算节点;
向查询出的存储计算节点发出并行查询请求,并接收查询出的存储计算节点返回的RDF描述数据。
10.根据权利要求6所述的方法,其特征在于,所述数据源包括SaaS应用和互联网应用中的至少一种。
11.根据权利要求6所述的方法,其特征在于,所述全局规则包括关联关系和分类规则中的至少一种。
CN201010577623.7A 2010-12-07 2010-12-07 知识查询装置和方法 Active CN102567314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010577623.7A CN102567314B (zh) 2010-12-07 2010-12-07 知识查询装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010577623.7A CN102567314B (zh) 2010-12-07 2010-12-07 知识查询装置和方法

Publications (2)

Publication Number Publication Date
CN102567314A true CN102567314A (zh) 2012-07-11
CN102567314B CN102567314B (zh) 2015-03-04

Family

ID=46412755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010577623.7A Active CN102567314B (zh) 2010-12-07 2010-12-07 知识查询装置和方法

Country Status (1)

Country Link
CN (1) CN102567314B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346438A (zh) * 2014-09-14 2015-02-11 北京航空航天大学 基于大数据数据管理服务系统
CN104462610A (zh) * 2015-01-06 2015-03-25 福州大学 结合本体的分布式rdf存储与查询优化方法
WO2015196476A1 (zh) * 2014-06-27 2015-12-30 华为技术有限公司 一种数据处理方法和计算机系统
CN105512316A (zh) * 2015-12-15 2016-04-20 中国科学院自动化研究所 一种结合移动终端的知识服务系统
CN106156143A (zh) * 2015-04-13 2016-11-23 富士通株式会社 网页处理装置和网页处理方法
CN107203637A (zh) * 2017-06-08 2017-09-26 恒生电子股份有限公司 一种数据分析方法及系统
CN107704475A (zh) * 2016-08-10 2018-02-16 泰康保险集团股份有限公司 多层分布式非结构化数据存储方法、查询方法及装置
CN109918472A (zh) * 2019-02-27 2019-06-21 北京百度网讯科技有限公司 存储和查询数据的方法、装置、设备和介质
CN110019554A (zh) * 2017-12-25 2019-07-16 北京顺智信科技有限公司 数据驱动型应用的数据模型、数据建模系统和方法
CN112506999A (zh) * 2020-12-17 2021-03-16 夏红梅 基于云计算和人工智能的大数据挖掘方法及数字内容中心
CN113890899A (zh) * 2021-09-13 2022-01-04 北京交通大学 一种基于知识图谱的协议转换方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913215A (en) * 1996-04-09 1999-06-15 Seymour I. Rubinstein Browse by prompted keyword phrases with an improved method for obtaining an initial document set
WO2003072701A1 (en) * 2002-02-28 2003-09-04 Istech Co., Ltd. A system for analyzing dna-chips using gene ontology and a method thereof
WO2005022412A1 (en) * 2003-08-30 2005-03-10 Istech Co., Ltd. A system for analyzing bio chips using gene ontology and a method thereof
CN101216853A (zh) * 2008-01-11 2008-07-09 孟小峰 一种智能Web查询接口系统及其方法
CN101404033A (zh) * 2008-11-14 2009-04-08 北京大学 本体层级结构的自动生成方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913215A (en) * 1996-04-09 1999-06-15 Seymour I. Rubinstein Browse by prompted keyword phrases with an improved method for obtaining an initial document set
WO2003072701A1 (en) * 2002-02-28 2003-09-04 Istech Co., Ltd. A system for analyzing dna-chips using gene ontology and a method thereof
WO2005022412A1 (en) * 2003-08-30 2005-03-10 Istech Co., Ltd. A system for analyzing bio chips using gene ontology and a method thereof
CN101216853A (zh) * 2008-01-11 2008-07-09 孟小峰 一种智能Web查询接口系统及其方法
CN101404033A (zh) * 2008-11-14 2009-04-08 北京大学 本体层级结构的自动生成方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨文柱等: "基于信息抽取的Web 查询系统的设计与实现", 《计算机应用》, vol. 23, no. 2, 28 February 2003 (2003-02-28), pages 97 - 99 *
程葳等: "面向互联网新闻的在线话题检测算法", 《计算机工程》, vol. 38, no. 18, 30 September 2009 (2009-09-30), pages 29 - 30 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015196476A1 (zh) * 2014-06-27 2015-12-30 华为技术有限公司 一种数据处理方法和计算机系统
US9984336B2 (en) 2014-06-27 2018-05-29 Huawei Technologies Co., Ltd. Classification rule sets creation and application to decision making
CN104346438A (zh) * 2014-09-14 2015-02-11 北京航空航天大学 基于大数据数据管理服务系统
CN104346438B (zh) * 2014-09-14 2017-06-23 北京航空航天大学 基于大数据数据管理服务系统
CN104462610B (zh) * 2015-01-06 2018-02-06 福州大学 结合本体的分布式rdf存储与查询优化方法
CN104462610A (zh) * 2015-01-06 2015-03-25 福州大学 结合本体的分布式rdf存储与查询优化方法
CN106156143A (zh) * 2015-04-13 2016-11-23 富士通株式会社 网页处理装置和网页处理方法
CN105512316B (zh) * 2015-12-15 2018-12-21 中国科学院自动化研究所 一种结合移动终端的知识服务系统
CN105512316A (zh) * 2015-12-15 2016-04-20 中国科学院自动化研究所 一种结合移动终端的知识服务系统
CN107704475A (zh) * 2016-08-10 2018-02-16 泰康保险集团股份有限公司 多层分布式非结构化数据存储方法、查询方法及装置
CN107704475B (zh) * 2016-08-10 2021-12-14 泰康保险集团股份有限公司 多层分布式非结构化数据存储方法、查询方法及装置
CN107203637A (zh) * 2017-06-08 2017-09-26 恒生电子股份有限公司 一种数据分析方法及系统
CN107203637B (zh) * 2017-06-08 2020-04-24 恒生电子股份有限公司 一种数据分析方法及系统
CN110019554A (zh) * 2017-12-25 2019-07-16 北京顺智信科技有限公司 数据驱动型应用的数据模型、数据建模系统和方法
CN110019554B (zh) * 2017-12-25 2024-05-24 百融至信(北京)科技有限公司 数据驱动型应用的数据模型、数据建模系统和方法
CN109918472A (zh) * 2019-02-27 2019-06-21 北京百度网讯科技有限公司 存储和查询数据的方法、装置、设备和介质
US11334544B2 (en) 2019-02-27 2022-05-17 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and medium for storing and querying data
CN112506999A (zh) * 2020-12-17 2021-03-16 夏红梅 基于云计算和人工智能的大数据挖掘方法及数字内容中心
CN112506999B (zh) * 2020-12-17 2021-07-16 福建顶点软件股份有限公司 基于云计算和人工智能的大数据挖掘方法及数字内容服务器
CN113890899A (zh) * 2021-09-13 2022-01-04 北京交通大学 一种基于知识图谱的协议转换方法

Also Published As

Publication number Publication date
CN102567314B (zh) 2015-03-04

Similar Documents

Publication Publication Date Title
CN102567314B (zh) 知识查询装置和方法
CN104820717B (zh) 一种海量小文件存储及管理方法和系统
CN103488673B (zh) 用于执行调和处理的方法、控制器及数据存储系统
CN101436192B (zh) 用于优化针对垂直存储式数据库的查询的方法和设备
CN106021457B (zh) 基于关键词的rdf分布式语义搜索方法
CN104298771A (zh) 一种海量web日志数据查询与分析方法
CN105138661A (zh) 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法
CN106874426B (zh) 基于Storm的RDF流式数据关键词实时搜索方法
CN103631882A (zh) 基于图挖掘技术的语义化业务生成系统和方法
CN102184227A (zh) 一种面向web服务的通用爬虫引擎系统及其工作方法
CN109710767B (zh) 多语种大数据服务平台
WO2022127245A1 (zh) 技术转移办公室通用信息交互方法、终端及介质
CN107341210B (zh) Hadoop平台下的C-DBSCAN-K聚类算法
CN103823846A (zh) 一种基于图论的大数据存储及查询方法
KR20210063874A (ko) 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
CN105069101A (zh) 分布式索引构建及检索方法
Anand et al. Clustering of big data in cloud environments for smart applications
CN115237937A (zh) 一种基于星际文件系统的分布式协同查询处理系统
Wu et al. Mining of high-utility patterns in big IoT-based databases
CN103412883A (zh) 基于p2p技术的语义智能信息发布订阅方法
Hu et al. Web services recommendation leveraging semantic similarity computing
CN103955461A (zh) 一种基于本体集合概念相似度的语义匹配方法
Skhiri et al. Large graph mining: recent developments, challenges and potential solutions
Ye RETRACTED ARTICLE: Situational English Language Information Intelligent Retrieval Algorithm Based on Wireless Sensor Network
CN101706824A (zh) 基于能力匹配和本体推理的开放地理信息服务发现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant