CN111949649A - 一种动态本体存储系统、存储方法、数据查询方法 - Google Patents
一种动态本体存储系统、存储方法、数据查询方法 Download PDFInfo
- Publication number
- CN111949649A CN111949649A CN201910399308.0A CN201910399308A CN111949649A CN 111949649 A CN111949649 A CN 111949649A CN 201910399308 A CN201910399308 A CN 201910399308A CN 111949649 A CN111949649 A CN 111949649A
- Authority
- CN
- China
- Prior art keywords
- storage system
- ontology
- dynamic
- source data
- configuration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013500 data storage Methods 0.000 claims abstract description 52
- 238000013507 mapping Methods 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000001360 synchronised effect Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000004308 accommodation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Abstract
本申请提供一种动态本体存储系统、存储方法和数据查询方法。所述本体系统包括源数据存储层、配置层及本体存储层。可以根据用户需求和行业特点动态的生成配置目标行业动态本体的源数据配置信息、动态本体配置规则和动态本体存储规则,根据所述源数据配置信息从源数据存储层获取源数据,并根据动态本体配置规则利用获取的源数据生成动态本体,使本体的配置更加智能和灵活,同时采用混合存储的技术,以结构化存储系统作为本体存储的主数据库,有效保证了本体的安全可靠性,以图数据存储系统存储本体的对象关系,可以存储本体中对象的多级关系,以全文索引存储系统存储本体的概要信息,可以为用户提供更加高效的查询服务。
Description
技术领域
本申请涉及本体存储技术领域,尤其涉及一种动态本体存储系统、存储方法、数据查询方法。
背景技术
本体是用于描述或表达某一领域知识的一组概念或术语以及这些概念或术语之间的关系,它可以用来组织知识库较高层次的知识抽象,也可以用来描述特定领域的知识。本体通过对象、对象属性、以及对象关系来描述。其中,对象是指任何能够被建模的事物,对象属性是对象的一些特征品质,对象关系则是对象之间存在的各种关系。本体作为一种能在知识层提供知识共享和重用的工具,目前在语义Web中、信息处理组织、信息检索、信息推理查询等领域运用比较广泛。
动态本体是基于本体的全集属性,根据业务逻辑实际需求选择本体中的对象,并根据行业规则对对象的属性和关系进行约束和设定,这些可灵活配置的属性作为本体的子集构成一个动态本体。
一般,本体包含的数据量比较大,因而会将本体中的一些常用的或者重要的信息提取出来,组成本体的概要信息,本体的概要信息包括对象属性的概要信息和对象关系的概要信息。
在对数据的本体进行共享利用之前,需要对数据的本体进行合理有效的存储,目前针对海量的数据的本体,主要采用分布式存储系统HDFS、HBASE等进行存储,或者是采用ElasticSearch作为全文检索引擎来对本体进行存储。但是目前的存储方法在实际应用场景中仍存在以下几个问题:
首先是在本体进行存储时不够灵活,一般在本体存储前需要事先确定本体的Schema,Schema是本体的概要信息的框架,即规定概要信息需要包含哪些信息,Schema的提前确定使得存储下来的本体相对固定化。固化本体是基于固定业务需求的,本体的Schema一旦确定后再根据业务进行存储调整则需要对整套本体的存储信息进行调整,缺乏足够的扩展性和灵活性。
此外,采用ElasticSearch进行本体的存储,ES作为内存搜索引擎在大规模数据存储时存在内存瓶颈,且数据缺乏访问控制使得存储的本体不具安全可靠性。
发明内容
有鉴于此,本申请提供了一种动态本体的存储系统、存储方法和数据查询方法。
根据本申请的第一方面,本申请提供了一种动态本体存储系统,所述存储系统包括:
源数据存储层,用于存储源数据;
配置层,用于接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;根据所述源数据配置信息从所述源数据存储层获取源数据;根据所述动态本体配置规则并利用获取的源数据生成动态本体;
本体存储层,用于根据所述配置层生成的动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。
可选地,所述配置控制信息携带目标行业标识;
所述配置层获取的源数据为所述目标行业标识对应的目标行业的源数据;
所述配置层还用于提供与所述目标行业匹配的行业模板,将所述源数据配置信息、动态本体配置规则以及动态本体存储规则加载在所述行业模板。
可选地,所述源数据配置信息用于与所述源数据存储层建立连接,以通过所述连接获取所述源数据。
可选地,所述动态本体配置规则用于限定所述动态本体的配置方式,以利用获取的源数据生成动态本体;
所述配置方式包括:
对所述动态本体的对象、对象属性、对象关系的配置方式;对概要信息框架的配置方式;和/或对对象关系计算规则的配置方式。
可选地,所述动态本体存储规则用于设定所述结构化存储系统的地址、所述全文索引存储系统的地址、所述图数库存储系统的地址;确定所述动态本体的主键标识建立规则和/或所述结构化存储系统与所述全文索引存储系统的映射地址。
可选地,所述本体存储层对所述结构化存储系统和所述全文索引存储系统采用延时同步的存储策略,所述延时同步的存储策略包括:
将所述目标行业本体在所述结构化存储系统中存储后,在满足触发条件时,根据所述动态本体存储规则将所述目标行业本体的概要信息存储到所述全文索引存储系统,其中,所述动态本体存储规则包括所述结构化存储系统与所述全文索引存储系统的映射地址,所述触发条件包括:
结构化存储系统中的所述动态本体的数据量达到预设值;或
距离上一次将所述动态本体的概要信息同步存储到全文索引存储系统的时间间隔达到预设值。
根据本申请的第二方面,本申请提供了一种动态本体存储方法,所述方法包括:
接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;
根据所述源数据配置信息从所述源数据存储层获取源数据;
根据所述动态本体配置规则并利用获取的源数据生成动态本体;
根据所述动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。
可选地,所述配置控制信息携带目标行业标识;所述获取的源数据为所述目标行业标识对应的目标行业的源数据;
所述方法还包括:
将所述源数据配置信息、动态本体配置规则以及动态本体存储规则加载在行业模板,所述行业模板与所述目标行业相匹配。
可选地,所述源数据配置信息用于与所述源数据存储层建立连接,以通过所述连接获取所述源数据。
可选地,所述动态本体配置规则用于限定所述动态本体的配置方式,以利用获取的源数据生成动态本体;
所述配置方式包括:
对所述动态本体的对象、对象属性、对象关系的配置方式;对概要信息框架的配置方式;和/或对对象关系计算规则的配置方式。
可选地,所述动态本体存储规则用于设定所述结构化存储系统的地址、所述全文索引存储系统的地址、所述图数库存储系统的地址;确定所述动态本体的主键标识建立规则和/或所述结构化存储系统与所述全文索引存储系统的映射地址。
可选地,对所述结构化存储系统和所述全文索引存储系统采用延时同步的存储策略,所述延时同步的存储策略包括:
将所述目标行业本体在所述结构化存储系统中存储后,在满足触发条件时,根据所述动态本体存储规则将所述目标行业本体的概要信息存储到所述全文索引存储系统,其中,所述动态本体存储规则包括所述结构化存储系统与所述全文索引存储系统的映射地址,所述触发条件包括:
结构化存储系统中的所述动态本体的数据量达到预设值;或
距离上一次将所述动态本体的概要信息同步存储到全文索引存储系统的时间间隔达到预设值。
根据本申请的第三方面,本申请还提供了一种动态本体的存储装置,其特征在于,所述装置包括:
第一生成模块,用于接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;
获取模块,用于根据所述源数据配置信息从所述源数据库获取源数据;
第二生成模块,用于根据所述动态本体配置规则并利用获取的源数据生成动态本体;
存储模块,用于根据所述动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。
根据本申请的第四方面,本申请还提供了一种数据查询方法,所述方法用于从说明书实施例中的动态本体存储系统中查询数据,具体的所述方法包括:
接收对目标本体的相关信息的查询请求;
根据所述查询请求从指定的数据库中获取所述相关信息;
将所获取的目标本体或所述概要信息发送给请求方。
根据本申请的第五方面,本申请还提供了一种数据查询装置,所述数据查询装置适用于说明书实施例中的动态本体存储系统的数据查询,所述数据查询装置包括:
接收模块,用于接收对目标本体的相关信息的查询请求;
获取模块,用于根据所述查询请求从指定的数据库中获取所述相关信息;
发送模块,用于将所获取的目标本体和所述概要信息发送给请求方。
根据本申请的第六方面,本申请还提供一种设备,所述设备包括:
存储器,用于存储可执行的计算机程序指令;
处理器,用于执行所述计机算程序指令实现以下步骤:
接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;
根据所述源数据配置信息从所述源数据存储层获取源数据;
根据所述动态本体配置规则并利用获取的源数据生成动态本体;
根据所述动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。
所述处理器执行所述计机算程序指令还可以实现以下步骤:
接收对目标本体的相关信息的查询请求;
根据所述查询请求从指定的数据库中获取所述相关信息;
将所获取的目标本体和所述概要信息发送给请求方。
本申请可获得以下有益效果:本申请提供了一种动态本体存储系统,所述存储系统包括源数据存储层、配置层和本体存储层,源数据存储层用于存储源数据;配置层用于接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;根据所述源数据配置信息从所述源数据存储层获取源数据;根据所述动态本体配置规则并利用获取的源数据生成动态本体;本体存储层用于根据所述配置层生成的动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。本申请提供的本体存储系统可以根据用户需求和行业特点动态的生成配置目标行业动态本体的源数据配置信息、动态本体配置规则和动态本体存储规则,更加智能和灵活地配置动态本体,同时采用混合存储的技术,以结构化存储系统作为本体存储的主数据库,有效保证了本体的安全可靠性,以图数据存储系统存储本体的对象关系,可以存储本体中对象的多级的关系,以全文索引存储系统存储本体的概要信息,可以为用户提供更加高效的查询服务。
附图说明
图1是本申请一示例性实施例示出的一种动态本体存储系统的示意图;
图2是本申请一示例性实施例示出的一种延时同步存储策略的示意图;
图3是本申请一示例性实施例示出的一种对象关系存储在图数据存储系统的示意图;
图4a是本申请一示例性实施例示出的一种动态本体存储方法的方法流程图;
图4b是本申请一示例性实施例示出的一种动态本体存储装置的逻辑结构示意图;
图5a是本申请一示例性实施例示出的一种数据查询方法的方法流程图;
图5b是本申请一示例性实施例示出的一种数据查询装置的逻辑结构示意图;
图6是本申请一示例性实施例示出的一种动态本体存储系统的示意图;
图7是本申请一示例性实施例示出的一种设备的结构逻辑框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本体是用于描述或表达某一领域知识的一组概念或术语以及这些概念或术语之间的关系,它可以用来组织知识库较高层次的知识抽象,也可以用来描述特定领域的知识。本体通过对象、对象属性、以及对象关系来描述。其中,对象是指任何能够被建模的事物,对象属性是对象的一些特征品质,对象关系则是对象之间存在的各种关系。比如,用本体来描述教育领域的知识,这个领域涉及的术语包括老师、学生等,其中,老师和学生为本体中包含的对象,老师的姓名、年龄、性别等信息则为这个对象对应的对象属性,而师生关系则为老师和学生这两个对象之间的关系,通过本体中的对象、对象属性、以及对象关系就可以把教育领域的知识描述出来。一般,本体包含的数据量比较大,因而会将本体中的一些常用的或者重要的信息提取出来,组成本体的概要信息,以便用户在查询信息的时候,只需查询小部分的概要信息,而不用查询整个本体的信息。以上述教育行业的本体为例,教育行业的本体包含的对象、对象属性以及对象关系及其复杂,数据量也很大,因而可以抽取出一些用户可能经常会查询的信息或者比较重要的信息,构建本体的概要信息,比如本体概要信息可以只包含对象的性别、年龄属性,对象关系中的信息可以挑选常用或重要的信息等等。
动态本体是基于本体的全集属性,根据业务逻辑实际需求选择本体中的对象,并根据行业规则对对象的属性和对象关系进行约束和设定,这些可灵活配置的属性作为本体的子集构成一个动态本体。比如说要配置公安行业的本体,可以根据公安行业的行业特点,去选择本体中需要哪些对象、对象的哪些属性、对象关系展示的内容包括哪些、以及本体的概要信息,其中本体的概要信息为本体中比较常用或者比较重要的一类信息。
在对数据的本体进行共享利用之前,需要对数据的本体进行合理有效的存储,目前针对海量的数据的本体,主要采用分布式存储系统HDFS、HBASE等进行存储,或者是采用ElasticSearch作为全文检索引擎来对本体进行存储。但是目前的存储方法在实际应用场景中仍存在以下几个问题:
首先是在本体进行存储时不够灵活,一般在本体存储前需要事先确定本体的Schema,Schema为本体概要信息的框架,即规定概要信息需要包含哪些信息,Schema的提前确定使得存储下来的本体相对固定化。固定化的本体是基于固定业务需求的,本体描述的Schema一旦确定后再根据业务进行存储调整则需要对整套本体的存储信息进行调整,缺乏足够的扩展性和灵活性。
此外,采用ElasticSearch进行本体的存储,ElasticSearch作为内存搜索引擎在大规模数据存储时存在内存瓶颈,且数据缺乏访问控制使得存储的本体不具安全可靠性。
为了解决上述问题,本申请提出了一种动态本体的存储系统,通过所述存储系统可以从源数据库中获取各个行业的源数据,然后根据用户输入的配置控制信息生成的源数据配置信息、动态本体配置规则和动态本体存储规则从所述源数据中抽取出对象、对象属性和对象关系并配置成动态本体,然后通过混合存储技术存储所述动态本体,具体的所述动态本体存储系统如图1所示,包括:
源数据存储层11,用于存储源数据;
配置层12,用于接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;根据所述源数据配置信息从所述源数据存储层获取源数据;根据所述动态本体配置规则并利用获取的源数据生成动态本体;
本体存储层13,用于根据所述配置层生成的动态本体存储规则将所述动态本体存储到结构化存储系统131,将所述动态本体中的概要信息存储到全文索引存储系统132、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统133。
源数据存储层可以包含多个存储系统,这些存储系统中存储了至少一个行业的源数据,源数据存储层中的存储系统可以是MySQL数据库、Oracle数据库、HBASE数据库、HDFS数据库等,只要可以与这些数据库建立连接,从数据库中读取数据即可。在这些数据库中可以存储各个行业的源数据,比如公安行业、教育行业、金融行业、交通行业、工业行业等等,当然这些行业还可以根据具体的功能模块划分成更小的行业领域,比如教育行业还可以细分成大学教育领域、中学教育领域、小学教育领域,工业行业也可以细分为轻工业领域、重工业领域、传统工业领域和新兴工业领域等等,这些行业及领域都可以根据实际需求具体划分,本申请不作具体的限制。
配置层提供了获取外部输入信息的配置接口,以及根据外部输入信息生成所述目标行业的源数据对应的源数据配置信息、动态本体配置规则以及动态本体存储规则。比如,配置层中可以有一个获取外部输入信息的配置接口,这个配置接口可以与一个用户可视化窗口连接,用户可以根据实际需要在可视化窗口中勾选或输入生成某个行业动态本体的配置控制信息,比如一些源数据的信息、配置本体所需遵循的一些规则以及存储本体的一些规则。用户可以在可视化窗口去选择源数据从哪个源数据系统去获取,目标行业本体需要包含的对象有哪些,对象属性需要包含哪些,概要信息需要包含哪些内容,以及对象关系需要包含哪些,然后配置层根据用户输入的所述配置控制信息生成源数据配置信息、动态本体配置规则以及动态本体存储规则。
在一个实施例中,配置控制信息携带目标行业标识;即标识需要配置的本体为哪个行业的本体,比如目标行业标识可以表示这个本体的行业类型是公安、教育或者是其他领域,或者也可以更进一步划分成更具体的行业领域,比如说这个本体是教育领域中的大学教育领域还是中学教育领域,然后配置层再去获取与所述目标行业标识对应的目标行业的源数据;所述配置层还用于提供与所述目标行业匹配的行业模板,将所述源数据配置信息、动态本体配置规则以及动态本体存储规则加载在所述行业模板。
由于从所述源数据存储层的存储系统中获取某个行业的源数据,需要先与源数据存储层中的存储系统建立连接,在一个实施例中,可以预先根据源数据存储层中的存储系统的相关信息配置目标行业源数据配置信息,所述源数据配置信息用于与源数据存储层中的存储系统建立连接,在与源数据存储层的存储系统建立连接后,从存储系统中读取数据。其中,源数据配置信息包括:存储源数据的存储系统的标识信息、存储源数据的存储系统的描述信息、存储源数据的存储系统的IP地址、存储源数据的存储系统的端口号、存储源数据的存储系统的访问账户标识和/或存储源数据的存储系统的访问密码。比如,当想要构建公安行业的源数据时,可以根据配置信息找到公安行业的源数据所在数据库的名称,数据库的IP地址,数据库的端口,然后根据这些信息向该数据库发送连接请求,并通过连接密码与该数据库建立连接,然后从该数据库获取源数据。
从源数据层中获取到目标行业的源数据后,可以利用该目标行业的动态本体配置规则生成该目标行业的动态本体。可以根据生成的动态本体配置规则从目标行业的源数据中抽取出目标行业包括的对象,对象属性以及对象关系,通过抽取的对象,对像属性以及对象关系来配置目标行业的动态本体,以及通过配置规则抽取出动态本体的概要信息。比如,获取了公安行业的源数据,这些源数据可以包括户口本、个人简历等一系列数据,然后可以根据行业模板里面的一些动态本体配置规则从这些数据中抽取出对象,对象可以是人,比如抽取出A,B,C三个人,然后抽取A,B,C三个对象的属性,比如年龄,性别,籍贯等,然后抽取这些对象之间的关系,比如A与B是父子关系,A与C是兄弟关系。通过抽取的这些对象、对象属性及对像关系可以描述这个小范围的本体。另外,动态本体配置规则还定义目标行业的动态本体对应的概要信息框架,即概要信息包含的内容,因而可以根据动态本体配置规则确定本体的概要信息。本体的概要信息包括对象属性的概要信息和对象关系的概要信息。举个例子,人这类对象对应的属性信息有非常多,包括姓名、年龄、性别、身高、体重、出生年月、职业、籍贯等等,但是常用的信息为姓名、年龄、性别、职业,因而可以将姓名、年龄、性别、职业设置为对象属性的概要信息。比如说A与B两个人之间的有同住宿关系,同住宿这个关系包含的信息也特别多,包括A的身份证信息、B的身份证信息、同宿酒店名称、地址、电话以及楼层、同宿时长等等,同样也可以提取一些重要的信息作为对象关系的概要信息,比如将A的身份证信息、B的身份证信息、同宿酒店名称、同宿时长作为概要信息。当然这只是个简单的例子,在实际处理中,抽取的对象、对象属性的数据会非常的庞大,对像关系也会非常复杂。
利用目标行业的源数据生成目标行业的动态本体需要根据动态本体配置规则去生成,在一个实施例中,动态本体配置规则包含了目标行业包括的对象、对象属性、对象关系、概要信息的框架和/或对象关系计算规则。比如说动态本体配置规则可以根据目标行业所属的类型和目标行业的特性来规定目标行业的动态本体需要包含哪些内容,比如目标行业的动态本体的对象需要包含哪些,是人物或者是其他的实体,对象的属性需要包含哪些,比如,以人物对象为例,只需要包含对象的性别、年龄,还是需要包含对象的性别、年龄、学历、身高、个人经历等其他的信息,以及对象关系,是只需要包含与对象相关的父子关系、母子关系、兄弟关系、爷孙关系、夫妻关系,还是需要与对象相关的同事关系、同住宿关系、师生关系等,此外,这些对象关系应当根据什么样的计算规则来确定对象之间存在这种关系,这些信息都可以在动态本体配置规则中设置好,当获取到源数据后,便可以根据动态本体配置规则去从源数据里面抽取出这些信息。以公安领域为例,公安领域相对来说会更重视的对象是人,以及人与人之间的关系网络,因而公安领域的动态本体配置规则中可以配置需要抽取的对象是人、对象属性可以包括人的性别、年龄、身高、籍贯、学历、个人经历等信息,对象关系需要包括与这个人相关的父子、母子、夫妻、兄弟、同住宿等关系,以及这些关系的计算规则,比如说公安领域会关注对象之间的同住宿关系,因而会在动态本体配置规则中设置需要提取这一层关系,以便根据设置的这层关系从源数据中计算出对象之间的同住宿关系,当然计算同住宿关系的计算规则也需要动态本体配置规则中去配置如何计算,比如说可以设置当两个人在同一个房间待的时间有重叠,就把他们归为同住宿关系。另外,动态本体配置规则中还包括目标行业本体的概要信息框架,概要信息框架包括了概要信息可以包含的内容,比如以上述公安领域为例,可能用户常用到的信息为对象、对象的性别、年龄、身份证信息、以及与对象有关的父子关系、母子关系,夫妻关系,因而在概要信息框架中便可以设置这些信息,以便从源数据提取出来这些信息作为本体的概要信息。当然,动态本体配置规则的具体内容和规则可以根据本行业的特性和需求去灵活的设置,本申请不作具体的限制。通过这种配置方式,可以动态的增加或删除本体对象的属性信息或者是对象关系,使得本体配置的变得非常灵活。
在配置完目标行业的动态本体之后,可以采用混合存储的技术存储所述动态本体。可以将动态本体存储到结构化存储系统,将动态本体包含的概要信息存储到全文索引系统,将描述动态本体中的对象关系存储到图数据系统。结构化存储系统以松散稀疏表的形式对数据进行列式存储,支持多数据类型,可提供大规模存储、实时更新、分布式计算等能力,且具有高可靠、高性能等特点,因而非常适合用于存储大数据。而全文索引系统根据属性关键词来索引该词所在全文中的位置和次数,当进行查询时,根据事先建立的索引来查找该词,具有查询速度快、查询高效的特点。图数据库是一种非关系型数据库,相比于关系型数据库而言,更加适合存储对象之间的关系网络。传统的存储方式,要么有些将本体直接存在结构化存储系统当中,比如HBASE、HDFS,这种存储方法在查询本体信息的时候,由于数据量比较大,查询速度会比较慢,而且结构化存储系统也无法存储对象之间二级及二级以上的关系。有些将本体存储在全文索引存储系统当中,比如ElasticSearch,这种方式便于检索,但是本体数据量较大,会导致全文索引存储系统的内存出现瓶颈。
本申请结合了三种存储系统的优势,可以采用适合大数据存储的结构化存储系统来存储数据量较大的目标行业的动态本体,采用查询效率高的全文索引系统来存储用户比较常用或比较重要的动态本体的概要信息,且概要信息的数据量比较小,而动态本体中的对象关系,则采用适合存储关系数据的图数据存储系统来存储,通过将结构化存储系统与全文索引存储系统结合,在保证数据同步的基础上既缓解了数据的冗余又加强了两者的融合度,提高结构化存储系统与全文索引存储系统的存储性能。这样既可以提高本体数据存储的稳定性和可靠性,也可以为上层用户提供更高效的查询服务。生成的动态本体后,将动态本体存储到三个存储系统中可以根据预先生成的动态本体存储规则去存储,比如哪些信息存储到结构化存储系统,结构化存储系统的地址,哪些信息存储到全文索引系统以及全文索引系统的地址、哪些信息存储到图数据存储系统,图数据存储系统的地址、本体存储到三个存储系统中的主键标识的建立规则等等都需要通过预先生成的存储规则定义好。在一个实施例中,所述存储规则包括所述结构化存储系统的地址、所述全文索引存储系统的地址、所述图数据存储系统的地址、所述动态本体的主键标识建立规则和/或所述结构化存储系统的地址与所述全文索引存储系统的地址的映射关系。生成动态本体后,根据动态本体存储规则中的存储系统的地址将本体、概要信息和本体的对象关系分别存到三个数据库中。其中,将本体存储到存储系统中后,存储系统会根据预先定义好的主键标识建立规则生成对应数据的主键标识,通过主键标识来表示对应的数据。比如说,将本体存储到结构化存储系统中,结构化存储系统会根据主键标识建立规则生成不同对象的数据主键标识,这个主键标识可以用对象(假设对象是人)的身份证号来标识,当然也可以用身份证号加一下划线标识,这个主键标识的配置规则可以根据需求灵活设定,每个对象的数据在存储系统中的主键标识是唯一的。另外,由于存储到结构化存储系统中的本体与存储到全文索引系统中的本体的概要信息需要一致,所以需要预先定义好结构化存储系统的地址与全文索引存储系统的地址的映射关系,以便可以根据地址映射关系将信息同步到对应的存储系统。
将动态本体存储到结构化存储系统后,需要将动态本体的概要信息存储到全文索引系统,存储到结构化存储系统的本体与存储到全文索引系统的概要信息需要保持一致。在一个实施例中,可以采用延时同步的存储策略来保持两个存储系统之间的数据的同步。如图2所示,可以在结构化存储系统21中开通一个数据池24,将所述动态本体存储到目标结构化存储系统的数据池24中,在满足触发条件时,可以根据动态本体存储规则将所述动态本体的概要信息同步存储到所述全文索引存储系统23,其中,所述动态本体存储规则包括所述结构化存储系统的地址与所述标全文索引存储系统的地址的映射关系,所述映射关系可以存储预先存储在Key-Value数据库22中。比如说,本体的概要信息包括对象的概要信息和对象关系的概要信息,在结构化存储系统中,存储教育行业本体对象和对象属性的地址为A1,存储对象关系的地址为B1,而在全文索引存储系统中,存储教育行业本体对象和对象属性的概要信息的地址为A2,存储对象关系的概要信息的地址为B2,因此,需要预先定义好本体和本体概要信息存储在结构化存储系统中的地址和存储在全文索引存储系统的地址的映射关系,比如本体对象和属性在结构化存储系统的存储地址A1对应对象和属性的概要信息在全文索引存储系统的存储地址A2,本体对象关系在结构化存储系统的存储地址B1对应对象关系的概要信息在全文索引存储系统的存储地址B2,然后将地址的映射关系存储在Key-Value数据库中。这样结构存储系统才能将概要信息同步存储到对应的全文索引存储系统,保持两个系统信息的一致性。
在一实施例中,触发条件包括结构化存储系统中的动态本体的数据量达到预设值;或距离上一次将所述动态本体的概要信息同步存储到全文索引存储系统的时间间隔达到预设值。可以通过结构化存储系统中数据量是否达到预设值来判定,如果达到预设值,则将本体的概要信息同步存储到全文索引存储系统当中。或者可以设置同步存储的时间间隔,如果距离上一次将结构化存储系统的概要信息同步到全文索引存储系统的时间间隔到达预设值,则再一次将数据池的本体概要信息同步存储到全文索引存储系统。
在一个实施例中,在将所述动态本体存储到结构化存储系统之后,将所述行业本体中的对象在所述结构化存储系统中对应的主键标识以及对象关系存储到所述目标图数据系统中,构成所述行业本体的对象关系图谱,其中,所述对象关系图谱的节点表示所述对象对应的主键标识,所述对象关系图谱的边表示对象关系。如图3所示为本体中对象的关系图谱,其中节点代表对象或者对象的主键标识,边表示对象之间的关系。
本申请还提供了一种动态本体的存储方法,所述方法如图4a所示,包括:
S401、接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;
S402、根据所述源数据配置信息从所述源数据存储层获取源数据;
S403、根据所述动态本体配置规则并利用获取的源数据生成动态本体;
S404、根据所述动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。
本申请提供的动态本体的存储方法可用于上述动态本体存储系统,当接收到用户通过外部接口输入的配置控制信息后,可以根据配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则,然后根据源数据配置信息从源数据存储层获取源数据,源数据存储层包括多个源数据存储系统,比如MySQL数据库、Oracle数据库、HBASE数据库、HDFS数据库等,可根据生成的源数据配置信息与这些数据库建立连接,从数据库中读取源数据。然后根据所述动态本体配置规则并利用获取的源数据生成动态本体,并根据动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。
在一个实施例中,配置控制信息携带目标行业标识,即标识需要配置的本体为哪个行业的本体,比如目标行业标识可以表示这个本体的行业类型是公安、教育或者是其他领域,然后再去获取与所述目标行业标识对应的目标行业的源数据;所述配置层还用于提供与所述目标行业匹配的行业模板,将所述源数据配置信息、动态本体配置规则以及动态本体存储规则加载在所述行业模板。
由于从所述源数据存储层的存储系统中获取某个行业的源数据,需要先与源数据存储层中的存储系统建立连接,在一个实施例中,可以预先根据源数据存储层中的存储系统的相关信息配置目标行业源数据配置信息,所述源数据配置信息用于与源数据存储层中的存储系统建立连接,在与源数据存储层的存储系统建立连接后,从存储系统中读取数据。其中,源数据配置信息包括:存储源数据的存储系统的标识信息、存储源数据的存储系统的描述信息、存储源数据的存储系统的IP地址、存储源数据的存储系统的端口号、存储源数据的存储系统的访问账户标识和/或存储源数据的存储系统的访问密码。
利用目标行业的源数据生成目标行业的动态本体需要根据动态本体配置规则去生成,在一个实施例中,动态本体配置规则包含了目标行业包括的对象、对象属性、对象关系、概要信息的框架和/或对象关系计算规则。比如说动态本体配置规则可以根据目标行业所属的类型和目标行业的特性来规定目标行业的动态本体需要包含哪些内容,比如目标行业的动态本体的对象需要包含哪些,是人物或者是其他的实体,对象的属性需要包含哪些,比如,以人物对象为例,只需要包含对象的性别、年龄,还是需要包含对象的性别、年龄、学历、身高、个人经历等其他的信息,以及对象关系,是只需要包含与对象相关的父子关系、母子关系、兄弟关系、爷孙关系、夫妻关系,还是需要与对象相关的同事关系、同住宿关系、师生关系等,此外,这些对象关系应当根据什么样的计算规则来确定对象之间存在这种关系,这些信息都可以在动态本体配置规则中设置好,当获取到源数据后,便可以根据动态本体配置规则去从源数据里面抽取出这些信息。
本申请结合了三种存储系统的优势,可以采用适合大数据存储的结构化存储系统来存储数据量较大的目标行业的动态本体,采用查询效率高的全文索引系统来存储用户比较常用或比较重要的动态本体的概要信息,且概要信息的数据量比较小,而动态本体中的对象关系,则采用适合存储关系数据的图数据存储系统来存储,通过将结构化存储系统与全文索引存储系统结合,在保证数据同步的基础上既缓解了数据的冗余又加强了两者的融合度,提高结构化存储系统与全文索引存储系统的存储性能。这样既可以提高本体数据存储的稳定性和可靠性,也可以为上层用户提供更高效的查询服务。生成的动态本体后,将动态本体存储到三个存储系统中可以根据预先生成的动态本体存储规则去存储,比如哪些信息存储到结构化存储系统,结构化存储系统的地址,哪些信息存储到全文索引系统以及全文索引系统的地址、哪些信息存储到图数据存储系统,图数据存储系统的地址、本体存储到三个存储系统中的主键标识的建立规则等等都需要通过预先生成的存储规则定义好。在一个实施例中,所述存储规则包括所述结构化存储系统的地址、所述全文索引存储系统的地址、所述图数据存储系统的地址、所述动态本体的主键标识建立规则和/或所述结构化存储系统的地址与所述全文索引存储系统的地址的映射关系。
将动态本体存储到结构化存储系统后,需要将动态本体的概要信息存储到全文索引系统,存储到结构化存储系统的本体与存储到全文索引系统的概要信息需要保持一致。在一个实施例中,可以采用延时同步的存储策略来保持两个存储系统之间的数据的同步,将目标行业本体在所述结构化存储系统中存储后,可以在结构化存储系统中开通一个数据池,将所述动态本体存储到目标结构化存储系统的数据池中,当结构化存储系统中的所述动态本体的数据量达到预设值,或者距离上一次将所述动态本体的概要信息同步存储到全文索引存储系统的时间间隔达到预设值,则根据动态本体存储规则将所述目标行业本体的概要信息存储到所述全文索引存储系统,其中,动态本体存储规则包括结构化存储系统与全文索引存储系统的映射地址。
在一个实施例中,在将动态本体存储到结构化存储系统之后,将行业本体中的对象在所述结构化存储系统中对应的主键标识以及对象关系存储到所述目标图数据系统中,构成所述行业本体的对象关系图谱,其中,对象关系图谱的节点表示对象对应的主键标识,对象关系图谱的边表示对象关系。如图3所示为本体中对象的关系图谱,其中节点代表对象或者对象的主键标识,边表示对象之间的关系。与上述动态本体的动态本体的存储方法相对应,本申请还提供了一种动态本体的存储装置,如图4b所示,所述装置40包括:
第一生成模块41,用于接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;
获取模块42,用于根据所述源数据配置信息从所述源数据库获取源数据;
第二生成模块43,用于根据所述动态本体配置规则并利用获取的源数据生成动态本体;
存储模块44,用于根据所述动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。
在某些实施例中,所述配置控制信息携带目标行业标识;所述获取的源数据为所述目标行业标识对应的目标行业的源数据;
所述装置还用于:
将所述源数据配置信息、动态本体配置规则以及动态本体存储规则加载在行业模板,所述行业模板与所述目标行业相匹配。
在某些实施例中,所述源数据配置信息用于与所述源数据存储层建立连接,以通过所述连接获取所述源数据。
在某些实施例中,所述动态本体配置规则用于限定所述动态本体的配置方式,以利用获取的源数据生成动态本体;
所述配置方式包括:
对所述动态本体的对象、对象属性、对象关系的配置方式;对概要信息框架的配置方式;和/或对对象关系计算规则的配置方式。
在某些实施例中,所述动态本体存储规则用于设定所述结构化存储系统的地址、所述全文索引存储系统的地址、所述图数库存储系统的地址;确定所述动态本体的主键标识建立规则和/或所述结构化存储系统与所述全文索引存储系统的映射地址。
在某些实施例中,对所述结构化存储系统和所述全文索引存储系统采用延时同步的存储策略,所述延时同步的存储策略包括:
将所述目标行业本体在所述结构化存储系统中存储后,在满足触发条件时,根据所述动态本体存储规则将所述目标行业本体的概要信息存储到所述全文索引存储系统,其中,所述动态本体存储规则包括所述结构化存储系统与所述全文索引存储系统的映射地址,所述触发条件包括:
结构化存储系统中的所述动态本体的数据量达到预设值;或
距离上一次将所述动态本体的概要信息同步存储到全文索引存储系统的时间间隔达到预设值。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
进一步地本申请还提供了一种查询方法,所述方法适用于与上述实施例相对应的动态本体存储系统的数据查询,所述方法如图5a所示,包括以下步骤:
S501、接收对目标本体的相关信息的查询请求;
S502、根据所述查询请求从指定的数据库中获取所述相关信息;
S503、将所获取的目标本体或所述概要信息发送给请求方。
由于目标本体的概要信息、目标本体以及本体的对象关系分别存储在全文索引系统、结构化存储系统以及图数据库中,当接收到用户发送的查询上述实施例中的动态本体存储系统中存储的本体的相关信息的请求后,可以解析所述查询请求,获取所述查询请求携带的查询关键词信息,然后根据所述查询关键词信息从全文索引系统、结构化存储系统或图数据库中获取目标本体的概要信息或者目标本体发送给请求方。
在一个实施例中,如果所述查询请求为查询概要信息的请求,则所述指定的数据库为全文索引数据库。通常概要信息中包含了用户常用到的一些本体的相关信息,且全文索引系统的查询速度一般比较高效,所以,在某些实施例中,在接收到查询请求后,可以根据查询请求中携带的关键字信息从全文索引系统中检索到相关本体的概要信息,如果在概要信息中包含了用户所要查询的信息,则直接将概要信息返回给用户,查询结束。当然,在某些实施例中,可能用户所要查询的本体信息不包含在概要信息当中,这个时候则需要从存储有完成的目标本体的信息的结构化存储系统中去查询整个目标本体,以便获取到用户所需要的本体的信息。由于在本体存储时,存储到全文索引系统中存储的本体概要信息在结构化存储系统中都有相应的映射地址,这个映射地址存储在全文索引系统当中,用于指示包含该概要信息的目标本体在结构化存储系统的地址。在某些实施例中,为了提高查询的效率,可以采用以下方式从所述从结构化存储系统中获取用户所要查询的本体的相关信息:首先可以从全文索引存储系统中获取相应的目标本体的概要信息,然后根据全文索引系统中存储的所述概要信息映射至结构化存储系统的映射地址,从所述结构化存储系统获取所述目标本体,通过从高效查询的全文索引系统获取本体的概要信息,以及本体概要信息在结构化的映射地址,然后通过映射地址去结构化存储系统中获取本体,避免直接从数据量大的结构化存储系统去查询本体,这种查询方式可以大大提高本体查询的效率。
图数据库可以展示本体中的对象之间的多级关系,在某些实施例中,如果用户要查询的是本体中对象的对象关系,则所述指定存储系统为图数据存储系统,可以从所述图数库存储系统去查询本体中对象的关系图谱,并返回给用户。
与上述实施例中的数据查询方法相对应,本申请还提供了一种数据查询装置,所述数据查询装置适用于与上述实施例相对应的动态本体存储系统的数据查询,所述装置如图5b所示,包括:
接收模块51,用于接收对目标本体的相关信息的查询请求;
获取模块52,用于根据所述查询请求从指定的数据库中获取所述相关信息;
发送模块53,用于将所获取的目标本体和所述概要信息发送给请求方。
在某些实施例中,所述查询请求为查询概要信息的请求,所述指定的数据库为全文索引数据库。
在某些实施例中,所述查询请求为查询目标本体的请求,所述从指定的数据库中获取所述相关信息的步骤包括:
从所述全文索引存储系统中获取相应的目标本体的概要信息;
根据全文索引系统中存储的所述概要信息映射至结构化存储系统的映射地址,从所述结构化存储系统获取所述目标本体,其中,所述映射地址用于指示包含该概要信息的目标本体在结构化存储系统的地址。
在某些实施例中,所述方法还包括:
所述查询请求为查询目标本体的对象关系的请求,所述指定的数据库为所述图数库存储系统。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。为了进一步解释本申请提供的动态本体存储系统,存储方法以及数据查询方法,以下一个具体的实施例加以解释。
为了灵活和动态的构建和存储各个行业的本体,设计一种动态本体存储系统,所述存储系统如图6所示,包括源数据存储层61、配置层62、本体存储层63,其中,源数据存储层包含了不同的数据库611,如MySQL、Oracle、HBASE、HDFS等数据库,这些数据库中存储了公安、教育、金融、工业、交通等行业的源数据。本体存储层包括结构化存储系统633、全文索引存储系统633、图数据存储系统631。配置层提供一个对外的配置接口64,与一个可视化的窗口65相连,用户可以根据本体的实际需求通过在可视化窗口中勾选和输入一些信息,作为配置控制信息输入到配置层,其中,配置控制信息中携带有行业标识,配置层根据用户输入的配置控制信息,可自动生成这个行业的行业模板621,行业模板中包括源数据的配置信息,动态本体配置规则和动态本体存储规则。其中,源数据的配置信息用于与所述源数据存储层建立连接,包括:存储源数据的存储系统的标识信息、存储源数据的存储系统的描述信息、存储源数据的存储系统的IP地址、存储源数据的存储系统的端口号、存储源数据的存储系统的访问账户标识和/或存储源数据的存储系统的访问密码。
动态本体配置规则用于限定动态本体的配置方式,包括动态本体包括的对象、对象属性、对象关系、概要信息框架和/或对象关系计算规则。动态本体存储规则包括结构化存储系统的地址、全文索引存储系统的地址、图数库存储系统的地址、动态本体的主键标识建立规则和/或结构化存储系统的地址所述全文索引存储系统的地址的映射关系。比如,要构建公安行业的行业本体,用户可以在可视化窗口中勾选MySQL源数据库、源数据地址、端口号,则会自动生成源数据的配置信息,这些信息包括公安行业的源数据是MySQL源数据库、以及这个数据库的源数据地址、端口号生成配置信息。动态本体配置规则和动态本体存储规则生成后,配置层便可以自动根据源数据配置信息从源数据存储层获取公安行业的源数据,然后根据动态本体配置规则将源数据转换成公安行业的动态本体,公安行业的动态本体通过对象、对象属性、对象关系来描述,对象、对象属性、以及对象关系都是通过动态本体配置规则里面的公安行业本体的对象、属性和对像关系和对象关系计算规则去计算提取的,本体中包含概要信息,其中,概要信息也是根据动态本体配置规则的概要信息框系统建的。根据动态本体存储规则,在结构化存储系统开通一个数据池,将本体存储到数据池中,待数据池的数据量达到预设值,则根据Key-Value数据库中存储的结构化存储系统的地址与全文索引存储系统的地址的映射关系,将本体的概要信息同步到对应的全文索引存储系统中。然后将将所述动态本体中的对象的主键标识以及对象关系存储到图数据系统中,构成所述行业本体的对象关系图谱,其中,所述对象关系图谱的节点表示所述对象对应的主键标识,所述对象关系图谱的边表示对象关系。
当接收到用户的查询目标本体的相关信息的查询请求时,会将所述查询请求中的查询字段从全文索引存储系统中找到目标本体的概要信息,如果用户要查询的信息在概要信息中,则从概要信息中获取所述信息,如果概要信息中不包括用户要查询的信息,则从结构化存储系统中去查询所述信息,如果要查询本体中对象关系的信息,则可以从图数据库中去查询,然后将查询到的数据返回给用户。
从硬件层面而言,如图7所示,为本申请提供的一种设备的硬件结构图,除了图7所示的处理器701、网络接口704、内存702以及非易失性存储器703之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等;从硬件结构上来讲该设备还可能是分布式的设备,可能包括多个接口卡,以便在硬件层面进行报文处理的扩展。
所述非易失性存储器703存储有用于存储可执行的计算机指令,处理器704执行所述计算机指令时实现以下步骤:
接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;
根据所述源数据配置信息从所述源数据存储层获取源数据;
根据所述动态本体配置规则并利用获取的源数据生成动态本体;
根据所述动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。
所述非易失性存储器703存储有用于存储可执行的计算机指令,处理器704执行所述计算机指令时还可以实现以下步骤:
接收对目标本体的相关信息的查询请求;
根据所述查询请求从指定的数据库中获取所述相关信息;
将所获取的目标本体和所述概要信息发送给请求方。
其中,所述指定的数据库为上述实施中的动态本体存储系统中的本体存储层的数据库
本申请对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (17)
1.一种动态本体的存储系统,其特征在于,包括:
源数据存储层,用于存储源数据;
配置层,用于接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;根据所述源数据配置信息从所述源数据存储层获取源数据;根据所述动态本体配置规则并利用获取的源数据生成动态本体;
本体存储层,用于根据所述配置层生成的动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。
2.如权利要利要求1所述的一种动态本体存储系统,其特征在于,所述配置控制信息携带目标行业标识;
所述配置层获取的源数据为所述目标行业标识对应的目标行业的源数据;
所述配置层还用于提供与所述目标行业匹配的行业模板,将所述源数据配置信息、动态本体配置规则以及动态本体存储规则加载在所述行业模板。
3.如权利要求1所述的一种动态本体存储系统,其特征在于,所述源数据配置信息用于与所述源数据存储层建立连接,以通过所述连接获取所述源数据。
4.如权利要求1所述的一种动态本体存储系统,其特征在于,所述动态本体配置规则用于限定所述动态本体的配置方式,以利用获取的源数据生成动态本体;
所述配置方式包括:
对所述动态本体的对象、对象属性、对象关系的配置方式;对概要信息框架的配置方式;和/或对对象关系计算规则的配置方式。
5.如权利要利要求1所述的一种动态本体存储系统,其特征在于,所述动态本体存储规则用于设定所述结构化存储系统的地址、所述全文索引存储系统的地址、所述图数库存储系统的地址;确定所述动态本体的主键标识建立规则和/或所述结构化存储系统与所述全文索引存储系统的映射地址。
6.根据权利要求1所述的动态本体存储系统,其特征在于,所述本体存储层对所述结构化存储系统和所述全文索引存储系统采用延时同步的存储策略,所述延时同步的存储策略包括:
将所述目标行业本体在所述结构化存储系统中存储后,在满足触发条件时,根据所述动态本体存储规则将所述目标行业本体的概要信息存储到所述全文索引存储系统,其中,所述动态本体存储规则包括所述结构化存储系统与所述全文索引存储系统的映射地址,所述触发条件包括:
结构化存储系统中的所述动态本体的数据量达到预设值;或
距离上一次将所述动态本体的概要信息同步存储到全文索引存储系统的时间间隔达到预设值。
7.一种动态本体的存储方法,其特征在于,所述方法包括:
接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;
根据所述源数据配置信息从源数据库获取源数据;
根据所述动态本体配置规则并利用获取的源数据生成动态本体;
根据所述动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。
8.根据权利要求7所述的动态本体的存储方法,其特征在于,所述配置控制信息携带目标行业标识;所述获取的源数据为所述目标行业标识对应的目标行业的源数据;
所述方法还包括:
将所述源数据配置信息、动态本体配置规则以及动态本体存储规则加载在行业模板,所述行业模板与所述目标行业相匹配。
9.根据权利要求7所述的动态本体的存储方法,其特征在于,所述源数据配置信息用于与所述源数据存储层建立连接,以通过所述连接获取所述源数据。
10.根据权利要求7所述的动态本体的存储方法,其特征在于,所述动态本体配置规则用于限定所述动态本体的配置方式,以利用获取的源数据生成动态本体;
所述配置方式包括:
对所述动态本体的对象、对象属性、对象关系的配置方式;对概要信息框架的配置方式;和/或对对象关系计算规则的配置方式。
11.根据权利要求7所述的动态本体的存储方法,其特征在于,所述动态本体存储规则用于设定所述结构化存储系统的地址、所述全文索引存储系统的地址、所述图数库存储系统的地址;确定所述动态本体的主键标识建立规则和/或所述结构化存储系统与所述全文索引存储系统的映射地址。
12.根据权利要求7所述的动态本体的存储方法,其特征在于,对所述结构化存储系统和所述全文索引存储系统采用延时同步的存储策略,所述延时同步的存储策略包括:
将所述目标行业本体在所述结构化存储系统中存储后,在满足触发条件时,根据所述动态本体存储规则将所述目标行业本体的概要信息存储到所述全文索引存储系统,其中,所述动态本体存储规则包括所述结构化存储系统与所述全文索引存储系统的映射地址,所述触发条件包括:
结构化存储系统中的所述动态本体的数据量达到预设值;或
距离上一次将所述动态本体的概要信息同步存储到全文索引存储系统的时间间隔达到预设值。
13.一种动态本体的存储装置,其特征在于,所述装置包括:第一生成模块,用于接收来自外部的配置控制信息,根据所述配置控制信息分别生成源数据配置信息、动态本体配置规则以及动态本体存储规则;
获取模块,用于根据所述源数据配置信息从所述源数据库获取源数据;
第二生成模块,用于根据所述动态本体配置规则并利用获取的源数据生成动态本体;
存储模块,用于根据所述动态本体存储规则将所述动态本体存储到结构化存储系统,将所述动态本体中的概要信息存储到全文索引存储系统、以及将所述动态本体中各对象之间的对象关系存储到图数库存储系统。
14.一种数据查询方法,其特征在于,所述方法适用于权利要求1-6所述的动态本体存储系统的数据查询,所述方法包括以下步骤:
接收对目标本体的相关信息的查询请求;
根据所述查询请求从指定的数据库中获取所述相关信息;
将所获取的目标本体或所述概要信息发送给请求方。
15.根据权利要求14所述的数据查询方法,其特征在于,所述查询请求为查询概要信息的请求,所述指定的数据库为全文索引数据库。
16.根据权利要求14所述的数据查询方法,其特征在于,所述查询请求为查询目标本体的请求,所述从指定的数据库中获取所述相关信息的步骤包括:
从所述全文索引存储系统中获取相应的目标本体的概要信息;
根据全文索引系统中存储的所述概要信息映射至结构化存储系统的映射地址,从所述结构化存储系统获取所述目标本体,其中,所述映射地址用于指示包含该概要信息的目标本体在结构化存储系统的地址。
17.根据权利要求14所述的数据查询方法,其特征在于,所述方法还包括:
所述查询请求为查询目标本体的对象关系的请求,所述指定的数据库为所述图数库存储系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910399308.0A CN111949649A (zh) | 2019-05-14 | 2019-05-14 | 一种动态本体存储系统、存储方法、数据查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910399308.0A CN111949649A (zh) | 2019-05-14 | 2019-05-14 | 一种动态本体存储系统、存储方法、数据查询方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111949649A true CN111949649A (zh) | 2020-11-17 |
Family
ID=73336508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910399308.0A Pending CN111949649A (zh) | 2019-05-14 | 2019-05-14 | 一种动态本体存储系统、存储方法、数据查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111949649A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114238268A (zh) * | 2021-11-29 | 2022-03-25 | 武汉达梦数据技术有限公司 | 一种数据存储方法和装置 |
US20220335086A1 (en) * | 2021-04-15 | 2022-10-20 | Vesoft Inc. | Full-text indexing method and system based on graph database |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217784A1 (en) * | 2009-02-26 | 2010-08-26 | Raytheon Company | Information Viewing System |
CN105930092A (zh) * | 2015-02-27 | 2016-09-07 | Yec株式会社 | 多跟踪系统 |
CN107343049A (zh) * | 2017-07-06 | 2017-11-10 | 上海观谷科技有限公司 | 数据同步方法及装置 |
CN109446255A (zh) * | 2018-09-30 | 2019-03-08 | 珠海沙盒网络科技有限公司 | 一种可自适应的存储方法及系统 |
CN109710618A (zh) * | 2018-12-29 | 2019-05-03 | 北京航天云路有限公司 | 知识图谱数据关系分离的混合存储方法及系统 |
-
2019
- 2019-05-14 CN CN201910399308.0A patent/CN111949649A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217784A1 (en) * | 2009-02-26 | 2010-08-26 | Raytheon Company | Information Viewing System |
CN105930092A (zh) * | 2015-02-27 | 2016-09-07 | Yec株式会社 | 多跟踪系统 |
CN107343049A (zh) * | 2017-07-06 | 2017-11-10 | 上海观谷科技有限公司 | 数据同步方法及装置 |
CN109446255A (zh) * | 2018-09-30 | 2019-03-08 | 珠海沙盒网络科技有限公司 | 一种可自适应的存储方法及系统 |
CN109710618A (zh) * | 2018-12-29 | 2019-05-03 | 北京航天云路有限公司 | 知识图谱数据关系分离的混合存储方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220335086A1 (en) * | 2021-04-15 | 2022-10-20 | Vesoft Inc. | Full-text indexing method and system based on graph database |
CN114238268A (zh) * | 2021-11-29 | 2022-03-25 | 武汉达梦数据技术有限公司 | 一种数据存储方法和装置 |
CN114238268B (zh) * | 2021-11-29 | 2022-09-30 | 武汉达梦数据技术有限公司 | 一种数据存储方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107038207A (zh) | 一种数据查询方法、数据处理方法及装置 | |
US7469257B2 (en) | Generating and monitoring a multimedia database | |
US8452773B1 (en) | Mapping terms between multiple taxonomies | |
US9785725B2 (en) | Method and system for visualizing relational data as RDF graphs with interactive response time | |
US9753960B1 (en) | System, method, and computer program for dynamically generating a visual representation of a subset of a graph for display, based on search criteria | |
US11216516B2 (en) | Method and system for scalable search using microservice and cloud based search with records indexes | |
CN109783484A (zh) | 基于知识图谱的数据服务平台的构建方法及系统 | |
CN112182045B (zh) | 元数据管理方法、装置、计算机设备及存储介质 | |
CN103455335A (zh) | 一种多级分类的Web实现方法 | |
CN114385620A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN110929134A (zh) | 投融资数据管理方法、装置、计算机设备及存储介质 | |
CN111475653B (zh) | 油气勘探开发领域的知识图谱的构建方法及装置 | |
CN109101512B (zh) | 法律数据库的构建方法、法律数据查询方法及装置 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN111949649A (zh) | 一种动态本体存储系统、存储方法、数据查询方法 | |
Paul et al. | A Review on Graph Database and its representation | |
CN111431962B (zh) | 基于情景感知计算的跨域资源接入物联网服务发现方法 | |
US20210081436A1 (en) | Classifying different query types | |
CN117216109A (zh) | 一种多类型混合数据的数据查询方法、装置及存储介质 | |
US20130159293A1 (en) | Generating a supplemental description of an entity | |
CN114896461A (zh) | 信息资源管理方法、装置、电子设备及可读存储介质 | |
US20200226160A1 (en) | Database for unstructured data | |
Gašpar et al. | Integrating Two Worlds: Relational and NoSQL | |
Gavankar et al. | Enriching an academic knowledge base using linked open data | |
Zhang et al. | Semantic web and geospatial unique features based geospatial data integration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |