CN102270232B

CN102270232B - 一种存储优化的语义数据查询系统

Info

Publication number: CN102270232B
Application number: CN201110205140A
Authority: CN
Inventors: 金海�; 吴德龙; 赵峰; 刘谱
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2011-07-21
Filing date: 2011-07-21
Publication date: 2012-09-26
Anticipated expiration: 2031-07-21
Also published as: CN102270232A

Abstract

本发明公开了一种存储优化的语义数据查询系统，包括语义数据导入模块、语义数据存储管理模块、存储数据持久化模块和语义数据查询模块。本系统支持了多种规范描述的资源描述框架数据的导入，并可以将存储模型映射到磁盘中，可以实现内存存储模型的快速重现。系统通过对语义数据查询进行转换和处理，形成底层存储模型可操作的查询图模型；通过对底层存储数据进行统计，建立了查询连接操作的代价模型，并使用贪婪算法实现了语义数据查询的优化模块，对查询的先后顺序进行了调整，提高了查询的性能。

Description

一种存储优化的语义数据查询系统

技术领域

本发明属于语义网的资源描述框架数据存储及其查询领域，具体涉及一种包含优化的存储模型和基于该优化模型基础上的语义数据查询系统。

背景技术

语义网是由万维网的创始人Tim Berners-Lee提出的关于下一代互联网的设想。它通过定义相应的描述标准使得数据更加结构化，通过向数据添加规则和语义，使得这些数据能够被机器处理。在七层语义网架构中，可扩展标识语言(Extensible Markup Language，XML)作为基本的语法层，而资源描述框架(Resource Description Framework，RDF)作为描述语义网数据的通用语言，是语义网描述数据的基础，资源描述框架的层次架构之上可以使用资源描述框架模式(Resource Description Framework Schema，RDFS)和网络本体语言(Web Ontology Language，OWL)，通过一些内建的推理规则，能够对资源描述框架数据进行逻辑推理操作。语义数据查询语言(Simple Protocol and Query Language，SPARQL)已经成为查询资源描述框架数据的推荐标准，语法和结构化查询语言(Structured QueryLanguage，SQL)相似，但又有不同的特点。因此，如何在特定的存储模型上实现语义数据查询并对其进行查询的优化成为研究的热点。

传统的存储资源描述框架数据的方式为三元组表，这些方式主要有基于关系数据库的存储方式和基于磁盘的本地文件存储方式。测试表明，三元组表或相似的方式存储空间利用率和查询效率都不是很高。垂直分割方式为了优化三元组的方式提出了按照属性进行分割，每个属性对应一个表，使得存储空间可以大大的较少，在查询单值属性可以快速的得到特定属性的所有结果。同时注意到资源描述框架数据一般拥有相关的模式信息，可以使用模式信息对分割方式进行进一步的优化。而随着硬件技术的不断发展，内存容量也越来越大，构建大规模的基于内存的资源描述框架数据存储系统成为可能。首先内存能够提供相当快的访问速度，可以对数据进行实时的操作，节省磁盘的开销，如果在内存中设计一个存储结构良好的资源描述框架存储系统，可以进一步的提高查询和分析的效率。基于内存的资源描述框架存储结构仍然处于不断的研究和完善阶段，构建一个基于内存的优化的存储模型和查询系统还是相当具有研究意义。

研究表明，查询语句的执行顺序对查询的性能影响较大。而语义数据查询中基本图模式(Basic Graph Pattern，BGP)是语义数据查询语言非常重要的组成部分，因此优化的主要工作是对基本图模式的优化。传统的使用关系数据库作为后端的资源描述框架数据存储系统，由于直接将语义数据查询语言转化为结构化查询语言，因此一般不需要直接对语义数据查询语言进行优化，直接使用关系数据库的结构化查询语言优化引擎来实现。在优化的过程中，一般使用选择性评估来估计查询的代价大小。基于不同的存储模型有不同的选择性评估方法。

一般的资源描述框架数据都有相应的模式信息，模式信息定义了实例空间数据使用的词汇。可以使用模式空间的词汇对实例空间的存储结构进行优化。本发明提出的基于内存的存储系统利用模式信息对存储结构进行存储优化的方法可以达到提高存储空间利用率，并且达到提高查询的性能。同时通过支持语义数据查询语言，并对查询的过程使用选择性评估和贪婪算法生成优化的查询计划，可以大大提高查询的速度。

实验表明，使用模式信息对实例空间的数据进行组织存储在保证存储空间利用率的前提下，可以提高查询的效率。而在特定的优化存储模型上进行语义数据查询的优化可以进一步提高系统的查询效率。

发明内容

本发明的目的在于提供一种存储优化的语义数据查询系统，该系统可以使得资源描述框架数据能够高效地存储并被快速地查询。

本发明提供的一种存储优化的语义数据查询系统，其特征在于，该系统包括语义数据导入模块、语义数据存储管理模块、存储数据持久化模块和语义数据查询模块；

语义数据导入模块用于将各种格式的数据转换成合适的格式，并和数据存储管理模块进行交互完成数据的导入工作；

语义数据存储管理模块负责整个系统的资源描述框架数据的存储和管理；它接受来自于语义数据导入模块做产生的格式化数据，将数据存入语义数据存储管理模块当中；它与语义数据查询模块进行交互，接受来自语义数据查询模块的数据查询请求，并将符合条件的结果记录返回给语义数据查询模块；它与存储数据持久化模块进行交互，在整个系统退出前，将要序列化的数据传输给存储数据持久化模块，并在整个系统初始化的过程中，将序列化的数据直接映像到内存中；

存储数据持久化模块用于与语义数据存储管理模块进行交互，在系统退出时，将内存数据存储到文件系统中，以保证数据的持久性；在系统初始化时，将文件数据传递给模块；

语义查询优化模块用于将用户的查询语句转换成系统能执行的特定格式，并将数据请求发送给语义数据存储管理模块，得到符合条件的记录，并将结果返回给用户。

本发明将资源描述框架数据存储优化模型和语义数据查询优化相结合，提出了一种高效的数据查询系统。该系统具有以下特点和优势：(1)基于主存的方法，将三元组转化为标识符(整型ID)进行存储，采用基于属性的垂直分割方法并利用模式数据的信息来组织存储结构，极大的提高了存储空间的利用率，同时方便查询的操作；(2)将语义数据查询语句进行查询图的转换，并对底层数据进行统计，利用贪婪算法实现了优化的查询计划，提高了语义数据查询的性能。

附图说明

图1为语义数据查询系统的总体结构示意图；

图2为语义数据导入模块示意图；

图3为语义数据存储模型管理模块示意图；

图4为字符串与标识符映射模块数据结构示意图；

图5为资源描述框架数据存储优化模型示意图；

图6为实例空间中谓词为特定类型(rdf:type)的三元组的划分方式；

图7为数据查询模块示意图；

图8为语义数据查询语句的连接操作转换示意图；

具体实施方式

下面结合附图对本发明作进一步详细的说明。

如图1所示，本发明主要包括四个模块：语义数据导入模块1、语义数据存储管理模块2、存储数据持久化模块3和语义数据查询模块4。

语义数据存储管理模块2主要负责整个系统的资源描述框架数据的存储和管理。它接受来自于语义数据导入模块1做产生的格式化数据，将数据存入语义数据存储管理模块2当中；它与语义数据查询模块4进行交互，接受来自语义数据查询模块4的数据查询请求，并将符合条件的结果记录返回给语义数据查询模块4；它与存储数据持久化模块3进行交互，在整个系统退出前，将要序列化的数据传输给存储数据持久化模块3，并在整个系统初始化的过程中，将序列化的数据直接映像到内存中。

数据导入模块1主要将各种格式的数据转换成统一的格式，并和数据存储管理模块2进行交互完成数据的导入工作。

存储数据持久化模块3的主要作用是与语义数据存储管理模块2进行交互，在系统退出时，将内存数据存储到文件系统中，以保证数据的持久性；在系统初始化时，将文件数据传递给模块2。

查询优化模块4将用户的查询语句转换成系统能执行的特定格式，并将数据请求发送给数据存储管理模块2，得到符合条件的记录，并将结果返回给用户。

下面分别举例说明上述各个部件的具体构成。

如图2所示，语义数据导入模块1包括语义数据解析模块1.1、数据分类模块1.2和数据格式化模块1.3。

由于语义数据的格式各种各样，语义数据解析模块1.1的作用是将各种格式的实例数据解析成系统可接受的形如<主体，谓词，客体>这样的三元组格式，并将该格式的数据和模式数据传递给数据分类模块1.2。

数据分类模块1.2将模块1.1传来的三元组格式数据根据模式数据划分成不同的类别的数据，并将分类之后的数据传递给数据格式化模块1.3。

数据格式化模块1.3的主要作用是将接收的数据格式化成可以存储的数据格式。

如图3所示，语义数据存储管理模块包括数据存储器2.1，数据查询器2.2，字符串管理器2.3，索引管理器2.4，统计信息管理器2.5，实例数据管理器2.6，以及存储空间管理器2.7。

数据存储管理模块2是整个系统的核心模块，主要的所用是从格式化的数据建立起优化的存储模型，并提供数据检索的功能。

数据存储器2.1在接收语义数据导入模块1所产生的格式化数据之后，首先将三元组的各个分量传递给字符串管理器2.3，再将该三元组按照模式数据分别传递给索引管理器2.4、统计信息管理器2.5和实例数据管理器2.6。

统计信息管理器2.5统计各个三元组的各个分量的出现情况，并存储统计信息；

索引管理器2.4主要的作用是建立实例数据的索引，以便加快数据的查询。

在字符串管理器2.3中，主要建立的是字符串与其标识符之间的映射：从字符串到标识符，从标识符到字符串都需要能够快速地进行转换。图5展示了字符串管理器2.3所采用的数据结构。

字符串/标识符映射表采用基于内存的存储长度可变记录的数据结构来实现。表头的元数据存储部分(Metadata)记录该结构的使用情况的信息。变长表可以通过偏移值(offset)逐条访问记录。其中每条记录包含了该记录的长度(length)，该字符串映射的标识符(ID)，该记录的字符串值(string)。

标识符/偏移映射表采用基于内存的存储长度固定记录的数据结构来实现。表头的元数据存储部分(Metadata)记录该结构的使用情况的信息。由于表格中每条记录都是固定长度的，因此每条记录不需要单独存储该记录的长度，记录的长度由表格的元数据统一存储。表格中的每条记录包含了标识符(ID)和该标识符在字符串与标识符映射表中的起始偏移值(offset)。因此可以通过标识符/偏移映射表可以快速通过标识符得到字符串。

字符串哈希映射表采用内存缓冲区来实现，一般将装填因子设计低于0.5就可以构建冲突率较小的哈希表。表中存储的哈希到对应位置的字符串在字符串/标识符映射表中的偏移值(offset)。通过计算一个字符串的哈希值(hash(string))，便可得到哈希表的偏移值，进而得到该字符串在字符串/标识符映射表中的偏移值(offset)，就可以得到该字符串的标识符。

插入字符串时，其中各个表的工作流程为：(1)当要向字符串表中添加一条新的记录时，首先在字符串与标识符映射表中找到下一个偏移位置，然后在标识符/偏移映射表中分配一个新的标识符值，将该标识符值和字符串的长度以及字符串，并将它们组成一条记录，插入到字符串/标识符映射表中；(2)将得到的标识符值和记录在字符串/标识符映射表中的偏移值形成新的记录，插入到标识符/偏移映射表中；(3)对字符串进行哈希得到一个哈希值，根据该哈希值可以得到字符串哈希映射表的一个存储位置，将(1)中在字符串/标识符表得到的偏移值存储于该位置上。

查询字符串的标识符时，各个表格的工作流程为：(1)通过线性哈希函数对字符串进行哈希作为字符串哈希映射表的偏移值；(2)从字符串哈希映射表中得到存储该字符串在字符串/标识符表格中的偏移值；(3)从字符串/标识符表格中得到字符串的标识符。从标识符到字符串的转换，可以直接从标识符/偏移映射表中得到字符串在字符串/标识符表中的偏移，其过程不再赘述。

实例数据管理器2.6的主要作用是将得到的实例数据进按照从模式数据提取出来的元数据行优化存储，建立一个数据存储优化模型。

数据存储优化模型如图5所示，建立数据存储优化模型步骤为：

①将实例数据按照谓词进行分组，将谓词相同的实例数据存储在一起，按照谓词的不同分别执行②③④。

②对于谓词为类型(rdf:type)的实例数据按照客体的不同进一步划分。过程如图6所示，将客体相同的实例数据存储在一起，并将省略客体的存储；

③对于谓词为客体属性类型(Object Property)的实例数据，按照传统的垂直分割的方式进行存储，即：以按照谓词、主体、客体的方式进行存储。由于这类谓词描述的实例数据一般具有多个客体，因此可以同时建立<谓词，客体，主体>和<谓词，主体，客体>类型的表格，以便能够同时快速的支持由谓词和客体查找主体或者由谓词和主体查找客体这两种查询。

④对于属于数据类型属性(Datatype Property)的谓词所描述的实例数据，只做匹配和信息检索操作。因此如果不需要进行精确匹配操作，可以只存储<谓词，主体，客体>类型的表格，可以进一步的减少存储的空间。

数据查询器2.2的主要作用是：(1)响应语义数据查询模块4的字符串-标识符查询的请求，将字符串转换成标识符或者将标识符转换成字符串返回给模块4；(2)响应语义数据查询模块4的统计信息查询的请求，与统计信息管理器2.5交互，将所要求查询的统计信息返回给模块4；(3)将符合语义数据查询模块4传递来的模式返回给模块4。字符串-标识符映射的查询前面已经描述，这里不再赘述。这里主要描述模式查询的流程：①根据谓词定位到相应的存储块，若主体和客体都未知则返回该存储块的所有数据，否则执行步骤②；②若主体已知，执行步骤③，否则执行步骤④；③查询<谓词，主体，客体>表，进行二分查找定位到第一个主体，将后续主体等于已知标识符的记录返回；④查询<谓词，客体，主体>表，进行二分查找定位到第一个客体，将后续客体等于已知标识符的记录返回。统计信息的查询与根据模式查询的流程相似，不再赘述。

存储空间管理器2.7的主要功能是负责整个系统的内存空间的分配，管理整个系统的存储空间，并与数据存储持久化模块3进行交互。

如图7所示语义数据查询模块4的主要由查询语言解析器4.1，查询语言转换器4.2，查询计划生成器4.3，以及查询计划执行器4.4组成。

查询语言解析器4.1主要作用是：首先，将用户输入的查询语句转化为分词(Token)的格式；然后从这些分词中获取查询关键词，识别查询语句中所有变量，识别投影变量及查询条件等。

查询语言转换器4.2目的是为了能够方便对底层存储结构的操作，根据查询语句进行查询，从而形成存储和查询的交互接口。查询转换主要功能包括：结果变量的收集和转换；查询语句中基本查询图模式(Basic GraphPattern，BGP)的转换；查询连接操作的表示。

(1)变量的收集。首先，将所有的变量进行标识符编码，存储变量与标识符之间的映射关系；然后，解析选择(SELECT)语句之后的投影变量，从前面得到的变量标识符之间的映射关系找到相应的标识符。

(2)基本查询图模式的转换。对查询语句中的三元组结点(Triple Node)进行转换的主要目的是使查询的基本图模式和底层的存储模型联系起来，实现查询和底层存储结构的相互操作。将查询语句中每一个三元组结点使用一个数据结构进行表示，主要的作用是标识该节点中的主体、谓词、客体以及主体、谓词、客体是否为变量并用一个标识符标识该三元组节点。使用这些信息，就可可以确定单个三元组节点(模式)查询的类型。

(3)查询连接操作的表示。根据三元组结点的标识符和变量关系，可分析查询语句中三元组结点之间的连接操作。如果三元组结点之间存在相同的变量，那么两个三元组之间就需要进行连接操作。将其中的任意一个三元组节点标为起始三元组节点，另一个为终止三元组节点。则该连接操作可以用包含起始三元组节点，终止三元组节点和两节点共同变量标识符来的结构体来表示。查询系统通过使用该结构(连接操作边)表示三元组结点之间的连接操作。通过遍历所有的结点，建立相应结点之间的连接操作关系。如图8(1)中的查询语句，可以形成图8(2)的查询连接操作。

查询计划生成器4.3的主要作用是生成查询计划，并存储在查询计划信息结构中，并对该查询计划进行优化，使得查询能够正确高效地执行。查询计划信息结构主要包括三元组节点先后执行的顺序、投影变量和维度(投影变量在结果集中的位置)之间的关系和三元组节点的连接信息。

三元组结点的执行顺序的生成，主要是保存三元组结点的执行顺序，以便查询能够顺序的执行。

投影变量和维度之间的关系，主要是保存查询连接操作之后结果集和投影变量之间的关系，以便进行下一步的操作。

三元组节点的连接操作信息，主要保存和中间结果进行连接操作的三元组的信息，主要包含：变量的个数，执行连接操作的的类型和共同变量的标识符。

查询计划的形成的主要步骤是：首先，选取基本查询图模式中的第一个三元组结点，然后根据该三元组结点的标识符，查找和该三元组结点进行连接操作的相关的的结点，加入到查询计划的结点执行顺序表中；同时对查询连接操作后的变量进行收集，并且形成变量和结果集的对应关系。连接操作执行完后根据查询图给出的投影操作，进行投影变量的获取，最后形成查询计划的工作流。

语义数据查询优化主要是利用统计信息来建立代价模型，利用该模型调整模式查询和连接的执行顺序。代价模型主要包含两方面：三元组节点(模式)的选择性(selectivity)的计算；查询连接操作选择性的计算。下面分别介绍其流程。

1)三元组结点的选择性计算。①判断三元组节点中变量的个数，如果为1则执行②，否则执行③；②根据已知的两个常量对底层<谓词，客体，主体>表进行查询。由于<谓词，客体，主体>表已经排序，通过二分查找可以迅速的得到结果集的大小；③对于有两个变量的三元组结点，由于本系统已经对相应的结果集进行统计并存储，而存储的统计信息格式为<谓词标识符(pid)，数量(count)>，因此，可以在相应的统计信息表中得到相关的统计信息。这样就可以得出每个三元组节点的选择性：三元组节点的选择性为三元组节点的预估的结果集大小。

2)连接操作的选择性计算。连接操作选择性的估计主要是为了实现查询连接操作顺序的调整，以便提高查询的性能。因此需要计算查询图中各个连接操作边的选择性大小。计算方法如下：

连接操作边的选择性＝起始三元组结点的结果集大小×终止三元组结点的结果集大小。

下面使用贪婪算法形成优化的查询计划，步骤如下：

①如果查询基本图模式(Basic Graph Pattern)中三元组结点只有一个，那么直接将结点加入到查询计划信息结构中，并且建立变量之间的关系；查询计划生成完毕，直接返回。

②如果查询的基本图模式(Basic Graph Pattern)中三元组结点个数大于一个，按照上面介绍的计算三元组结点和连接操作边选择性方法计算三元组结点的选择性和连接操作的选择性。

③从连接操作中根据选择性选取代价最少的连接，获取连接操作包含的两个三元组结点，并按照三元组结点的选择性进行排序，按三元组结点的选择性从小到大的顺序将结点插入到查询计划信息结构中；如果三元组结点的个数为两个，查询计划生成完毕，直接返回；否则，转步骤④。

④从已经加入查询计划的三元组结点与未加入查询计划的三元组结点的连接操作中选取选择性最小的操作，并将该连接操作中未加入查询计划的三元组结点加入到查询计划中。

⑤循环执行步骤④，当所有的三元组结点都加入到查询计划中，查询计划生成完毕，返回。

查询执行器4.4的主要作用是根据生成的查询计划图，执行相关的查询操作。由于查询计划是个一颗树，所以可以从树的根节点开始遍历树的所有节点完成查询。具体的流程为：①如果当前节点的左儿子和右儿子都不为空，并且当前为根节点执行步骤②，若不为根节点执行步骤③，若当前节点为叶子节点，执行步骤④；②分别对左儿子和右儿子分别执行步骤①，再执行投影操作操作(得出最后的结果)并退出；③分别对左儿子和右儿子执行步骤①，再执行连接操作；④将三元组节点传递给数据存储管理模块2，进行模式查询。经过这几个步骤，就可以得出最后的结果。

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据本发明公开的内容，可以采用其它多种具体实施方式实施本发明，因此，凡是采用本发明的设计结构和思路，做一些简单的变化或更改的设计，都落入本发明保护的范围。

Claims

1.一种存储优化的语义数据查询系统，其特征在于，该系统包括语义数据导入模块（1）、语义数据存储管理模块（2）、存储数据持久化模块（3）和语义数据查询模块（4）；

语义数据导入模块（1）用于将各种格式的数据转换成统一的格式，并和语义数据存储管理模块（2）进行交互完成数据的导入工作；

语义数据存储管理模块（2）负责整个系统的资源描述框架数据的存储和管理；它接受来自于语义数据导入模块（1）做产生的格式化数据，将数据存入语义数据存储管理模块（2）当中；它与语义数据查询模块（4）进行交互，接受来自语义数据查询模块（4）的数据查询请求，并将符合条件的结果记录返回给语义数据查询模块（4）；它与存储数据持久化模块（3）进行交互，在整个系统退出前，将要序列化的数据传输给存储数据持久化模块（3），并在整个系统初始化的过程中，将序列化的数据直接映像到内存中；

存储数据持久化模块（3）用于与语义数据存储管理模块（2）进行交互，在系统退出时，将内存数据存储到文件系统中，以保证数据的持久性；在系统初始化时，将文件数据传递给语义数据存储管理模块（2）；

语义查询优化模块（4）用于将用户的查询语句转换成系统能执行的格式，并将数据请求发送给语义数据存储管理模块（2），得到符合条件的记录，并将结果返回给用户。

2.根据权利要求1所述的存储优化的语义数据查询系统，其特征在于，语义数据导入模块（1）包括语义数据解析模块（1.1）、数据分类模块（1.2）和数据格式化模块（1.3）；

语义数据解析模块（1.1）用于将各种格式的实例数据解析成系统可接受的三元组格式，并将该格式的数据和模式数据传递给数据分类模块（1.2）；

数据分类模块（1.2）将语义数据解析模块（1.1）传来的三元组格式数据根据模式数据划分成不同的类别的数据，并将分类之后的数据传递给数据格式化模块（1.3）；

数据格式化模块（1.3）用于将接收的数据格式化成能够存储的数据格式。

3.根据权利要求1或2所述的存储优化的语义数据查询系统，其特征在于，语义数据查询模块（4）包括查询语言解析器（4.1）、查询语言转换器（4.2）、查询计划生成器（4.3）和查询计划执行器（4.4）；

查询语言解析器（4.1）用于将用户输入的查询语句转化为分词的格式；然后从这些分词中获取查询关键词，识别查询语句中所有变量，识别投影变量及查询条件；

查询语言转换器（4.2）根据查询语句进行查询，形成存储和查询的交互接口；

查询计划生成器（4.3）的主要作用是生成查询计划，并存储在查询计划信息结构中，并对该查询计划进行优化，使得查询能够正确高效地执行。

4.根据权利要求1或2所述的存储优化的语义数据查询系统，其特征在于，语义数据存储管理模块（2）包括数据存储器（2.1），数据查询器（2.2），字符串管理器（2.3），索引管理器（2.4），统计信息管理器（2.5），实例数据管理器（2.6），以及存储空间管理器（2.7）；

数据存储器（2.1）用于在接收语义数据导入模块（1）所产生的格式化数据之后，首先将三元组的各个分量传递给字符串管理器（2.3），再将该三元组按照模式数据分别传递给索引管理器（2.4）、统计信息管理器（2.5）和实例数据管理器（2.6）；

统计信息管理器（2.5）用于统计各个三元组的各个分量的出现情况，并存储统计信息；

索引管理器（2.4）用于建立实例数据的索引，以便加快数据的查询；

字符串管理器（2.3）用于建立的是字符串与其标识符之间的映射；

实例数据管理器（2.6）用于将得到的实例数据按照从模式数据提取出来的元数据行优化存储，建立一个数据存储优化模型；

数据查询器（2.2）用于响应语义数据查询模块（4）的字符串-标识符查询的请求，将字符串转换成标识符或者将标识符转换成字符串返回给语义数据查询模块（4）；还用于响应语义数据查询模块（4）的统计信息查询的请求，与统计信息管理器（2.5）交互，将统计信息返回给语义数据查询模块（4）；并将符合语义数据查询模块（4）传递来的模式返回给语义数据查询模块（4）；

存储空间管理器（2.7）负责整个系统的内存空间的分配，管理整个系统的存储空间，并与数据存储持久化模块（3）进行交互。

5.根据权利要求4所述的存储优化的语义数据查询系统，其特征在于，实例数据管理器（2.6）建立一个数据存储优化模型的过程为：

将实例数据按照谓词进行分组，将谓词相同的实例数据存储在一起，按照谓词的不同分别执行下述过程A、B或C：

A对于谓词为类型的实例数据按照客体的不同进一步划分；

B对于谓词为客体属性类型的实例数据，按照传统的垂直分割的方式进行存储；

C对于属于数据类型属性的谓词所描述的实例数据，只做匹配和信息检索操作。