CN112000666B

CN112000666B - 一种面向列的数据库管理系统

Info

Publication number: CN112000666B
Application number: CN202010775267.3A
Authority: CN
Inventors: 罗晶; 罗佳
Original assignee: Guangzhou Weiming Zhongzhi Education Technology Co ltd
Current assignee: Guangzhou Weiming Zhongzhi Education Technology Co ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2024-02-20
Anticipated expiration: 2040-08-04
Also published as: CN112000666A

Abstract

本发明实施例公开一种面向列的数据库管理系统，包括：用户界面模块，应用程序接口模块、核心服务模块和数据处理模块；所述核心服务模块包括内存池和工作线程，所述内存池包括M个内存块；其中，M大于等于2；所述数据处理模块用于将数据以列为单位进行组织聚合以及存储，并用于采用全索引的方式进行数据查询；其中，所述数据处理模块采用的数据结构为单列表数据结构。本发明实施例能够使使用者无须编写复杂的查询语句，并支持非结构数据和结构化数据的存储，关系和非关系数据的存储，任意条件组合查询。

Description

一种面向列的数据库管理系统

技术领域

本发明涉及数据库技术领域，尤其涉及一种面向列的数据库管理系统。

背景技术

目前大数据系统的数据存储管理解决方案包括传统关系数据库RDBMS和非关系数据库NoSQL两类。由于网络的海量数据没有固定的结构，并且相互间存在复杂多样的关系，数据工程师往往需要同时使用多种关系数据库和NoSQL数据库来完成自己的数据处理需求。这种多类型混合使用方式，使得程序逻辑复杂，流程繁琐，执行缓慢，出错率高，扩展性弱，易用性差，移植困难，特别是给大数据统计分析和数据挖掘带来额外的不便。

传统关系数据库的瓶颈主要表现在：数据类型单一，高并发读写的性能低，支撑容量有限，数据库的可扩展性和可用性低，建设和运维成本高等等。

非关系数据库NoSQL极大地提高数据库的存取效率，但是却带来了更加严重的问题：数据库基本不具备通用性，移植能力差，数据迁移困难；弱化数据关系，导致数据统计挖掘分析困难；数据的格式需要用户自定义，把数据格式的管理交给上层应用负责，增加了开发软件的系统复杂性。

发明内容

为了解决现有技术的缺陷，本发明实施例提供一种面向列的数据管理系统，能够使用者无须编写复杂的查询语句，只需要给出查询条件字段和要查询的结果字段即可，并支持非结构数据和结构化数据的存储，关系和非关系数据的存储，任意条件组合查询。

本发明实施例提供一种面向列的数据库管理系统，其特征在于，包括：

用户界面模块，应用程序接口模块、核心服务模块和数据处理模块；

所述核心服务模块包括内存池和工作线程，所述内存池包括M个内存块；其中，M大于等于2；

所述数据处理模块用于将数据以列为单位进行组织聚合以及存储，并用于采用全索引的方式进行数据查询；其中，所述数据处理模块采用的数据结构为单列表数据结构。

进一步地，所述的面向列的数据库管理系统，还包括分布式模块，用于采用MapReduce进行分布式扩展，以适应大规模和超大规模数据集群的存储和运算需求。

进一步地，所述数据处理模块包括：列拆分单元、数据查询单元；所述列拆分单元用于以列为单位拆分接收到的数据表，并为拆分得到的每一单列表的每一行记录赋予一个全局ID；其中，属于所述数据表同一记录的，则赋予相同的全局ID；

所述数据查询单元，用于在接收到数据查询请求时，根据查找条件在与所述单列表一一对应的索引里查找符合所述查找条件的全局ID，并提取所述全局ID对应的数据。

进一步地，所述数据查询单元还用于，当所述查找条件为两个或两个以上时，对根据每一查找条件查找得到的全局ID求交集，获得符合所述查找条件的全局ID集合，并提取所述全局ID集合中每一个全局ID对应的数据。

进一步地，所述的数据库管理系统，还包括：

字段检测单元，用于当检测到单列表中的字段为空时，删除所述字段所在的记录。

进一步地，所述数据处理模块还包括：列集建立单元

所述列集建立单元，用于通过将数据表中每一行记录的所有字段分别作为列集中每一元组中的一组数值，并将赋予每一行所述记录的全局ID分别作为列集中的每一元组的键值构建列集。

进一步地，当导入NoSQL数据库的非结构化数据时，将Key-Value键值对中的Key作全局ID，Value作为数据构建一个单列表。

进一步地，所述列集数据的存储结构、所述索引数据的的存储结构、以及所述单列表数据的存储结构均为B+树的结构。

相比于现有技术，本发明实施例的有益效果在于，

本发明实施例提供一种面向列的数据库管理系统，包括：用户界面模块，应用程序接口模块、核心服务模块和数据处理模块；所述核心服务模块包括内存池和工作线程，所述内存池包括M个内存块；其中，M大于等于2；所述数据处理模块用于将数据以列为单位进行组织聚合以及存储，并用于采用全索引的方式进行数据查询；其中，所述数据处理模块采用的数据结构为单列表数据结构。本发明实施例能够使使用者无须编写复杂的查询语句，并支持非结构数据和结构化数据的存储，关系和非关系数据的存储，任意条件组合查询。

附图说明

图1为本发明实施例提供的面向列的数据库管理系统的结构图；

图2是核心服务模块的体系架构示意图；

图3是本发明其中一种实施例提供的面向列的数据库管理系统的结构图.

图4是本发明其中一种实施例的拆分后的单列表。

图5是本发明其中一种实施例的全索引。

图6是本发明其中一种实施例提的查询流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供一种面向列的数据库管理系统，包括：

用户界面模块1，应用程序接口模块2、核心服务模块3和数据处理模块4。

本发明实施例提供的核心服务模块3包括内存池和工作线程，所述内存池包括M个内存块；其中，M大于等于2。

在本发明实施例中，核心服务(Kernal Service)是本发明实施例提供的面向列的数据库管理系统整个体系架构的心脏部分，其用于完成数据操作的关键演算并统和其他功能模块，相当于关系数据库中的存储引擎，也可将核心服务视为存储引擎，本发明实施例的核心服务(存储引擎)主要参考了MySQL和HBase等现有数据库的架构的优秀特性，例如即时插入、两次写(double write)、自适应哈希索引(adaptive hash index)，这些特性为本发明实施例提供的面向列的数据库管理系统带来了更好的性能和更高的可靠性。

图2简单显示了本发明面向列的数据库管理系统的核心服务的体系架构。在核心服务中，由至少包括两个内存块，这些内存块组成一个大的内存池(Memory Pool)，负责所有进程/线程需要访问的内部数据结构，同时缓存磁盘上的数据，方便快速地读取，并且在对磁盘文件的数据进行修改之前在这里缓存。Worker Thread是一些后台的工作线程，主要作用是负责刷新内存池中的数据，缓冲池中的内存缓存是最近的数据。此外，WorkerThread还用于将已修改的数据文件刷新到磁盘文件，同时保证在数据库发生异常情况下本发明实施例提供的面向列的数据管理系统能恢复到正常运行状态。

本发明实施例提供的数据处理模块4用于将数据以列为单位进行组织聚合以及存储，并用于采用全索引的方式进行数据查询。

本发明实施例提供的数据处理模块也可称为数据处理系统(Data LibrarySystem)是本发明实施例提供的面向列的数据库管理系统的精髓和灵魂。数据处理系统主要核技术心包括，单列表数据结构、全索引查询技术和列集三个部分。

为了实现提升数据查询效率，本发明实施例数据处理系统采用的数据结构为单列表数据结构，即数据库中的数据均是以列为单位进行组织聚合以及存储。

相比于现有数据库，单列表数据结构使得不需要建表，只需要建属性字段，并且根据需要实时创建即可。单列表数据结构对于属性字段的增删十分方便，例如欲在网站用户信息记录中添加住址信息，在SQLFree数据库里，只需创建一个新的单列表，命名为“住址”，然后将用户相关的住址信息直接写入“住址”单列表即可，不需要对原有的数据记录作任何操作，即没有多余的读写操作。删除属性字段的情况也是一样，仅执行对应单列表的删除工作即可完成。本发明实施例提供的面向列的数据库管理系统是无模式的，而无模式概念正是来源于此。在实际的数据库应用中，用户完全可以根据需求实时地添加和删除属性字段，这和“将对象的实例化推迟到第一次使用之前”这一编程思想不谋而合，大大降低了数据库的设计和修改难度。

请参阅图3，在其中一种优选的实施例中，所述面向列的数据库管理系还包括分布式模块5，用于采用MapReduce进行分布式扩展，以适应大规模和超大规模数据集群的存储和运算需求。

在其中一种优选的实施例中，所述数据处理模块4包括：列拆分单元41、数据查询单元42；所述列拆分单元41用于以列为单位拆分接收到的数据表，并为拆分得到的每一单列表的每一行记录赋予一个全局ID；其中，属于所述数据表同一记录的，则赋予相同的全局ID；

所述数据查询单元42，用于在接收到数据查询请求时，根据查找条件在与所述单列表一一对应的索引里查找符合所述查找条件的全局ID，并提取所述全局ID对应的数据。

以表1的网站用户信息表为例，当计算机接收到表1中的数据时，将表1拆分为单独的六个列，即得到六个单列表，接着数据处理系统会自动为每个单列表的每一行记录赋予一个全局ID，若不同的单列表中的记录属于所述数据表中同一记录的，则赋予相同的全局ID。图4中以K1、K2、K3、……来表示，全局ID(GID)采用自增的方式排序。

表1网站用户信息表

由于本发明采用的是单列表的数据结构，因此，数据记录中的NULL字段，在本发明实施例的单列表中并不占用存储空间，如“体重”一栏里，张颖和李芳两位女士没有填写，故“体重”单列表中没有K1、K3的键值对出现。因此，在计算机运行时，当检测到单列表中的字段为空时，删除所述字段所在的记录。

在本发明实施例中，在获得单列表后，采用聚集索引的方式，将单列表的数据直接存储在B+树的叶子节点。

由上可见，NoSQL数据库的非结构化数据的导入则十分简单，直接将Key-Value键值对中的Key作为GID，Value作为数据构建一个单列表即可。因此，本发明实施例不仅能够兼容结构化数据，还能够兼容非结构化数据。

为了提升查询效率，同时为了应对数据挖掘的需求，本发明实施例的数据处理模块还包括数据查询单元，用于在接收到数据查询请求时，根据查找条件在与所述单列表一一对应的索引里查找符合所述查找条件的全局ID，并提取所述全局ID对应的数据。

在本发明实施例中，单列表和索引一一对应，形成一种自洽的双映射结构(DoublyLinked Mapping)，索引里的键值和单列表的键值正好相反，如图5所示。

这种结构能够十分便捷地实现复杂的查询语义。本发明实施例的索引也是采用B+树结构，类似于MySQL InnoDB的辅助索引(Secondary Index)。

当数据表经过列拆分、全局ID赋值，列存储后，当接收到数据查询请求时，根据查找条件在与所述单列表一一对应的索引里查找符合所述查找条件的全局ID，并提取所述全局ID对应的数据。

在其中一种优选的实施例中，当所述查找条件为两个或两个以上时，对根据每一查找条件查找得到的全局ID求交集，获得符合所述查找条件的全局ID集合，并提取所述全局ID集合中每一个全局ID对应的数据。

在本发明实施例中，同样以表1的网站用户信息表为例，当该网站信息经过列拆分、全局ID赋值，列存储后，查询流程如图6所示，查找的内容是女工程师的姓名和电话。SQLFree通过三个步骤完成查询任务：

(1)从“工作”索引里找到所有工程师的GID(K3)，从“性别”索引里找到所有女性的GID(K1，K3)；

(2)将结果求交，(K3)∩(K1，K3)—>(K3)，得到满足条件的GID集合；

(3)使用得到的GID，从“姓名”和“电话”单列表里取出对应的数据。

相比于关系数据库，本发明实施例的全索引查询具有以下优势：

(1)全索引的使用，大大提高了查询效率；

(2)由于仅对目标列进行查询，查询过程中不会像传统数据库那样读取多余的表数据；

(3)查询通过全局ID自动联结完成，查询时直接给出查询条件即可.

关系数据库执行查询操作时，需要一次读取整行的数据，I/O操作中有大量的数据冗余。而本发明实施例提供的面向列的数据库管理系统只读取查询目标列的数据，这是面向列的数据库管理系统面向列的特性带来的一大优势。对于属性字段较多，数据长度较大，查询目标较少的情况，查询效率的提升十分明显。

然而在一般的OLTP数据库应用中，一次性读取整行所有字段的情况比较常见，这时列数据库需要读取多个单列表文件，磁盘的寻道时间大大增加，优势变成了劣势。因此，在其中一种优选的实施例中，通过建立列集(Projection)来解决这个问题。

因此，在其中一种优选的实施例中，所述数据处理模块还包括：列集建立单元

本发明的列集(Projection)采用的是NoSQL项目里常用的KEY-VALUE键值对列表的形式，如表4所示，将网站用户信息表的所有字段建立成一个Projection。Projection的单位数据格式，像(KEY：K1|V1：张颖，V2：25，V4：女，V5:13566666666)这样的形式，我们称之为元组。一个元组包含了一个键KEY和一组值V1、V2、…、Vn，值的数目不是固定的，值的长度也可以根据需要变化，NULL字段不占用存储空间。Projection以KEY作为排序关键字，按照B+树的结构存放在磁盘文件里。创建这个列集(Projection)之后，就可以一次性读取用户的所有信息，不必再分成n次读取单列表文件。在实际应用中，到底是采用单列表形式查询还是Projection形式查询，通过查询优化器来完成。

在其中一种优选的实施例中，所述列集数据的存储结构、所述索引数据的的存储结构、以及所述单列表数据的存储结构均为B+树的结构。

本发明实施例的用户界面模块提供用户界面，用户界面主要包括：外连数据库区域(Database Connection)、查询结果显示区域、Data Libraries视图、数据库操作和信息显示区域。该用户界面采用微软MFC的文档视图模式开发，并启用Visual Studio风格的样式。界面的所用窗口都是基于可停靠面板(Dockable Panel)设计扩展的，这种面板的优点是可以在客户界面内随意拖动和放置，具有极大的灵活性。用户可以根据自己的喜好调整界面的布局。另外，在视图菜单里，还提供了多种界面主题风格供用户选择，包括Window2000，Windows XP，Office XP，Office 2003，Office 2007，Visual Studio.NET 2005等。

综上，相比于现有技术，本发明实施例具有如下有益效果：

(1)数据库取消表的概念，只保留属性。开发人员不需要预先按照第三范式要求设计表，关键字和索引等，属性也可以实时增加，这样就节省了数据库的设计时间，简化了查询操作。

(2)存储的数据是松散的。用户可以存储任意数量和格式的属性数据。有多少存多少，以达到有效存储，减少数据冗余。

(3)属性之间建立有效关系。整个数据库建立一个属性关联网，用户可以通过任意属性组合查询另外的属性组合，不需要复杂的跨表查询语句，查询更加方便和快速。

(4)基于列的存储方式。数据不再按照行进行存储，而是同一列的数据按照B+树的方式进行存储，因此每一列就是一个索，同一列的数据类型相同便于压缩，用户可以自定义列集以便于快速查询。

(5)分布式架构。由于没有表的概念，数据库可以进行水平分割，不同的列集存储在不同的服务器上实现并行计算，查询效率和可扩展性更高。

所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种面向列的数据库管理系统，其特征在于，包括：

所述数据处理模块用于将数据以列为单位进行组织聚合以及存储，并用于采用全索引的方式进行数据查询；其中，所述数据处理模块采用的数据结构为单列表数据结构；

所述数据处理模块包括：列拆分单元、数据查询单元；所述列拆分单元用于以列为单位拆分接收到的数据表，并为拆分得到的每一单列表的每一行记录赋予一个全局ID；其中，属于所述数据表同一记录的，则赋予相同的全局ID；所述数据查询单元，用于在接收到数据查询请求时，根据查找条件在与所述单列表一一对应的索引里查找符合所述查找条件的全局ID，并提取所述全局ID对应的数据。

2.根据权利要求1所述的面向列的数据库管理系统，其特征在于，还包括分布式模块，用于采用MapReduce进行分布式扩展，以适应大规模和超大规模数据集群的存储和运算需求。

3.根据权利要求1所述的面向列的数据库管理系统，其特征在于，所述数据查询单元还用于，当所述查找条件为两个或两个以上时，对根据每一查找条件查找得到的全局ID求交集，获得符合所述查找条件的全局ID集合，并提取所述全局ID集合中每一个全局ID对应的数据。

4.根据权利要求1所述的数据库管理系统，其特征在于，还包括：

5.根据权利要求1或2所述的数据库管理系统，其特征在于，所述数据处理模块还包括：列集建立单元

6.根据权利要求1或2所述的数据库管理系统，其特征在于，当导入NoSQL数据库的非结构化数据时，将Key-Value键值对中的Key作全局ID，Value作为数据构建一个单列表。

7.根据权利要求1或2所述的数据库管理系统，其特征在于，列集数据的存储结构、索引数据的存储结构、以及所述单列表数据的存储结构均为B+树的结构。