CN110716933B

CN110716933B - 一种面向新型城轨列车大数据的高伸缩分布式索引方法

Info

Publication number: CN110716933B
Application number: CN201910934795.6A
Authority: CN
Inventors: 陈刚; 刘晋; 潘硕; 李辉; 张哲槟; 江大伟; 陈珂; 吴晓凡
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2022-03-15
Anticipated expiration: 2039-09-29
Also published as: CN110716933A

Abstract

本发明公开了一种面向新型城轨列车大数据的高伸缩分布式索引方法。针对新型城轨列车大数据采用服务器集群进行存储构建数据库，形成一个图状拓扑结构的服务器集群，为每台服务器分配一个辅键索引范围作为索引区间；将键值类型数据进行分片，分布式地存储到服务器上，每台服务器对本地的数据分片建立分片索引；每台服务器从本地的分片索引中选取中间节点，建立外链索引发布到其他确定服务器上；利用辅键索引处理查询请求。本发明快速定位查找并定位保存了所需数据区块的服务器，建立辅助索引可支持迅速、准确的数据查询功能，解决了键值存储模型缺乏辅助索引的问题，能够提高大数据存储系统的数据检索效率，具有高伸缩性和低延迟的特点。

Description

一种面向新型城轨列车大数据的高伸缩分布式索引方法

技术领域

本发明涉及了一种计算机数据库的键值模型数据存储和索引方法，具体是涉及了一种面向新型城轨列车大数据的高伸缩分布式索引方法。

背景技术

新型城轨列车运行过程中会产生大量的结构化和非结构化的数据，包括传感器采集的各项数据、车辆运维日志记录等等。因此需要选择合理的存储模型对各种异构数据进行统一的存储管理。传统的关系模型数据库受限于扩展性，不适合用来管理体量庞大的数据，也难以提供高效的数据处理能力；而NoSQL数据存储系统则具备良好的伸缩性，可以轻松地部署在分布式集群上以存储庞大的数据量，并利用集群的并行处理能力快速完成计算任务。

新型城轨列车大数据管理系统通常使用键值存储模型作为其数据存储方式，具体地，它将每条数据记录简单地表示为一个二元组<键，值>，其中“键”是该条记录的唯一标识符，而“值”则可以存储各种单一或复合的数据对象。键值存储的好处是支持快速的顺序读写，并且具有良好的可扩展性。

辅助索引是数据库领域中一种常见的用于加速数据查询的方法。在对数据中的某些属性建立辅助索引后，当查询请求涉及到该属性时，查询处理器可以在不需要遍历所有数据的情况下，根据辅助索引快速定位符合查询要求的所有数据，从而极大地减少查询所需时间。

然而，现有的技术不支持在基于键值存储的分布式存储集群上建立辅助索引，其原因是数据并不是事先按照辅键的顺序进行存储的，这就使得辅键邻近的两条数据记录实际上存储在不同的磁盘甚至不同的服务器上，因而难以构建一个全局的辅助索引。

发明内容

针对键值模型数据库不支持辅助索引的问题，本发明提供一种面向新型城轨列车大数据的高伸缩分布式索引方法，用于为键值数据存储模型提供辅助索引优化和提高。

如图1所示，本发明解决其技术问题所采用的技术方案如下：

本发明所述的高伸缩是指不受新型城轨列车大数据的数据量的限制。

1)针对新型城轨列车大数据采用服务器集群进行存储构建数据库，将服务器集群中的节点相互连接，一个服务器为一个节点，形成一个图状拓扑结构的服务器集群；根据新型城轨列车大数据构建辅键的整个取值空间，然后将辅键的整个取值空间划分给若干辅键索引范围，并根据服务器集群节点的互连关系，为每台服务器分配一个辅键索引范围作为索引区间；

本发明新型城轨列车大数据，即新型供电轨道交通系统运行时产生的数据，是键值类型数据。

辅键为辅助索引的键，键值对包括了键和值，值包括了属性名和属性值。

2)将新型城轨列车大数据的键值类型数据进行分片，并分布式地存储到服务器集群的各台服务器上，每台服务器对其本地的数据分片建立分片索引，分片索引是由索引结点和根结点构成的树结构；

3)每台服务器从本地的分片索引中选取中间节点，并建立外链索引发布到服务器集群的确定服务器上，形成该服务器上的外链索引；

上述步骤完成了服务器集群中辅键索引的建立，后续步骤根据辅键索引进行查询，能大大加快查询速度，能实现高伸缩分布式索引。

4)利用辅键索引处理查询请求：首先通过服务器集群找到外链索引包含该查询请求的查询范围的外链索引，再跟随外链索引定位保存对应数据分片的服务器，通过服务器上的分片索引迅速查找所需数据。

所述的新型城轨列车大数据是由新型供电轨道交通系统运行时产生的数据，数据为键值类型数据，是由键值对构成。

所述步骤1)包含以下具体步骤：

1.1)将新型城轨列车大数据中需要建立索引的键值对中的值的属性名作为辅键，以所有值中的属性值取值空间作为辅键的整个取值空间，将辅键的整个取值空间划分为若干不相交的小区间，每个小区间作为一个辅键索引范围；

1.2)然后构建一颗二叉树，二叉树的节点数量和辅键索引范围的数量相同，并将各个辅键索引范围分配给二叉树的各个节点，使得二叉树从左往右的节点的辅键索引范围依次增大，即使得每个当前节点的左侧子树下各节点的所有辅键索引范围小于当前节点的辅键索引范围，相应地，每个当前节点的右侧子树下各节点的所有辅键索引范围大于当前节点的辅键索引范围；

1.3)将步骤1.2)中构建的二叉树映射到服务器集群上，使得二叉树上的每个节点对应服务器集群中的一台服务器，每台服务器使用对应节点的辅键索引范围作为服务器的索引区间；

1.4)根据二叉树中节点的互连关系，在节点对应的服务器之间建立相同互连关系的传输链接，并且在二叉树的同一层节点的服务器之间也建立传输链接，形成一个图状拓扑结构的服务器集群。

所述步骤3)包含以下具体步骤：

3.1)每台服务器从其本地的分片索引中选取索引结点，对选取的每个索引结点建立一条外链索引<IP地址，索引结点信息>，IP地址为当前服务器对应的网络地址，索引结点信息为该索引结点的详细信息，包括当前服务器的辅键索引范围和该索引结点在分片索引中的存储位置；

3.2)对于步骤3.1)中建立的每条外链索引，在服务器集群中寻找一台服务器，以该台服务器节点为根节点的子树下所包含的所有节点的辅键索引范围能够完全包含该条外链索引中的索引结点信息的辅键索引范围，寻找到后将该条外链索引发送给该台服务器；

3.3)重复上述步骤3.1)和3.2)对需要建立外链索引的每个索引结点进行处理，在所有的服务器在接收到来自其他服务器的外链索引后，将外链索引保存并维护在自身的内存中。

所述步骤4)包含以下具体步骤：

4.1)查询客户端会发送查询请求到一个服务器，服务器集群中的任何服务器在接收到来自查询客户端的查询请求时，在服务器集群上寻找一台服务器为初始服务器，初始服务器的索引区间与查询请求中的查询范围有重叠，然后将查询请求转发到初始服务器上；

4.2)在初始服务器收到转发的查询请求后，从初始服务器在服务器集群的二叉树中所在节点位置的不断向根节点方向查找，直到找到二叉树中的一个节点为查询节点，以查询节点为根节点的子树下所包含所有节点的辅键索引区间完全包含了查询范围，则将查询请求转发到查询节点对应的服务器；

4.3)查询节点对应的服务器在收到查询请求后，首先在本地内存中查找与查询范围有重叠的索引结点的外链索引，然后通过该外链索引中的IP地址将查询请求转发给该外链索引来源的另一服务器，由本地服务器再将查询请求转发给索引区间与查询范围有重叠的自身在二叉树中所在节点位置下的子节点服务器；

4.4)子节点服务器收到查询请求后，重复步骤4.3)，直到没有子节点服务器被转发收到查询请求，即满足查询条件；

4.5)所有外链索引来源的服务器收到查询请求后，通过本地的分片索引，定位符合查询范围的数据分片记录，并将数据分片记录返回给查询客户端，从而完成快速分布式查询。

本发明首先构建一个服务器集群，并给每台服务器分配一个辅键索引区间，然后在各台存储服务器上建立分片索引，并将部分索引节点通过服务器集群发送到指定服务器上形成外链索引。在使用辅键索引做查询时，先通过服务器集群找到保存了相关外链索引的服务器，再跟随外链索引找到对应的分片索引，从而定位数据记录。

本发明涉及的键值存储作为一种非关系型数据模型，被广泛应用于NoSQL数据库中，而现有的键值类型数据库不支持创建辅助索引，无法通过额外建立索引来加快数据检索。本发明通过构建结构化的服务器集群，让每台服务器作为一个索引节点，利用节点间互连关系将各数据分片的辅助索引分布式地存储在服务器集群上，以支持在该辅键上的数据检索。

本发明具有的有益效果是：

本发明是一种在键值模型的数据存储上建立并使用辅助索引的方法。

本发明通过构建结构化的服务器集群并划分索引区间，可以快速定位查找并定位保存了所需数据区块的服务器。此方法可以用于各种基于键值模型的分布式大数据存储系统，建立的辅助索引可以支持迅速、准确的数据查询功能。

本发明解决了键值存储模型缺乏辅助索引的问题，能够提高NoSQL大数据存储系统的数据检索效率，具有高伸缩性和低延迟的特点。

附图说明

图1是本发明的实施步骤流程图。

图2是本发明的系统架构图。

具体实施方式

现结合具体实施和示例对本发明的技术方案作进一步说明。

如图1，本发明具体实施例及其实施过程如下：

步骤1：针对新型城轨列车大数据采用服务器集群进行存储构建数据库，将服务器集群中的节点相互连接，形成一个图状拓扑结构的服务器集群，然后将辅键的整个取值空间划分给若干小区间，每个小区间作为一个辅键索引范围，并根据服务器集群节点的互连关系，为每台服务器分配一个辅键索引范围。

如图2所示的实例中，集群中共有7台服务器，先构建一颗包含7个节点的二叉树，将服务器与二叉树节点一一对应。并将辅键的整个索引区间(0,35]划分为7个小区间，即(0,5],(5,10],(10,15],(15,20],(20,25],(25,30],(30,35]。然后按照前序遍历的方式遍历二叉树，即为N4→N2→N5→N1→N6→N3→N7，按照该顺序将划分的辅助索引区间依次分配给各个节点。接着将二叉树映射到服务器集群上，使得二叉树上的每个节点对应服务器集群中的一台服务器，该二叉树节点的辅助索引区间即为服务器的外链索引区间。最后根据二叉树中节点的连接关系，在对应服务器之间建立传输链接，并且在二叉树的同一层节点对应的服务器之间也建立传输链接，形成图状拓扑结构的服务器集群。

步骤2：将新型城轨列车大数据系统的键值类型数据进行分片，并分布式地存储到集群的各台服务器上，每台服务器对其本地的数据分片建立分片索引。

如图2所示，每台服务器上都存储了整个数据集的一部分，本步骤中构建的分片索引用于检索本地的数据分片。需要注意的是，分片索引并不对应步骤1中的外链索引区间，因为数据不是按照辅键顺序在服务器中存储的。

步骤3：每台服务器从本地的分片索引中选取中间节点，通过服务器集群对应的二叉树，寻找一台服务器，以该台服务器节点为根节点的子树下所包含的所有节点的辅键索引范围能够完全包含该条外链索引中的索引结点信息的辅键索引范围，寻找到后将该条外链索引发送给该台服务器。

如图2所示，每台服务器的分片索引中黑色的节点即为具有外链索引的节点，虚线所指即为该外链索引存储的位置。值得指出的是，为了保证数据分片中的每项数据都能被外链索引找到，在选取分片索引节点时需要遵从以下规则：如果一个节点没有外链索引，那么它的所有子节点必须有外链索引。

以图2中的实例来详细说明该步骤。假如服务器N₆上有一中间节点索引范围为(11,14)，需要为其建立外链索引。首先N₆服务器本身的外链区间为(20,25]，不包含该索引范围。于是查找其父节点N₃服务器，发现以N₃服务器为根节点的子树的外链区间为(20,35]，依然不包含(11,14)。再向父节点查找，发现以N₁为根节点的树的辅键索引范围为(0,35]，包含了(11,14)。由于N₁节点本身的辅键索引范围(15,20]大于14，需要从N₁的左子树中查找。左子节点N₂的辅键索引范围(5,10]小于11，因此需要查找其右子树，发现N₅节点的福建范围能够完全包含(11,14)，于是将N₆节点上索引范围为(11,14)的中间索引节点存储在N₅对应的服务器上。

步骤4：如图1所示，实线箭头指示了利用辅键索引处理查询请求的流程。首先在服务器集群上寻找一台服务器为初始服务器，初始服务器的索引区间与查询请求中的查询范围有重叠。然后将查询请求转发到初始服务器上。接着初始服务器在服务器集群的二叉树中所在节点位置的不断向根节点方向查找，直到找到二叉树中的一个节点为查询节点，以查询节点为根节点的子树下所包含所有节点的辅键索引区间完全包含了查询范围，则将查询请求转发到查询节点对应的服务器。找到保存了外链索引的服务器之后，跟随该外链索引定位保存对应数据分片的服务器，查询节点对应的服务器在收到查询请求后，首先在本地内存中查找与查询范围有重叠的索引结点的外链索引，然后通过该外链索引中的IP地址将查询请求转发给该外链索引来源的另一服务器，再将查询请求转发给索引区间与查询范围有重叠的自身在二叉树中所在节点位置下的子节点服务器。子节点服务器收到查询请求后，重复上述步骤，直到没有子节点服务器被转发收到查询请求。所有外链索引来源的服务器收到查询请求后，通过本地的分片索引，定位符合查询范围的数据分片记录，并将数据分片记录返回给查询客户端，从而完成快速分布式查询。

以图2中的实施例详细说明。假设有一查询包含辅键索引范围为(11,22)，该查询请求首先被发送到服务器N4上，由于该查询范围与N4本身的外链索引范围(0,5]不相交，于是通过二叉树同层节点的传输链接找到服务器N5，它的外链索引范围(10,15]与查询范围(11,22)有重叠，于是将N5作为初始服务器。由于N5的外链索引范围不完全包含(11,22)，需要向二叉树根节点方向查找，找到N2，发现以N2为根节点的子树所有节点的外链索引范围，即(0,15]，依然不包含(11,22)，于是再进一步向根节点方向查找，得到N1，发现以N2为根节点的子树所有节点的外链索引范围，即(0,35]，完全包含了查询范围。于是以N1作为查询节点开始查找外链索引。N1本身的外链索引范围(15,20]与查询范围(11,22)重合，于是先在N1本地的外链索引中搜索符合要求的外链索引记录，如果找到这样的记录，就根据记录中的IP地址将查询请求转发给该该外链索引来源的服务器。然后N1将查询请求转发给两个子节点N2和N3，N2收到请求后，发现查询范围大于N2本身外链索引范围的最大值，于是将请求转发给右边的子节点服务器N5；类似地，N3将请求转发给自己左边地子节点服务器N6。N5和N6接收到请求后，在本地内存中寻找符合查询要求的外链索引记录，并将查询请求转发给该该外链索引来源的服务器，由于N5和N6没有符合查询要求的子节点了，终止查找。所有的外链索引来源服务器收到查询请求后，通过本地的分片索引找到对应的数据记录，并返回给查询客户端，完成查询。

本发明在基于键值模型的分布式存储集群上建立辅助索引，用于构建新型城轨列车大数据存储管理系统，支持快速、准确的数据查询，并具有高伸缩性和低延迟的特点。

Claims

1.一种面向新型城轨列车大数据的高伸缩分布式索引方法，其特征在于：包含以下步骤：

具体包含以下具体步骤：

1.2)然后构建一颗二叉树，二叉树的节点数量和辅键索引范围的数量相同，并将各个辅键索引范围分配给二叉树的各个节点，使得二叉树从左往右的节点的辅键索引范围依次增大；

1.4)根据二叉树中节点的互连关系，在节点对应的服务器之间建立相同互连关系的传输链接，并且在二叉树的同一层节点的服务器之间也建立传输链接，形成一个图状拓扑结构的服务器集群；

2)将新型城轨列车大数据的键值类型数据进行分片，并分布式地存储到服务器集群的各台服务器上，每台服务器对其本地的数据分片建立分片索引；

所述的新型城轨列车大数据是由新型供电轨道交通系统运行时产生的数据，数据为键值类型数据，是由键值对构成；

3)每台服务器从本地的分片索引中选取索引结点，并建立外链索引发布到服务器集群的确定服务器上；

3.3)重复上述步骤3.1)和3.2)对需要建立外链索引的每个索引结点进行处理，在所有的服务器在接收到来自其他服务器的外链索引后，将外链索引保存并维护在自身的内存中；

2.根据权利要求1所述的面向新型城轨列车大数据的高伸缩分布式索引方法，其特征在于：所述步骤4)包含以下具体步骤：

4.1)服务器集群中的任何服务器在接收到来自查询客户端的查询请求时，在服务器集群上寻找一台服务器为初始服务器，初始服务器的索引区间与查询请求中的查询范围有重叠，然后将查询请求转发到初始服务器上；

4.3)查询节点对应的服务器在收到查询请求后，首先在本地内存中查找与查询范围有重叠的索引结点的外链索引，然后通过该外链索引中的IP地址将查询请求转发给该外链索引来源的另一服务器，再将查询请求转发给索引区间与查询范围有重叠的自身在二叉树中所在节点位置下的子节点服务器；

4.4)子节点服务器收到查询请求后，重复步骤4.3)，直到没有子节点服务器被转发收到查询请求；