CN110688386A

CN110688386A - 面向新型供电轨道交通大数据的分布式列族数据索引方法

Info

Publication number: CN110688386A
Application number: CN201910936371.3A
Authority: CN
Inventors: 李明; 王志伟; 江大伟; 鲁鹏凯; 陈珂; 陈刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-14

Abstract

本发明公开了一种面向新型供电轨道交通大数据的分布式列族数据索引方法。对新型供电轨道交通系统运行时产生的结构化数据，根据基表存储结构将不同情境采集获得的结构化数据进行存储处理为列族模型：将不同的多个元组存储于同一列族模型中形成主表列族模型，再按照元组间的主外键关系在主表列族模型之中建立跨表索引结构：利用跨表索引结构进行查询数据。本发明解决了新型供电轨道交通系统大数据难以提供高效、易用数据检索的技术问题，来消除多表查询时的连接操作，保证查询性能，具备高效的数据存取能力和高可伸缩性，提高了系统的易用性。

Description

面向新型供电轨道交通大数据的分布式列族数据索引方法

技术领域

本发明涉及计算机数据库领域的数据索引处理，尤其是涉及了一种面向新型供电轨道交通大数据的分布式列族数据索引方法。

背景技术

近年来，随着我国经济的高速持续增长，轨道交通事业迅猛发展。与传统轨道交通系统相比，新型供电轨道交通技术新颖，实际运营经验不足。为了支持针对新型轨道交通系统建立的多种数据分析、预测模型，亟须设计开发面向新型轨道交通系统的异构大数据分布式储系统。

关系模型是当代商用数据处理应用中最主要的数据模型。但是关系数据库水平扩展能力有限。并且当进行多表查询时，需要进行表格连接操作。虽然连接操作给用户带来很大的灵活性，但是该操作会产生多次硬盘和内存间的数据IO，导致检索性能低下。在面对新型供电轨道交通大数据时，无法满足低延时的查询需求。

列族数据模型的由谷歌公司提出，基于此开发了BigTable数据库，解决了数据库系统伸缩性和数据存取性能方面的问题。但是为了充分发挥该模型的优势，开发人员需要根据上层应用精心设计相应的数据存储格式。该模型虽然可以帮助解决新型供电轨道交通大数据的查询性能问题，但是该模型有较高的使用门槛，降低了开发人员的开发效率。

为了保证新型供电轨道交通大数据的查询性能，且提高易用性，目前已有一些工作在研究如何在NoSQL数据库的基础上提供关系数据模型。比如研究如何在分布式文件系统的基础上提供SQL查询接口。这些工作能够很好地处理批量的读写请求，但对与多表查询效果不佳。MegaStore和Spanner是建立在BigTable基础之上的关系型数据库。然而，MegaStore和Spanner需要用户自行设计如何将多个表存储在同一个BigTable中，易用性不佳。

发明内容

由于新型供电轨道交通系统产生的数据量大、数据类型复杂，传统数据管理技术难以提供高效、易用的数据检索解决方案，本发明的目的在于针对现有技术的不足，解决背景技术中存在的问题，提供一种面向新型供电轨道交通大数据的分布式列族数据索引方法，解决了新型供电轨道交通系统产生的数据量大、数据类型复杂难以提供高效、易用数据检索的技术问题。本发明具有简洁易用的特点和高伸缩、高效数据存取的优势。

如图1所示，本发明解决其技术问题采用的技术方案如下：

(1)不断实时读取新型供电轨道交通系统运行时产生的数据，包括非结构化数据和结构化数据；

对于非结构化数据中的文本数据，如列车内部控制系统、储能系统的工作日志文本，不作以下步骤处理，直接存入分布式列族数据存储系统中；

对于非结构化数据中的图片数据，不作处理，不存入分布式列族数据存储系统中；

对于结构化数据，如车载传感器的监测数据，继续执行以下步骤；

所述的分布式列族数据存储系统是为新型供电轨道交通系统运行时产生的数据所搭建的数据存储媒介，通常采用服务器。

(2)根据基表存储结构将不同情境采集获得的结构化数据进行存储处理为列族模型：

一个元组为结构化数据中同一中情境采集实时获得的记录集合，元组中的每条记录包括主键属性、外键属性、非主外键属性的三种属性值，元组的每条记录存为列族模型中的一行，将列族模型中的一行划分为行键、数据列族、索引列族的三部分不同类型的列，行键负责存储结构化数据中的主键，索引列族负责存储结构化数据中的外键属性，数据列族负责存储主外键以外的属性。具体是在主键属性的前面结合上元组对应的情境名一起存储为列族模型的行键，外键属性存储为列族模型的索引列族，非主外键属性存储为列族模型的数据列族，

主键属性为结构化数据中唯一属性集合，外键属性为与其他结构化数据的主键属性存在对应关系的属性。

(3)将不同的多个元组存储于同一列族模型中形成主表列族模型，再按照元组间的主外键关系在主表列族模型之中建立跨表索引结构：

若一个元组B的某一非主键属性和另一个元组A中的一个主键属性对应相同，将元组B具有该非主键属性的每条记录加入到元组A中该主键属性所在行的索引列族中并构建各个键值对，元组A中的主键属性是唯一的，因此其索引列族也是唯一的；元组B的一条记录加入构建一个键值对，在元组B该非主键属性的每条记录的主键属性前面结合上元组B对应的情境名作为该键值对的键名，该键值对的值为空；

键值对分为属性名和属性值，属性名即为键名，属性值即为值。

这样，系统会在“一”方的索引列族中记录“多”方的主键，形成“一对多”关系。

(4)在查询数据时，如果查询涉及的主表列族模型在多表元组之间存在主外键约束所表示的“一对多”或者“多对多”关系，那么查询是从主表列族模型中与查询词相同/相对应的元组的主键属性开始，先读取该元组的主键属性所在行的数据列族下的非主外键属性，然后利用该元组的主键属性所在行的索引列族中的各键名查询到另一元组的主键属性的各行，进而根据另一元组的主键逐步扩散至属于关系模型中另一元组的主键属性所在行的数据列族下的非主外键属性。

所述的“一对多”关系是指主表列族模型中的一个元组的一行的索引列族中记录有其他多个元组的主键属性。

所述的“多对多”关系是指主表列族模型中的一个元组的一行的索引列族中记录有其他多个元组的主键属性且其他多个元组的一行的索引列族中也记录有包含该元组在内的多个元组的主键属性。

本发明通过分布式列族关系索引，将新型轨道交通系统产生的结构化数据存储到分布式列族存储系统中。

本发明所述的高伸缩是指不受新型城轨列车大数据的数据量的限制。

本方法提出了一种基于列族模型的基表存储结构，来存储新型供电轨道交通系统产生的海量结构化数据。并依据元组间的引用关系建立跨表索引，来消除多表查询时的连接操作，保证查询性能。

本发明融合了关系数据模型和列族数据模型，以分布式列族数据存储系统作为底层存储，关系模型作为上层逻辑模型。

本发明具有的有益效果是：

本发明方法能够将新型供电轨道交通系统运行时产生的结构化数据与非结构化数据统一存储在分布式列族数据存储系统中，使新型供电轨道交通大数据存储系统具备高效的数据存取能力和高可伸缩性；同时提高了系统的易用性，即对于存储系统中海量的结构化数据，系统开发人员以及数据分析人员只需按照进行操作，而无须关心底层的物理存储结构。

本发明方法使数据存储系统拥有极好的水平扩展能力与高效的数据存取能力，同时数据库开发人员和维护人员只需按照操作数据，而无须关心实际的物理存储结构，提升了开发和维护效率。

本发明利用列族存储跨表连接索引，读取属性数据的同时，获得与该数据具有主外键关系的数据主键，减少了I/O次数并且消除多表查询所需的连接操作，保证了跨表查询时的数据查询性能。

附图说明

图1是本发明实施步骤流程图。

具体实施方式

现结合具体实施和示例对本发明的技术方案作进一步说明。

如图1，本发明具体实施例及其实施过程如下：

步骤1不断读入新型供电轨道交通系统运行时产生的数据，对与非结构化的文本及日志文件，如列车内部控制系统、储能系统的工作日志，不作处理，直接存入底层的分布式列族数据存储系统中，对于结构化数据，如车载传感器的监测数据，如表1、表2所示实例的结构化数据执行以下步骤。

表1本实施例的列车信息表

ID(主键)	From	To
			8838	Hangzhou	Beijing
6937	Nanjing	Guangzhou

表2本实施例的车厢内温度传感器监测数据表

ID(主键)	Temperature	Timestamp	trainID(外键)
				1	26.1	1567606478	8838
2	26.2	1567606538	8838
				3	26.5	1567606420	6937
4	26.5	1567606480	6937
				5	26.4	1567606540	6937

步骤2将列族模型中的一行划分为三部分：行键、数据列族、索引列族，作为基表存储结构，如表3所示。

表3本实施例的基表存储结构和跨表索引

行键	索引列族	数据列族
			row1	外键ID1:””外键ID2:””	属性1:值1属性2:值2
row2	外键ID3:””	属性1:值3属性2:值4

一个元组为结构化数据中同一中情境采集实时获得的记录集合，元组中的每条记录包括主键属性、外键属性、非主外键属性的三种属性值，元组的每条记录存为列族模型中的一行，将列族模型中的一行划分为行键、数据列族、索引列族的三部分不同类型的列，在主键属性的前面结合上元组对应的情境名一起存储为列族模型的行键，即行键名是“<情境名(元组的表名)><主键属性>”，外键属性存储为列族模型的索引列族，非主外键属性存储为列族模型的数据列族。

例如，实例中表1、表2为不同情境采集的元组，表1元组的情境名为train，表2元组的情境名为Record。

将不同的表1元组和表2元组存储于同一列族模型中形成主表列族模型，表1、表2实例中列车信息和温度传感器的监测信息经过这一步处理得到的主表列族模型的基表格式如表4所示。

表4主表列族模型下列车信息和温度监测信息的基表数据

行键row key	索引列族IndexFamily	数据列族DataFamily
			Train8838		From:Hangzhou To:Beijing
Train6937		From:Nanjing To:Guangzhou
			Record001	Train8838:““	Temperature:26.1 Timestamp:1567606478
Record002	Train8838:““	Temperature:26.2 Timestamp:1567606538
			Record003	Train6937:““	Temperature:26.5 Timestamp:1567606420
Record004	Train6937:““	Temperature:26.5 Timestamp:1567606480
			Record005	Train6937:““	Temperature:26.4 Timestamp:1567606540

(3)按照元组间的主外键关系建立跨表索引结构。将与基表元组存在引用关系的外表元组索引在该元组的所在行的索引列族下。

若一个元组B的某一非主键属性和另一个元组A中的一个主键属性对应相同，将元组B具有该非主键属性的每条记录加入到元组A中该主键属性的索引列族中并构建各个键值对，元组B的一条记录加入构建一个键值对，在元组B该非主键属性的每条记录的主键属性前面结合上元组B对应的情境名作为该键值对的键名，即以“<情境名(元组的表名)><主键属性>”作为该格键值对的键名，该键值对的值为空。

例如，表2的Record元组中的trainID外键属性8838和表1的Train元组中的ID主键属性8838相同，将表2的Record元组具有8838的每条记录加入到表1的Train元组中该主键属性8838所在行的索引列族中并构建一个键值对，即以“<Record(表2的Record元组的表名)><001>”作为该格键值对的键名，该键值对的值为空。表2的Record元组具有8838的有两条记录，因此在表1的Train元组中该主键属性8838所在行的索引列族中构建两个键值对，分别为Record001和Record002。

列车和温度传感器信息存在“一对多”的关系，因此建立跨表索引结构，并利用跨表索引结构进行快速查询，处理结果如表5所示。

表5列族模型下列车信息和温度监测信息的基表数据和跨表索引

(4)在查询数据时，如果查询涉及的主表列族模型在多表元组之间存在主外键约束所表示的“一对多”或者“多对多”关系，那么查询是从主表列族模型中与查询词相同/相对应的元组的主键属性开始，先读取该元组的主键属性所在行的数据列族下的非主外键属性，然后利用该元组的主键属性所在行的索引列族中的各键名查询到另一元组的主键属性的各行，即根据步骤(3)中设计的键名为情境名(元组的表名)+主键属性的措施和处理找到该情境名的元组及其下的该主键属性，进而根据另一元组的主键逐步扩散至另一元组的主键属性所在行的数据列族下的非主外键属性。

例如当查询实例中车次为“6937”的列车车内温度监测记录时，先根据列车的主键“Train6937”，从分布式列族存储系统中读取列车的各列属性值，从索引列族中读取以“Record”开头的列名，就可以获取和该车次所有的温度监测数据的主键，然后根据主键获取温度信息即可。

Claims

1.一种面向新型供电轨道交通系大数据的分布式列族数据索引方法，其特征在于：该方法的步骤如下：

对于非结构化数据中的文本数据，不作以下步骤处理，直接存入分布式列族数据存储系统中；

对于结构化数据，继续执行以下步骤；

(2)根据基表存储结构将不同情境采集获得的结构化数据进行存储处理为列族模型：一个元组为结构化数据中同一中情境采集实时获得的记录集合，元组中的每条记录包括主键属性、外键属性、非主外键属性的三种属性值，元组的每条记录存为列族模型中的一行，将列族模型中的一行划分为行键、数据列族、索引列族的三部分，在主键属性的前面结合上元组对应的情境名一起存储为列族模型的行键，外键属性存储为列族模型的索引列族，非主外键属性存储为列族模型的数据列族；

若一个元组B的某一非主键属性和另一个元组A中的一个主键属性对应相同，将元组B具有该非主键属性的每条记录加入到元组A中该主键属性所在行的索引列族中并构建各个键值对，元组B的一条记录加入构建一个键值对，在元组B该非主键属性的每条记录的主键属性前面结合上元组B对应的情境名作为该键值对的键名，该键值对的值为空；

(4)在查询数据时，如果查询涉及的主表列族模型在多表元组之间存在主外键约束所表示的“一对多”或者“多对多”关系，那么查询是从主表列族模型中与查询词相同/相对应的元组的主键属性开始，先读取该元组的主键属性所在行的数据列族下的非主外键属性，然后利用该元组的主键属性所在行的索引列族中的各键名查询到另一元组的主键属性的各行，进而根据另一元组的主键逐步扩散至另一元组的主键属性所在行的数据列族下的非主外键属性。

2.根据权利要求1所述的面向新型供电轨道交通大数据的分布式列族数据索引方法，其特征在于：所述的“一对多”关系是指主表列族模型中的一个元组的一行的索引列族中记录有其他多个元组的主键属性。

3.根据权利要求1所述的面向新型供电轨道交通大数据的分布式列族数据索引方法，其特征在于：所述的“多对多”关系是指主表列族模型中的一个元组的一行的索引列族中记录有其他多个元组的主键属性且其他多个元组的一行的索引列族中也记录有包含该元组在内的多个元组的主键属性。