CN107315843A

CN107315843A - 海量结构化数据的存储方法和系统

Info

Publication number: CN107315843A
Application number: CN201710623972.XA
Authority: CN
Inventors: 黄文琦; 李鹏; 许爱东; 陈晓; 陈华军; 李果; 蒋屹新; 杨航; 张福铮
Original assignee: Power Grid Technology Research Center of China Southern Power Grid Co Ltd; Research Institute of Southern Power Grid Co Ltd
Current assignee: Power Grid Technology Research Center of China Southern Power Grid Co Ltd; Research Institute of Southern Power Grid Co Ltd
Priority date: 2017-07-27
Filing date: 2017-07-27
Publication date: 2017-11-03

Abstract

本发明涉及一种海量结构化数据的存储方法和系统。上述海量结构化数据的存储方法包括：将海量结构化数据输入关系型数据库，将所述海量结构化数据分配至所述关系型数据库的各个工作节点；通过所述关系型数据库的主节点读取各个工作节点的元数据分布规则，根据所述元数据分布规则生成各个工作节点的节点执行计划；将各个节点执行计划分别发送至相应的工作节点，控制各工作节点在运行各自的执行计划，将所述海量结构化数据存储至关系型数据库。本发明提供的海量结构化数据的存储方案中数据处理过程简单，对所操作用户的技术要求相对低，且存储海量结构化数据过程中工作量得到有效减少，可以降低针对海量结构化数据的存储成本。

Description

海量结构化数据的存储方法和系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种海量结构化数据的存储方法和系统。

背景技术

随着信息数据技术的高速发展，海量结构化数据处理在数据处理技术领域中占据越来越重要的作用。传统方案针对海量结构化数据进行存储时，通常采用以Hadoop为基础的大数据技术，Hadoop技术以HDFS(Hadoop分布式文件系统)和MapReduce技术为核心，提供了能够对海量数据进行分布式处理的软件框架，允许采用众多廉价硬件设备构建的用于存储和计算的大型集群，实现对海量数据进行可靠、高效、可伸缩的方式进行处理，并衍生出了HBase、Hive、Pig、Mahout、Sqoop等一系列产品和工具。然而其需要熟练掌握相关技术的工程师进行相应海量数据的存储处理工作，且将SQL转化为Hive QL、UDF、MapReduce的工作量巨大，这便导致传统方案存储海量结构化数据的成本高。

发明内容

基于此，有必要针对传统方案存储海量结构化数据的成本高的技术问题，提供一种海量结构化数据的存储方法和系统。

一种海量结构化数据的存储方法，包括如下步骤：

将海量结构化数据输入关系型数据库，将所述海量结构化数据分配至所述关系型数据库的各个工作节点；

通过所述关系型数据库的主节点读取各个工作节点的元数据分布规则，根据所述元数据分布规则生成各个工作节点的节点执行计划；

将各个节点执行计划分别发送至相应的工作节点，控制各工作节点在运行各自的执行计划，将所述海量结构化数据存储至关系型数据库。

一种海量结构化数据的存储系统，包括：

分配模块，用于将海量结构化数据输入关系型数据库，将所述海量结构化数据分配至所述关系型数据库的各个工作节点；

读取模块，用于通过所述关系型数据库的主节点读取各个工作节点的元数据分布规则，根据所述元数据分布规则生成各个工作节点的节点执行计划；

存储模块，用于将各个节点执行计划分别发送至相应的工作节点，控制各工作节点在运行各自的执行计划，将所述海量结构化数据存储至关系型数据库。

上述海量结构化数据的存储方法和系统，可以将海量结构化数据输入关系型数据库，以分配至所述关系型数据库的各个工作节点，通过所述关系型数据库的主节点读取各个工作节点的元数据分布规则，根据所述元数据分布规则生成各个工作节点的节点执行计划，再将各个节点执行计划分别发送至相应的工作节点，控制各工作节点在运行各自的执行计划，以将所述海量结构化数据存储至关系型数据库，其中的数据处理过程简单，对所操作用户的技术要求相对低，且存储海量结构化数据过程中工作量得到有效减少，可以降低针对海量结构化数据的存储成本。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述的海量结构化数据的存储方法。

上述计算机可读存储介质上存储的计算机程序，被处理器执行时可以实现如上所述的海量结构化数据的存储方法，能够降低针对海量结构化数据的存储成本。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的海量结构化数据的存储方法。

上述计算机设备中，处理器执行所述程序时可以实现如上所述的海量结构化数据的存储方法，有效降低了存储海量结构化数据的成本。

附图说明

图1为一个实施例的海量结构化数据的存储方法流程图；

图2为一个实施例的关系型数据库的结构示意图；

图3为一个实施例的海量结构化数据的存储系统结构示意图；

图4为一个实施例的计算机设备结构示意图。

具体实施方式

下面结合附图对本发明的海量结构化数据的存储方法和系统的具体实施方式作详细描述。

参考图1，图1所示为一个实施例的海量结构化数据的存储方法流程图，包括如下步骤：

S10，将海量结构化数据输入关系型数据库，将所述海量结构化数据分配至所述关系型数据库的各个工作节点；

上述关系型数据库包括主节点(Master节点)和多个工作节点(worker节点)。用户可以向Master节点输入处理上述海量结构化数据的结构化查询语句(如SQL语句)，上述结构化查询语句可记为sql_0，Master节点中的语法解析器可以分析sql_0的语法结构，根据语法解析器获得sql_0的操作命令，读取Master节点中待操作的元数据表信息。Master节点维护一张表用于记录各元数据表是如何分布存储到各个节点，是由存储的分配规则决定的。

在一个实施例中，将海量结构化数据输入关系型数据库后，将海量结构化数据分配至所述关系型数据库的各个工作节点所对应的分配规则可以包括两类：一类是按顺序分布存储，另一类按表达式规则分布存储：

顺序分布存储指当一个表在第一个worker节点(工作节点)的记录存储一定数量后，后续的数据会存到下一点worker节点(工作节点)。按表达式规则分布是指当某个字段或几个字段的值符合相应的条件时，存入指定的worker节点。

Master节点根据待操作表名，可以从元数据中取出该表(存储输入关系型数据库的海量结构化数据的表)的存储分布规则。

S20，通过所述关系型数据库的主节点读取各个工作节点的元数据分布规则，根据所述元数据分布规则生成各个工作节点的节点执行计划；

上述步骤可以分别识别各个工作节点的节点id中的各个字段，将所识别的字段添加至上述sql_0的子条件，形成一个附加了所有工作节点分布规则的新的SQL语句，将上述SQL语句存入各个工作节点的sql表达式位置，以便生成各个节点的节点执行计划。

S30，将各个节点执行计划分别发送至相应的工作节点，控制各工作节点在运行各自的执行计划，将所述海量结构化数据存储至关系型数据库。

上述步骤可以通过消息对列的方式将执行计划发送给各个工作节点，各个工作节点可以解析执行计划，查找每个工作节点的节点id，将执行计划中的plan(节点执行计划)节点下对应的一条数据，以消息对列的方式，发送到对应的工作节点。每个节点的节点执行计划发送成功后，相应的状态可以标记为1，表示发送成功。工作节点接收到节点执行计划中的对象plan的一条数据，进行解析，取出其它SQL语句，连接到本地的关系型数据库开始执行，以事务方式进行数据操作，以实现输入关系型数据库的海量结构化数据的存储。

针对结构化数据量过大的情况，本发明采用将一个表切割成多份分别存储到多个worker节点的方式进行，也允许一个表的数据在多个节点进行存储，可以避免出现在多个节点之间进行多表关联查询的问题。

本发明提供的海量结构化数据的存储方法和系统，可以将海量结构化数据输入关系型数据库，以分配至所述关系型数据库的各个工作节点，通过所述关系型数据库的主节点读取各个工作节点的元数据分布规则，根据所述元数据分布规则生成各个工作节点的节点执行计划，再将各个节点执行计划分别发送至相应的工作节点，控制各工作节点在运行各自的执行计划，以将所述海量结构化数据存储至关系型数据库，其中的数据处理过程简单，对所操作用户的技术要求相对低，且存储海量结构化数据过程中工作量得到有效减少，可以降低针对海量结构化数据的存储成本。

在一个实施例中，上述海量结构化数据的存储方法，还可以包括：

获取各个工作节点运行各自的执行计划时生成的执行状态信息，将所述执行状态信息发送至主节点；

通过所述主节点汇总各个工作节点的执行状态信息。

具体地，worker节点端完成数据操作后，会生成执行状态信息RunState。上述RunState包括四部分：

ID：唯一标记号。数值为开始执行时间，格式为“yyMMddhhmmss+4位毫秒数”，共16位数字。

WorkerId：节点标识(节点id)。标明是哪个节点。

State:完成状态(状态值)。0-成功，2-失败。

Msg:状态描述。如果成功，为空。如果失败，则为失败原因的详细信息。

各个worker节点可以以消息对列的方式将完成状态(执行状态信息)发送给Master节点端。

作为一个实施例，上述通过所述主节点汇总并显示各个工作节点的执行状态信息的过程可以包括：

通过主节点收集各个工作节点的执行状态信息，识别各个执行状态信息的状态值；

若为失败的状态值大于或等于个数阈值，则向各个工作节点发送回滚消息，由各个工作节点执行回滚事务，取消数据更新操作；

若各个状态值均为成功，则向各个工作节点发送确认消息，由各个工作节点提交事务，再通过所述主节点汇总各个执行状态信息的状态描述信息，将汇总后的状态描述信息反馈至关系型数据库用户。

Master节点将汇总worker节点的执行状态，结合事务处理，并将执行结果通过显示等方式发送给客户端(反馈至关系型数据库用户)。

具体地，Master节点可以收集到所有工作节点的RunState，判断State是否为0。如果出现某一个或几个节点的State等于2，则向worker发送消息，由worker回滚事务，取消数据更新操作；如果所有节点的State都是0，则向worker发送消息，由worker提交事务。然后Master汇总RunState的Msg，发送给客户，完成所有操作。

在一个实施例中，上述通过所述关系型数据库的主节点读取各个工作节点的元数据分布规则的过程可以包括：

通过所述主节点读取用户输入的结构化查询语句，根据所述结构化查询语句识别的操作命令，读取主节点中待操作的元数据表信息；

根据所述元数据表信息以及各个工作节点的数据存储规则生成各个工作节点的元数据分布规则。

用户向Master节点输入的结构化查询语句(如SQL语句)，可以记为sql_0，Master节点中的语法解析器分析sql_0的语法结构，根据语法解析器获得其中的操作命令，读取主节点中待操作的元数据表信息，Master节点还可以维护一张表用于记录各元数据表是如何分布存储到各个节点，读取各个工作节点的数据存储规则，以此生成各个工作节点的元数据分布规则。

在一个实施例中，上述根据所述元数据分布规则生成各个工作节点的节点执行计划的过程可以包括：

根据所述元数据分布规则生成附加各个节点分布规则的SQL语句；

将所述SQL语句存入各个工作节点的sql表达式位置，生成各个节点的节点执行计划。

本实施例可以保证所生成的节点执行计划的准确性。

作为一个实施例，上述将所述SQL语句存入各个工作节点的sql表达式位置，生成各个节点的节点执行计划的过程之后，还可以包括：

将各个节点的节点执行计划添加至所述关系型数据库的数据库执行计划；

从各个元数据分布规则中识别表名节点值，将所述表名节点值存入数据库执行计划。

本实施例可以获取信息更为完整的数据库执行计划(最终的执行计划)，便于用户对相应海量结构化数据整体信息的获取。

作为一个实施例，上述根据所述元数据分布规则生成附加各个节点分布规则的SQL语句的过程可以包括：

从各个工作节点的元数据分布规则种取出节点id，填入该工作节点对应的节点执行计划；

取出各个工作节点的元数据分布规则中第一个字段的分布规则表达式，将所述分布规则表达式添加为SQL子条件；

将各个工作节点的所有字段的表达式都拼接到SQL语句，形成附加各个节点分布规则的SQL语句。

本实施例生成的SQL语句更为完整的包含了各个工作节点以及其所分配的海量结构化数据的有关信息内容。

在一个实施例中，可以进行如下变量定义：

其中，定义变量json1为元数据的分布规则，该规则以JSON(JavaScript ObjectNotation)格式的字符串记录。分布规则json1的JSON格式可以参考如下代码(数据格式1)：

上述数据格式1中，各参数的含义如下：

对象tableName：表名，其值用于标识分布规则属于该表名对应的表；对象rule：由n条数据组成，每条数据表示一个工作节点的分布规则，其中包括对象nodeid和对象details；对象nodeid：其值为工作节点的id；

对象details：其值记录了分布规则详细信息，用于说明字段的分布规则，其中，变量fileldName为表的字段名，expression为分布规则，用一个关系表达式来描述。

上述关系型数据库的结构示意图可以参考图2所示。

上述工作节点接收节点执行计划、解析节点执行计划，即定义变量plan_node表示某个工作节点的执行计划，其JSON格式可以如下(数据格式2)：

定义变量plan表示各个工作节的执行计划，其JSON格式可以如下(数据格式3)：

定义变量json2表示一个表最终的执行计划(数据库执行计划)，其JSON格式如下(数据格式4)：

上述根据所述元数据分布规则生成各个工作节点的节点执行计划以及表最终的执行计划(数据库执行计划)的过程可以包括：

A、从分布规则json1中取出第一个工作节点的id，即"nodeid":"node"，并填入变量plan_node相应位置。

B、取出分布规则中第一个工作节点nodeid对应的details中第一个字段fileldName的分布规则表达式expression，添加为sql_0的子条件。

C、循环步骤B，直到将此工作节点nodeid的所有字段的表达式都拼接到sql_0之后，形成一个附加了所有分布规则的新的SQL，记为sql_1。

D、将步骤C形成的sql_1作为值，存入变量plan_node中对象"sql"的"sqlexpression"位置。

E、将步骤D生成的变量plan_node作为对象存入plan数组。

F、重复过程A至E，直到将分布规则中的所有工作节点的信息都处理完成。此时，形成包括所有工作节点的变量plan的JSON数组。

G、取出plan数组中的第n个元素，记为plan_node_1，取出plan数组中的第n+1个元素，记为plan_node_2，其中，初始值为n＝1。

H、令plan_node_2中对象"bak_data_sql"的值为plan_node_1中对象"sql"的值。

I、n＝n+1。

J、重复步骤G至I，直到n＝m-1，其中，m为plan数据中元素的个数(工作节点个数)。

K、令plan数组的第1个元素中"bak_data_sql"的值为plan数组中第m个元素的"sql"键的值。

L、将步骤K处理后的plan对象为值，存入变量json2中的对象"plan"。

M、从分布规则json1中取出表名节点(tableName节点)的值，存入json2中。

参考图3所示，图3为一个实施例的海量结构化数据的存储系统结构示意图，包括：

分配模块10，用于将海量结构化数据输入关系型数据库，将所述海量结构化数据分配至所述关系型数据库的各个工作节点；

读取模块20，用于通过所述关系型数据库的主节点读取各个工作节点的元数据分布规则，根据所述元数据分布规则生成各个工作节点的节点执行计划；

存储模块30，用于将各个节点执行计划分别发送至相应的工作节点，控制各工作节点在运行各自的执行计划，将所述海量结构化数据存储至关系型数据库。

本发明提供的海量结构化数据的存储系统与本发明提供的海量结构化数据的存储方法一一对应，在所述海量结构化数据的存储方法的实施例阐述的技术特征及其有益效果均适用于海量结构化数据的存储系统的实施例中，特此声明。

基于如上所述的示例，一个实施例中还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述的海量结构化数据的存储方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

基于如上所述的示例，参考图4所示，本发明还提供一种计算机设备60，该计算机设备包括存储器61、处理器62及存储在存储器62上并可在处理器61上运行的计算机程序，所述处理器61执行所述程序时实现如上述各实施例中的任意一种海量结构化数据的存储方法。

上述计算机设备60可以包括电脑等智能处理设备。本领域普通技术人员可以理解存储器61存储的计算机程序，与上述海量结构化数据的存储方法实施例中的描述相对应，处理器62还可用于执行存储器61所存储的其他可执行指令。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种海量结构化数据的存储方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的海量结构化数据的存储方法，其特征在于，还包括：

通过所述主节点汇总各个工作节点的执行状态信息。

3.根据权利要求2所述的海量结构化数据的存储方法，其特征在于，所述通过所述主节点汇总并显示各个工作节点的执行状态信息的过程包括：

4.根据权利要求1所述的海量结构化数据的存储方法，其特征在于，所述通过所述关系型数据库的主节点读取各个工作节点的元数据分布规则的过程包括：

5.根据权利要求1所述的海量结构化数据的存储方法，其特征在于，所述根据所述元数据分布规则生成各个工作节点的节点执行计划的过程包括：

6.根据权利要求5所述的海量结构化数据的存储方法，其特征在于，所述将所述SQL语句存入各个工作节点的sql表达式位置，生成各个节点的节点执行计划的过程之后，还包括：

7.根据权利要求5所述的海量结构化数据的存储方法，其特征在于，所述根据所述元数据分布规则生成附加各个节点分布规则的SQL语句的过程包括：

8.一种海量结构化数据的存储系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任意一项所述的海量结构化数据的存储方法。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的海量结构化数据的存储方法。