CN111930862A

CN111930862A - 一种基于大数据平台的sql交互式分析方法及系统

Info

Publication number: CN111930862A
Application number: CN202010979161.5A
Authority: CN
Inventors: 郑斌; 侯素颖; 裘炜浩; 陈麟红; 叶盛; 许小卉; 袁婷; 丁麒; 杨世旺; 章丽娜; 蒋榆桐; 俞蓉; 金恩莲; 王珒; 林景
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2020-11-13
Anticipated expiration: 2040-09-17
Also published as: CN111930862B

Abstract

本发明公开了一种基于大数据平台的SQL交互式分析方法及系统，解决了现有技术的不足，方法包括以下步骤：步骤1，系统配置传统关系型数据库数据源；步骤2，系统选择关联步骤1所配置的传统关系型数据库数据源和目标数据实体类型，在大数据环境中创建与目标数据实体类型匹配的大数据实体，并保存创建的大数据实体信息；步骤3，系统读取传统关系型数据库数据源和大数据实体信息，配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务，并执行该任务；步骤4，系统配置大数据实体信息SQL执行参数，然后相关人员选择SQL执行参数匹配的SQL执行引擎进行SQL开发；步骤5，相关人员进行SQL分析，获取分析结果。

Description

一种基于大数据平台的SQL交互式分析方法及系统

技术领域

本发明涉及大数据处理技术领域，尤其是指一种基于大数据平台的SQL交互式分析方法及系统。

背景技术

SQL是一种简单易学并且具有极大的灵活性和强大功能的数据分析语言，它需要基于底层的数据库系统和查询执行引擎。随着数据量的逐渐加大，传统关系型数据库例如MYSQL、ORACLE等已经难以在查询、分析性能上满足需要。

大数据集群环境对处理大规模数据有着很好的性能，SQL也在大数据环境下有很多的应用，如HIVE、IMPALA等的SQL引擎逐步出现。这些SQL引擎依托于大数据集群在分析大规模数据的性能上远超传统关系型数据库。

在传统关系型数据库的SQL分析开发转入到大数据环境的SQL分析开发时会出现以下一些问题：首先是数据需要迁移到大数据环境之中，原有数据仍然存储在关系型数据库中，而迁移操作时SQL开发人员不熟悉不了解的。由于大数据底层存储方式和SQL引擎各有优劣，在不同场景会使用不同的数据存储和SQL引擎，这需要开发人员进行手动的切换。大多数的大数据环境的SQL执行引擎并没有良好的客户端环境，这会造成开发上的难度。

发明内容

本发明的目的是克服现有技术中传统关系型数据库的SQL分析开发转入到大数据环境的SQL分析开发时缺点，提供一种基于大数据平台的SQL交互式分析方法及系统。

本发明的目的是通过下述技术方案予以实现：

一种基于大数据平台的SQL交互式分析方法，包括以下步骤：

步骤1，系统通过WEB页面配置传统关系型数据库数据源；

步骤2，系统通过WEB页面选择关联步骤1所配置的传统关系型数据库数据源和目标数据实体类型，在大数据环境中创建与目标数据实体类型匹配的大数据实体，并保存创建的大数据实体信息；

步骤3，系统通过WEB页面读取步骤1中传统关系型数据库数据源和步骤2中保存的大数据实体信息，配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务，并执行该任务；

步骤4，系统配置大数据实体信息SQL执行参数，然后相关人员通过WEB页面选择SQL执行参数匹配的SQL执行引擎进行SQL开发；

步骤5，相关人员通过WEB页面进行SQL的交互式查询并进行SQL分析，获取分析结果。

在步骤1中，传统关系型数据库数据源是指除大数据环境外其他的数据分析系统。在步骤2中，大数据实体是指在大数据环境下具体存储数据的对象，可以是HIVE表或者其他可具有逻辑表结构的数据对象；匹配的大数据实体即为可按需求选择大数据实体类型，通过SQL的形式创建需求的大数据实体，并将大数据实体结构记录在大数据实体管理模块中，可以为后续步骤提供提示信息而不用实时查询大数据实体结构信息。在步骤3中，同步数据任务将同步数据的配置保存，数据同步可选择不同形式的同步，是为了将传统关系型数据库数据源中不好处理的数据转移到大数据环境，由后续大数据环境下的SQL引擎进行处理。在步骤4中，SQL执行参数指的是配置在参数模块的环境或者条件信息，可在SQL执行过程中作为变量，改变SQL的具体行为，SQL开发中可以选择使用的SQL执行引擎，不同的SQL引擎可以提供不同的特点，通过大数据实体管理模块给与开发提示形成良好的可视化开发条件。另外可以通过参数模块配置现有环境参数，控制SQL执行的行为，为SQL提供更个性的操作。

作为一种优选方案，基于大数据平台的SQL交互式分析方法还包括步骤6，系统通过分析结果对其他SQL分析结果进行验证，若验证通过，则将其他SQL分析保存为SQL任务，若验证不通过，则反馈至相关人员并将此次的分析结果和其他SQL分析结果进行比对。分析结果可能是相关人员实际需要的分析结果，也可能是验证其它SQL分析结果是否符合预期，其他SQL分析指分析结果存储在其他大数据实体中的分析SQL。SQL任务是指分析SQL可能是需要重复执行的，可以保存并多次执行，这些任务需要开发检验正确，保存为SQL任务。

作为一种优选方案，相关人员设置SQL任务与步骤3中的同步数据任务按顺序依次执行，构成SQL分析链路。

作为一种优选方案，系统对步骤6的过程进行多次循环执行，对所有SQL分析与其他至少两个SQL分析进行验证，对于单个SQL分析，若验证通过的概率大于设定的第一阈值，则将此SQL分析保存为SQL任务，若验证通过的概率小于设定的第二阈值，则将此SQL分析舍弃；若验证通过的概率大于等于设定的第二阈值且小于等于设定的第一阈值，则将此SQL分析作为待观察SQL分析。此方案设计避免了不正确的SQL分析对正确的SQL分析进行验证造成验证不通过，影响对正确的SQL分析的判断，一般来说，验证通过的概率大于设定的第一阈值的SQL任务，即可认为是正确的SQL分析，可以保存为SQL任务。

作为一种优选方案，在设定的时间后，系统再次对系统对步骤6的过程进行多次循环执行，对于待观察SQL分析，在此次验证过程中验证通过的概率大于设定的第一阈值，则将待观察SQL分析保存为SQL任务。在设定的时间后，对于传统关系型数据库数据源的数据会产生变化，对于SQL分析的结果也会产生影响，因此在设定的时间后对于待观察SQL分析进行验证可以确定待观察SQL分析是否为正确的SQL分析。同时，验证的过程可以多时间多维度反复进行，确保SQL任务始终正确，保证整个SQL交互式分析方法的有效性。

作为一种优选方案，所述的SQL引擎包括Hive SQL、Impala SQL、Spark SQL和HPLSQL。Hive SQL，基于Hadoop的开源组件Hive，执行引擎默认是MapReduce，作为离线高延时计算框架，Hive SQL性能上已经很难满足市场需求，优点是稳定性高、资源消耗较低；Impala SQL，基于Cloudera的Impala组件，一个开源的MPP SQL 引擎，作为Hive 的高性能替代品，对于服务的内存要求高；Spark SQL，基于分布式内存计算框架Spark，大大提升了SQL执行性能；HPLSQL，基于开源HPL/SQL组件，支持基于大数据平台的存储过程编写与执行。

作为一种优选方案，所述的步骤3中，配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务中，传统关系型数据库数据源的数量至少有两个，同步数据任务包括对传统关系型数据库数据源的数据进行数据融合。此设计可以多多个近似的传统关系型数据库数据源进行数据融合，进一步提升了SQL交互式分析方法的效率。

作为一种优选方案，所述的数据融合过程中还包括数据清洗步骤，数据清洗步骤包括对检测的错误数据进行清洗，错误数据包括以下的一种或多种：重复值、别名、缺失值和异常值。数据在融合的过程中，难免会产生诸如重复值、别名、缺失值和异常值等数据错误。数据错误可能影响同步数据任务的结果，因此，有效的同步数据任务必然离不开高质量和高可用的数据集。本方案核心是清洗对数据分析结果影响加大的部分数据子集，降低数据清洗的代价，提高数据清洗的效率。

作为一种优选方案，重复值的错误数据对应的数据清洗模型为实体对齐模型，清洗的过程具体为：实体对齐模型预测实体对的匹配程度，并给出每一个实体对匹配的概率，对于概率大于设定第三阈值的实体对，直接进行去重；对于概率小于设定第四阈值的实体对，则不是重复的实体对不进行去重；对于概率小于等于设定第三阈值但是大于等于设定第四阈值的实体对，则需要相关人员进行进一步校对。

一种基于大数据平台的SQL交互式分析系统，分析系统执行所述的一种基于大数据平台的SQL交互式分析方法，所述的分析系统运用于电网营销大数据中的数据分析。

本发明的有益效果是：基于大数据平台的SQL交互式分析方法及系统建立了从传统关系型数据库SQL转换到大数据环境的SQL的转换模式，为构建传统关系型数据库转换到大数据环境奠定了基础；本发明对SQL分析的正确性进行了充分的验证，确保了SQL任务的有效性，保证了效率；本发明对多个传统关系型数据库融合的数据进行了数据清洗，保证了同步数据任务能顺利进行；3、本发明为构建可通过不同环境条件、不同存储介质、不同SQL执行引擎选择切换的SQL数据分析系统提供了基础条件。

附图说明

图1是本发明的一种流程示意图。

具体实施方式

下面结合附图和实施例对本发明进一步描述。

实施例：一种基于大数据平台的SQL交互式分析方法，包括以下步骤：

步骤1，系统通过WEB页面配置传统关系型数据库数据源；

步骤6，系统通过分析结果对其他SQL分析结果进行验证，若验证通过，则将其他SQL分析保存为SQL任务，若验证不通过，则反馈至相关人员并将此次的分析结果和其他SQL分析结果进行比对。

在步骤1中，传统关系型数据库数据源是指除大数据环境外其他的数据分析系统。在步骤2中，大数据实体是指在大数据环境下具体存储数据的对象，可以是HIVE表或者其他可具有逻辑表结构的数据对象；匹配的大数据实体即为可按需求选择大数据实体类型，通过SQL的形式创建需求的大数据实体，并将大数据实体结构记录在大数据实体管理模块中，可以为后续步骤提供提示信息而不用实时查询大数据实体结构信息。在步骤3中，同步数据任务将同步数据的配置保存，数据同步可选择不同形式的同步，是为了将传统关系型数据库数据源中不好处理的数据转移到大数据环境，由后续大数据环境下的SQL引擎进行处理。在步骤4中，SQL执行参数指的是配置在参数模块的环境或者条件信息，可在SQL执行过程中作为变量，改变SQL的具体行为，SQL开发中可以选择使用的SQL执行引擎，不同的SQL引擎可以提供不同的特点，通过大数据实体管理模块给与开发提示形成良好的可视化开发条件。另外可以通过参数模块配置现有环境参数，控制SQL执行的行为，为SQL提供更个性的操作。在步骤6中，分析结果可能是相关人员实际需要的分析结果，也可能是验证其它SQL分析结果是否符合预期，其他SQL分析指分析结果存储在其他大数据实体中的分析SQL。SQL任务是指分析SQL可能是需要重复执行的，可以保存并多次执行，这些任务需要开发检验正确，保存为SQL任务。

相关人员设置SQL任务与步骤3中的同步数据任务按顺序依次执行，构成SQL分析链路。

系统对步骤6的过程进行多次循环执行，对所有SQL分析与其他至少两个SQL分析进行验证，对于单个SQL分析，若验证通过的概率大于设定的第一阈值，则将此SQL分析保存为SQL任务，若验证通过的概率小于设定的第二阈值，则将此SQL分析舍弃；若验证通过的概率大于等于设定的第二阈值且小于等于设定的第一阈值，则将此SQL分析作为待观察SQL分析。此方案设计避免了不正确的SQL分析对正确的SQL分析进行验证造成验证不通过，影响对正确的SQL分析的判断，一般来说，验证通过的概率大于设定的第一阈值的SQL任务，即可认为是正确的SQL分析，可以保存为SQL任务。

在设定的时间后，系统再次对系统对步骤6的过程进行多次循环执行，对于待观察SQL分析，在此次验证过程中验证通过的概率大于设定的第一阈值，则将待观察SQL分析保存为SQL任务。在设定的时间后，对于传统关系型数据库数据源的数据会产生变化，对于SQL分析的结果也会产生影响，因此在设定的时间后对于待观察SQL分析进行验证可以确定待观察SQL分析是否为正确的SQL分析。同时，验证的过程可以多时间多维度反复进行，确保SQL任务始终正确，保证整个SQL交互式分析方法的有效性。

所述的SQL引擎包括Hive SQL、Impala SQL、Spark SQL和HPLSQL。Hive SQL，基于Hadoop的开源组件Hive，执行引擎默认是MapReduce，作为离线高延时计算框架，Hive SQL性能上已经很难满足市场需求，优点是稳定性高、资源消耗较低；Impala SQL，基于Cloudera的Impala组件，一个开源的MPP SQL 引擎，作为Hive 的高性能替代品，对于服务的内存要求高；Spark SQL，基于分布式内存计算框架Spark，大大提升了SQL执行性能；HPLSQL，基于开源HPL/SQL组件，支持基于大数据平台的存储过程编写与执行。

所述的步骤3中，配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务中，传统关系型数据库数据源的数量至少有两个，同步数据任务包括对传统关系型数据库数据源的数据进行数据融合。此设计可以多多个近似的传统关系型数据库数据源进行数据融合，进一步提升了SQL交互式分析方法的效率。

所述的数据融合过程中还包括数据清洗步骤，数据清洗步骤包括对检测的错误数据进行清洗，错误数据包括以下的一种或多种：重复值、别名、缺失值和异常值。数据在融合的过程中，难免会产生诸如重复值、别名、缺失值和异常值等数据错误。数据错误可能影响同步数据任务的结果，因此，有效的同步数据任务必然离不开高质量和高可用的数据集。本方案核心是清洗对数据分析结果影响加大的部分数据子集，降低数据清洗的代价，提高数据清洗的效率。

重复值的错误数据对应的数据清洗模型为实体对齐模型，清洗的过程具体为：实体对齐模型预测实体对的匹配程度，并给出每一个实体对匹配的概率，对于概率大于设定第三阈值的实体对，直接进行去重；对于概率小于设定第四阈值的实体对，则不是重复的实体对不进行去重；对于概率小于等于设定第三阈值但是大于等于设定第四阈值的实体对，则需要相关人员进行进一步校对。在本实施例中，概率大于0.8，系统则可以直接进行去重；对于大概率不能匹配成功的实体对，例如概率小于能匹配成功的实体对，例如概率小于0.3，系统则可以不认为实体对是重复；对于那些概率介于[0.3, 0.8]区间的实体对，系统认为这些实体对之间有可能重复也有可能不重复，需要相关人员进行进一步的校对。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种基于大数据平台的SQL交互式分析方法，其特征是，包括以下步骤：

步骤1，系统通过WEB页面配置传统关系型数据库数据源；

2.根据权利要求1所述的一种基于大数据平台的SQL交互式分析方法，其特征是，还包括步骤6，系统通过分析结果对其他SQL分析结果进行验证，若验证通过，则将其他SQL分析保存为SQL任务，若验证不通过，则反馈至相关人员并将此次的分析结果和其他SQL分析结果进行比对。

3.根据权利要求2所述的一种基于大数据平台的SQL交互式分析方法，其特征是，相关人员设置SQL任务与步骤3中的同步数据任务按顺序依次执行，构成SQL分析链路。

4.根据权利要求2所述的一种基于大数据平台的SQL交互式分析方法，其特征是，系统对步骤6的过程进行多次循环执行，对所有SQL分析与其他至少两个SQL分析进行验证，对于单个SQL分析，若验证通过的概率大于设定的第一阈值，则将此SQL分析保存为SQL任务，若验证通过的概率小于设定的第二阈值，则将此SQL分析舍弃；若验证通过的概率大于等于设定的第二阈值且小于等于设定的第一阈值，则将此SQL分析作为待观察SQL分析。

5.根据权利要求4所述的一种基于大数据平台的SQL交互式分析方法，其特征是，在设定的时间后，系统再次对系统对步骤6的过程进行多次循环执行，对于待观察SQL分析，在此次验证过程中验证通过的概率大于设定的第一阈值，则将待观察SQL分析保存为SQL任务。

6.根据权利要求1任意一项权利要求所述的一种基于大数据平台的SQL交互式分析方法，其特征是，所述的SQL引擎包括Hive SQL、Impala SQL、Spark SQL和HPLSQL。

7.根据权利要求1所述的一种基于大数据平台的SQL交互式分析方法，其特征是，所述的步骤3中，配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务中，传统关系型数据库数据源的数量至少有两个，同步数据任务包括对传统关系型数据库数据源的数据进行数据融合。

8.根据权利要求7所述的一种基于大数据平台的SQL交互式分析方法，其特征是，所述的数据融合过程中还包括数据清洗步骤，数据清洗步骤包括对检测的错误数据进行清洗，错误数据包括以下的一种或多种：重复值、别名、缺失值和异常值。

9.根据权利要求8所述的一种基于大数据平台的SQL交互式分析方法，其特征是，重复值的错误数据对应的数据清洗模型为实体对齐模型，清洗的过程具体为：实体对齐模型预测实体对的匹配程度，并给出每一个实体对匹配的概率，对于概率大于设定第三阈值的实体对，直接进行去重；对于概率小于设定第四阈值的实体对，则不是重复的实体对不进行去重；对于概率小于等于设定第三阈值但是大于等于设定第四阈值的实体对，则需要相关人员进行进一步校对。

10.一种基于大数据平台的SQL交互式分析系统，其特征是，其执行如权利要求1-9任意一项权利要求所述的一种基于大数据平台的SQL交互式分析方法，所述的分析系统运用于电网营销大数据中的数据分析。