CN111930862A - 一种基于大数据平台的sql交互式分析方法及系统 - Google Patents

一种基于大数据平台的sql交互式分析方法及系统 Download PDF

Info

Publication number
CN111930862A
CN111930862A CN202010979161.5A CN202010979161A CN111930862A CN 111930862 A CN111930862 A CN 111930862A CN 202010979161 A CN202010979161 A CN 202010979161A CN 111930862 A CN111930862 A CN 111930862A
Authority
CN
China
Prior art keywords
sql
data
big data
analysis
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010979161.5A
Other languages
English (en)
Other versions
CN111930862B (zh
Inventor
郑斌
侯素颖
裘炜浩
陈麟红
叶盛
许小卉
袁婷
丁麒
杨世旺
章丽娜
蒋榆桐
俞蓉
金恩莲
王珒
林景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd, Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN202010979161.5A priority Critical patent/CN111930862B/zh
Publication of CN111930862A publication Critical patent/CN111930862A/zh
Application granted granted Critical
Publication of CN111930862B publication Critical patent/CN111930862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2423Interactive query statement specification based on a database schema
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据平台的SQL交互式分析方法及系统,解决了现有技术的不足,方法包括以下步骤:步骤1,系统配置传统关系型数据库数据源;步骤2,系统选择关联步骤1所配置的传统关系型数据库数据源和目标数据实体类型,在大数据环境中创建与目标数据实体类型匹配的大数据实体,并保存创建的大数据实体信息;步骤3,系统读取传统关系型数据库数据源和大数据实体信息,配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务,并执行该任务;步骤4,系统配置大数据实体信息SQL执行参数,然后相关人员选择SQL执行参数匹配的SQL执行引擎进行SQL开发;步骤5,相关人员进行SQL分析,获取分析结果。

Description

一种基于大数据平台的SQL交互式分析方法及系统
技术领域
本发明涉及大数据处理技术领域,尤其是指一种基于大数据平台的SQL交互式分析方法及系统。
背景技术
SQL是一种简单易学并且具有极大的灵活性和强大功能的数据分析语言,它需要基于底层的数据库系统和查询执行引擎。随着数据量的逐渐加大,传统关系型数据库例如MYSQL、ORACLE等已经难以在查询、分析性能上满足需要。
大数据集群环境对处理大规模数据有着很好的性能,SQL也在大数据环境下有很多的应用,如HIVE、IMPALA等的SQL引擎逐步出现。这些SQL引擎依托于大数据集群在分析大规模数据的性能上远超传统关系型数据库。
在传统关系型数据库的SQL分析开发转入到大数据环境的SQL分析开发时会出现以下一些问题:首先是数据需要迁移到大数据环境之中,原有数据仍然存储在关系型数据库中,而迁移操作时SQL开发人员不熟悉不了解的。由于大数据底层存储方式和SQL引擎各有优劣,在不同场景会使用不同的数据存储和SQL引擎,这需要开发人员进行手动的切换。大多数的大数据环境的SQL执行引擎并没有良好的客户端环境,这会造成开发上的难度。
发明内容
本发明的目的是克服现有技术中传统关系型数据库的SQL分析开发转入到大数据环境的SQL分析开发时缺点,提供一种基于大数据平台的SQL交互式分析方法及系统。
本发明的目的是通过下述技术方案予以实现:
一种基于大数据平台的SQL交互式分析方法,包括以下步骤:
步骤1,系统通过WEB页面配置传统关系型数据库数据源;
步骤2,系统通过WEB页面选择关联步骤1所配置的传统关系型数据库数据源和目标数据实体类型,在大数据环境中创建与目标数据实体类型匹配的大数据实体,并保存创建的大数据实体信息;
步骤3,系统通过WEB页面读取步骤1中传统关系型数据库数据源和步骤2中保存的大数据实体信息,配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务,并执行该任务;
步骤4,系统配置大数据实体信息SQL执行参数,然后相关人员通过WEB页面选择SQL执行参数匹配的SQL执行引擎进行SQL开发;
步骤5,相关人员通过WEB页面进行SQL的交互式查询并进行SQL分析,获取分析结果。
在步骤1中,传统关系型数据库数据源是指除大数据环境外其他的数据分析系统。在步骤2中,大数据实体是指在大数据环境下具体存储数据的对象,可以是HIVE表或者其他可具有逻辑表结构的数据对象;匹配的大数据实体即为可按需求选择大数据实体类型,通过SQL的形式创建需求的大数据实体,并将大数据实体结构记录在大数据实体管理模块中,可以为后续步骤提供提示信息而不用实时查询大数据实体结构信息。在步骤3中,同步数据任务将同步数据的配置保存,数据同步可选择不同形式的同步,是为了将传统关系型数据库数据源中不好处理的数据转移到大数据环境,由后续大数据环境下的SQL引擎进行处理。在步骤4中,SQL执行参数指的是配置在参数模块的环境或者条件信息,可在SQL执行过程中作为变量,改变SQL的具体行为,SQL开发中可以选择使用的SQL执行引擎,不同的SQL引擎可以提供不同的特点,通过大数据实体管理模块给与开发提示形成良好的可视化开发条件。另外可以通过参数模块配置现有环境参数,控制SQL执行的行为,为SQL提供更个性的操作。
作为一种优选方案,基于大数据平台的SQL交互式分析方法还包括步骤6,系统通过分析结果对其他SQL分析结果进行验证,若验证通过,则将其他SQL分析保存为SQL任务,若验证不通过,则反馈至相关人员并将此次的分析结果和其他SQL分析结果进行比对。分析结果可能是相关人员实际需要的分析结果,也可能是验证其它SQL分析结果是否符合预期,其他SQL分析指分析结果存储在其他大数据实体中的分析SQL。SQL任务是指分析SQL可能是需要重复执行的,可以保存并多次执行,这些任务需要开发检验正确,保存为SQL任务。
作为一种优选方案,相关人员设置SQL任务与步骤3中的同步数据任务按顺序依次执行,构成SQL分析链路。
作为一种优选方案,系统对步骤6的过程进行多次循环执行,对所有SQL分析与其他至少两个SQL分析进行验证,对于单个SQL分析,若验证通过的概率大于设定的第一阈值,则将此SQL分析保存为SQL任务,若验证通过的概率小于设定的第二阈值,则将此SQL分析舍弃;若验证通过的概率大于等于设定的第二阈值且小于等于设定的第一阈值,则将此SQL分析作为待观察SQL分析。此方案设计避免了不正确的SQL分析对正确的SQL分析进行验证造成验证不通过,影响对正确的SQL分析的判断,一般来说,验证通过的概率大于设定的第一阈值的SQL任务,即可认为是正确的SQL分析,可以保存为SQL任务。
作为一种优选方案,在设定的时间后,系统再次对系统对步骤6的过程进行多次循环执行,对于待观察SQL分析,在此次验证过程中验证通过的概率大于设定的第一阈值,则将待观察SQL分析保存为SQL任务。在设定的时间后,对于传统关系型数据库数据源的数据会产生变化,对于SQL分析的结果也会产生影响,因此在设定的时间后对于待观察SQL分析进行验证可以确定待观察SQL分析是否为正确的SQL分析。同时,验证的过程可以多时间多维度反复进行,确保SQL任务始终正确,保证整个SQL交互式分析方法的有效性。
作为一种优选方案,所述的SQL引擎包括Hive SQL、Impala SQL、Spark SQL和HPLSQL。Hive SQL,基于Hadoop的开源组件Hive,执行引擎默认是MapReduce,作为离线高延时计算框架,Hive SQL性能上已经很难满足市场需求,优点是稳定性高、资源消耗较低;Impala SQL,基于Cloudera的Impala组件,一个开源的MPP SQL 引擎,作为Hive 的高性能替代品,对于服务的内存要求高;Spark SQL,基于分布式内存计算框架Spark,大大提升了SQL执行性能;HPLSQL,基于开源HPL/SQL组件,支持基于大数据平台的存储过程编写与执行。
作为一种优选方案,所述的步骤3中,配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务中,传统关系型数据库数据源的数量至少有两个,同步数据任务包括对传统关系型数据库数据源的数据进行数据融合。此设计可以多多个近似的传统关系型数据库数据源进行数据融合,进一步提升了SQL交互式分析方法的效率。
作为一种优选方案,所述的数据融合过程中还包括数据清洗步骤,数据清洗步骤包括对检测的错误数据进行清洗,错误数据包括以下的一种或多种:重复值、别名、缺失值和异常值。数据在融合的过程中,难免会产生诸如重复值、别名、缺失值和异常值等数据错误。数据错误可能影响同步数据任务的结果,因此,有效的同步数据任务必然离不开高质量和高可用的数据集。本方案核心是清洗对数据分析结果影响加大的部分数据子集,降低数据清洗的代价,提高数据清洗的效率。
作为一种优选方案,重复值的错误数据对应的数据清洗模型为实体对齐模型,清洗的过程具体为:实体对齐模型预测实体对的匹配程度,并给出每一个实体对匹配的概率,对于概率大于设定第三阈值的实体对,直接进行去重;对于概率小于设定第四阈值的实体对,则不是重复的实体对不进行去重;对于概率小于等于设定第三阈值但是大于等于设定第四阈值的实体对,则需要相关人员进行进一步校对。
一种基于大数据平台的SQL交互式分析系统,分析系统执行所述的一种基于大数据平台的SQL交互式分析方法,所述的分析系统运用于电网营销大数据中的数据分析。
本发明的有益效果是:基于大数据平台的SQL交互式分析方法及系统建立了从传统关系型数据库SQL转换到大数据环境的SQL的转换模式,为构建传统关系型数据库转换到大数据环境奠定了基础;本发明对SQL分析的正确性进行了充分的验证,确保了SQL任务的有效性,保证了效率;本发明对多个传统关系型数据库融合的数据进行了数据清洗,保证了同步数据任务能顺利进行;3、本发明为构建可通过不同环境条件、不同存储介质、不同SQL执行引擎选择切换的SQL数据分析系统提供了基础条件。
附图说明
图1是本发明的一种流程示意图。
具体实施方式
下面结合附图和实施例对本发明进一步描述。
实施例:一种基于大数据平台的SQL交互式分析方法,包括以下步骤:
步骤1,系统通过WEB页面配置传统关系型数据库数据源;
步骤2,系统通过WEB页面选择关联步骤1所配置的传统关系型数据库数据源和目标数据实体类型,在大数据环境中创建与目标数据实体类型匹配的大数据实体,并保存创建的大数据实体信息;
步骤3,系统通过WEB页面读取步骤1中传统关系型数据库数据源和步骤2中保存的大数据实体信息,配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务,并执行该任务;
步骤4,系统配置大数据实体信息SQL执行参数,然后相关人员通过WEB页面选择SQL执行参数匹配的SQL执行引擎进行SQL开发;
步骤5,相关人员通过WEB页面进行SQL的交互式查询并进行SQL分析,获取分析结果。
步骤6,系统通过分析结果对其他SQL分析结果进行验证,若验证通过,则将其他SQL分析保存为SQL任务,若验证不通过,则反馈至相关人员并将此次的分析结果和其他SQL分析结果进行比对。
在步骤1中,传统关系型数据库数据源是指除大数据环境外其他的数据分析系统。在步骤2中,大数据实体是指在大数据环境下具体存储数据的对象,可以是HIVE表或者其他可具有逻辑表结构的数据对象;匹配的大数据实体即为可按需求选择大数据实体类型,通过SQL的形式创建需求的大数据实体,并将大数据实体结构记录在大数据实体管理模块中,可以为后续步骤提供提示信息而不用实时查询大数据实体结构信息。在步骤3中,同步数据任务将同步数据的配置保存,数据同步可选择不同形式的同步,是为了将传统关系型数据库数据源中不好处理的数据转移到大数据环境,由后续大数据环境下的SQL引擎进行处理。在步骤4中,SQL执行参数指的是配置在参数模块的环境或者条件信息,可在SQL执行过程中作为变量,改变SQL的具体行为,SQL开发中可以选择使用的SQL执行引擎,不同的SQL引擎可以提供不同的特点,通过大数据实体管理模块给与开发提示形成良好的可视化开发条件。另外可以通过参数模块配置现有环境参数,控制SQL执行的行为,为SQL提供更个性的操作。在步骤6中,分析结果可能是相关人员实际需要的分析结果,也可能是验证其它SQL分析结果是否符合预期,其他SQL分析指分析结果存储在其他大数据实体中的分析SQL。SQL任务是指分析SQL可能是需要重复执行的,可以保存并多次执行,这些任务需要开发检验正确,保存为SQL任务。
相关人员设置SQL任务与步骤3中的同步数据任务按顺序依次执行,构成SQL分析链路。
系统对步骤6的过程进行多次循环执行,对所有SQL分析与其他至少两个SQL分析进行验证,对于单个SQL分析,若验证通过的概率大于设定的第一阈值,则将此SQL分析保存为SQL任务,若验证通过的概率小于设定的第二阈值,则将此SQL分析舍弃;若验证通过的概率大于等于设定的第二阈值且小于等于设定的第一阈值,则将此SQL分析作为待观察SQL分析。此方案设计避免了不正确的SQL分析对正确的SQL分析进行验证造成验证不通过,影响对正确的SQL分析的判断,一般来说,验证通过的概率大于设定的第一阈值的SQL任务,即可认为是正确的SQL分析,可以保存为SQL任务。
在设定的时间后,系统再次对系统对步骤6的过程进行多次循环执行,对于待观察SQL分析,在此次验证过程中验证通过的概率大于设定的第一阈值,则将待观察SQL分析保存为SQL任务。在设定的时间后,对于传统关系型数据库数据源的数据会产生变化,对于SQL分析的结果也会产生影响,因此在设定的时间后对于待观察SQL分析进行验证可以确定待观察SQL分析是否为正确的SQL分析。同时,验证的过程可以多时间多维度反复进行,确保SQL任务始终正确,保证整个SQL交互式分析方法的有效性。
所述的SQL引擎包括Hive SQL、Impala SQL、Spark SQL和HPLSQL。Hive SQL,基于Hadoop的开源组件Hive,执行引擎默认是MapReduce,作为离线高延时计算框架,Hive SQL性能上已经很难满足市场需求,优点是稳定性高、资源消耗较低;Impala SQL,基于Cloudera的Impala组件,一个开源的MPP SQL 引擎,作为Hive 的高性能替代品,对于服务的内存要求高;Spark SQL,基于分布式内存计算框架Spark,大大提升了SQL执行性能;HPLSQL,基于开源HPL/SQL组件,支持基于大数据平台的存储过程编写与执行。
所述的步骤3中,配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务中,传统关系型数据库数据源的数量至少有两个,同步数据任务包括对传统关系型数据库数据源的数据进行数据融合。此设计可以多多个近似的传统关系型数据库数据源进行数据融合,进一步提升了SQL交互式分析方法的效率。
所述的数据融合过程中还包括数据清洗步骤,数据清洗步骤包括对检测的错误数据进行清洗,错误数据包括以下的一种或多种:重复值、别名、缺失值和异常值。数据在融合的过程中,难免会产生诸如重复值、别名、缺失值和异常值等数据错误。数据错误可能影响同步数据任务的结果,因此,有效的同步数据任务必然离不开高质量和高可用的数据集。本方案核心是清洗对数据分析结果影响加大的部分数据子集,降低数据清洗的代价,提高数据清洗的效率。
重复值的错误数据对应的数据清洗模型为实体对齐模型,清洗的过程具体为:实体对齐模型预测实体对的匹配程度,并给出每一个实体对匹配的概率,对于概率大于设定第三阈值的实体对,直接进行去重;对于概率小于设定第四阈值的实体对,则不是重复的实体对不进行去重;对于概率小于等于设定第三阈值但是大于等于设定第四阈值的实体对,则需要相关人员进行进一步校对。在本实施例中,概率大于0.8,系统则可以直接进行去重;对于大概率不能匹配成功的实体对,例如概率小于能匹配成功的实体对,例如概率小于0.3,系统则可以不认为实体对是重复;对于那些概率介于[0.3, 0.8]区间的实体对,系统认为这些实体对之间有可能重复也有可能不重复,需要相关人员进行进一步的校对。
一种基于大数据平台的SQL交互式分析系统,分析系统执行所述的一种基于大数据平台的SQL交互式分析方法,所述的分析系统运用于电网营销大数据中的数据分析。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (10)

1.一种基于大数据平台的SQL交互式分析方法,其特征是,包括以下步骤:
步骤1,系统通过WEB页面配置传统关系型数据库数据源;
步骤2,系统通过WEB页面选择关联步骤1所配置的传统关系型数据库数据源和目标数据实体类型,在大数据环境中创建与目标数据实体类型匹配的大数据实体,并保存创建的大数据实体信息;
步骤3,系统通过WEB页面读取步骤1中传统关系型数据库数据源和步骤2中保存的大数据实体信息,配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务,并执行该任务;
步骤4,系统配置大数据实体信息SQL执行参数,然后相关人员通过WEB页面选择SQL执行参数匹配的SQL执行引擎进行SQL开发;
步骤5,相关人员通过WEB页面进行SQL的交互式查询并进行SQL分析,获取分析结果。
2.根据权利要求1所述的一种基于大数据平台的SQL交互式分析方法,其特征是,还包括步骤6,系统通过分析结果对其他SQL分析结果进行验证,若验证通过,则将其他SQL分析保存为SQL任务,若验证不通过,则反馈至相关人员并将此次的分析结果和其他SQL分析结果进行比对。
3.根据权利要求2所述的一种基于大数据平台的SQL交互式分析方法,其特征是,相关人员设置SQL任务与步骤3中的同步数据任务按顺序依次执行,构成SQL分析链路。
4.根据权利要求2所述的一种基于大数据平台的SQL交互式分析方法,其特征是,系统对步骤6的过程进行多次循环执行,对所有SQL分析与其他至少两个SQL分析进行验证,对于单个SQL分析,若验证通过的概率大于设定的第一阈值,则将此SQL分析保存为SQL任务,若验证通过的概率小于设定的第二阈值,则将此SQL分析舍弃;若验证通过的概率大于等于设定的第二阈值且小于等于设定的第一阈值,则将此SQL分析作为待观察SQL分析。
5.根据权利要求4所述的一种基于大数据平台的SQL交互式分析方法,其特征是,在设定的时间后,系统再次对系统对步骤6的过程进行多次循环执行,对于待观察SQL分析,在此次验证过程中验证通过的概率大于设定的第一阈值,则将待观察SQL分析保存为SQL任务。
6.根据权利要求1任意一项权利要求所述的一种基于大数据平台的SQL交互式分析方法,其特征是,所述的SQL引擎包括Hive SQL、Impala SQL、Spark SQL和HPLSQL。
7.根据权利要求1所述的一种基于大数据平台的SQL交互式分析方法,其特征是,所述的步骤3中,配置从传统关系型数据库数据源同步数据至大数据环境中的大数据实体的同步数据任务中,传统关系型数据库数据源的数量至少有两个,同步数据任务包括对传统关系型数据库数据源的数据进行数据融合。
8.根据权利要求7所述的一种基于大数据平台的SQL交互式分析方法,其特征是,所述的数据融合过程中还包括数据清洗步骤,数据清洗步骤包括对检测的错误数据进行清洗,错误数据包括以下的一种或多种:重复值、别名、缺失值和异常值。
9.根据权利要求8所述的一种基于大数据平台的SQL交互式分析方法,其特征是,重复值的错误数据对应的数据清洗模型为实体对齐模型,清洗的过程具体为:实体对齐模型预测实体对的匹配程度,并给出每一个实体对匹配的概率,对于概率大于设定第三阈值的实体对,直接进行去重;对于概率小于设定第四阈值的实体对,则不是重复的实体对不进行去重;对于概率小于等于设定第三阈值但是大于等于设定第四阈值的实体对,则需要相关人员进行进一步校对。
10.一种基于大数据平台的SQL交互式分析系统,其特征是,其执行如权利要求1-9任意一项权利要求所述的一种基于大数据平台的SQL交互式分析方法,所述的分析系统运用于电网营销大数据中的数据分析。
CN202010979161.5A 2020-09-17 2020-09-17 一种基于大数据平台的sql交互式分析方法及系统 Active CN111930862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010979161.5A CN111930862B (zh) 2020-09-17 2020-09-17 一种基于大数据平台的sql交互式分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010979161.5A CN111930862B (zh) 2020-09-17 2020-09-17 一种基于大数据平台的sql交互式分析方法及系统

Publications (2)

Publication Number Publication Date
CN111930862A true CN111930862A (zh) 2020-11-13
CN111930862B CN111930862B (zh) 2020-12-15

Family

ID=73334665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010979161.5A Active CN111930862B (zh) 2020-09-17 2020-09-17 一种基于大数据平台的sql交互式分析方法及系统

Country Status (1)

Country Link
CN (1) CN111930862B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380180A (zh) * 2020-11-17 2021-02-19 平安普惠企业管理有限公司 数据同步处理方法、装置、设备及存储介质
CN113434130A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 Sql自动生成方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777108A (zh) * 2016-12-15 2017-05-31 贵州电网有限责任公司电力科学研究院 一种基于混合存储架构的数据查询方法和装置
CN108052635A (zh) * 2017-12-20 2018-05-18 江苏瑞中数据股份有限公司 一种异构数据源统一联合查询方法
CN108241540A (zh) * 2018-01-09 2018-07-03 福建星瑞格软件有限公司 一种跨数据源查询的任务调度方法以及装置
CN108763276A (zh) * 2018-04-09 2018-11-06 中国电力科学研究院有限公司 一种基于关系型数据库转存大数据平台的方法及系统
CN110633364A (zh) * 2019-09-23 2019-12-31 中国农业大学 基于图数据库的食品安全知识图谱构建方法和展示模式
CN110990368A (zh) * 2019-11-29 2020-04-10 广西电网有限责任公司 一种全链路数据管理系统及其管理方法
CN111324628A (zh) * 2020-02-20 2020-06-23 山东爱城市网信息技术有限公司 一种基于Spark SQL的统一SQL查询方法
CN111400061A (zh) * 2020-03-12 2020-07-10 泰康保险集团股份有限公司 一种数据处理方法和系统
CN111523003A (zh) * 2020-04-27 2020-08-11 北京图特摩斯科技有限公司 一种以时序动态图谱为核心的数据应用方法及平台

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777108A (zh) * 2016-12-15 2017-05-31 贵州电网有限责任公司电力科学研究院 一种基于混合存储架构的数据查询方法和装置
CN108052635A (zh) * 2017-12-20 2018-05-18 江苏瑞中数据股份有限公司 一种异构数据源统一联合查询方法
CN108241540A (zh) * 2018-01-09 2018-07-03 福建星瑞格软件有限公司 一种跨数据源查询的任务调度方法以及装置
CN108763276A (zh) * 2018-04-09 2018-11-06 中国电力科学研究院有限公司 一种基于关系型数据库转存大数据平台的方法及系统
CN110633364A (zh) * 2019-09-23 2019-12-31 中国农业大学 基于图数据库的食品安全知识图谱构建方法和展示模式
CN110990368A (zh) * 2019-11-29 2020-04-10 广西电网有限责任公司 一种全链路数据管理系统及其管理方法
CN111324628A (zh) * 2020-02-20 2020-06-23 山东爱城市网信息技术有限公司 一种基于Spark SQL的统一SQL查询方法
CN111400061A (zh) * 2020-03-12 2020-07-10 泰康保险集团股份有限公司 一种数据处理方法和系统
CN111523003A (zh) * 2020-04-27 2020-08-11 北京图特摩斯科技有限公司 一种以时序动态图谱为核心的数据应用方法及平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANDREAS M. WAHL等: "A Graph-Based Framework for Analyzing SQL Query Logs", 《PROCEEDINGS OF THE 1ST ACM SIGMOD JOINT INTERNATIONAL WORKSHOP ON GRAPH DATA MANAGEMENT EXPERIENCES & SYSTEMS (GRADES) AND NETWORK DATA ANALYTICS (NDA)》 *
李聪颖等: "基于Hadoop 的交互式大数据分析查询处理方法", 《计算机技术与发展》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380180A (zh) * 2020-11-17 2021-02-19 平安普惠企业管理有限公司 数据同步处理方法、装置、设备及存储介质
CN113434130A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 Sql自动生成方法及装置

Also Published As

Publication number Publication date
CN111930862B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN109918349B (zh) 日志处理方法、装置、存储介质和电子装置
US9336288B2 (en) Workflow controller compatibility
CN110781231B (zh) 基于数据库的批量导入方法、装置、设备及存储介质
CN107368503B (zh) 基于Kettle的数据同步方法和系统
CN104036029B (zh) 大数据一致性对比方法和系统
CN108280023B (zh) 任务执行方法、装置和服务器
CN111930862B (zh) 一种基于大数据平台的sql交互式分析方法及系统
CN111324610A (zh) 一种数据同步的方法及装置
CN111614733B (zh) 一种分布式多分片集群的部署方法、装置及存储介质
CN107423390B (zh) 一种基于oltp-olap混合关系型数据库系统内部的数据实时同步方法
CN104572856A (zh) 一种服务起源数据的融合存储方法
CN112231402A (zh) 一种异构数据实时同步方法、装置、设备和存储介质
CN110569142A (zh) 一种oracle数据增量同步系统及方法
CN104536987A (zh) 一种查询数据的方法及装置
CN110851234A (zh) 基于docker容器的日志处理方法及装置
CN116226112A (zh) 数据清洗方法、装置、存储介质及电子设备
CN109902070B (zh) 一种面向WiFi日志数据的解析存储搜索方法
CN113641739B (zh) 一种基于Spark的智能数据转换方法
CN112416944A (zh) 一种同步业务数据的方法和设备
CN112306992A (zh) 一种基于互联网的大数据平台
CN114817171B (zh) 一种埋点数据质量治理方法
US11442758B2 (en) Integration flow execution renew
CN108664503A (zh) 一种数据归档方法及装置
CN111782641B (zh) 数据错误修复方法及系统
CN114547199A (zh) 数据库增量同步响应方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant