CN111400297A - 基于Hadoop的海量数据数据质量校验方法 - Google Patents

基于Hadoop的海量数据数据质量校验方法 Download PDF

Info

Publication number
CN111400297A
CN111400297A CN202010195711.4A CN202010195711A CN111400297A CN 111400297 A CN111400297 A CN 111400297A CN 202010195711 A CN202010195711 A CN 202010195711A CN 111400297 A CN111400297 A CN 111400297A
Authority
CN
China
Prior art keywords
data quality
data
hadoop
abstract syntax
syntax tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010195711.4A
Other languages
English (en)
Other versions
CN111400297B (zh
Inventor
李青枝
谢赟
吴新野
黄海清
陈大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Datatom Information Technology Co ltd
Original Assignee
Shanghai Datatom Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Datatom Information Technology Co ltd filed Critical Shanghai Datatom Information Technology Co ltd
Priority to CN202010195711.4A priority Critical patent/CN111400297B/zh
Publication of CN111400297A publication Critical patent/CN111400297A/zh
Application granted granted Critical
Publication of CN111400297B publication Critical patent/CN111400297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了基于Hadoop的海量数据数据质量校验方法,包括:制定数据质量标准;对于DDL指令,将创建表的元数据信息写入Hive;对于DQL语句,将SQL字符串转换为抽象语法树,对抽象语法树进行语法分析,同时根据数据质量标准,解析最新生成SQL语义是否有误,并添加扩展信息;将抽象语法树编译生成相应的逻辑执行计划并优化,将优化后的逻辑执行计划转换成物理计划,生成MapReduce的作业并提交到Yarn上执行,最后,将执行结果返回;返回的执行结果存入HDFS,并进行数据可视以及异常数据导出、追踪、溯源。达到异常数据可展示、可追溯、易配置、易分类的数据质量校验效果。

Description

基于Hadoop的海量数据数据质量校验方法
技术领域
本发明涉及大数据技术领域,尤其涉及数据质量的校验方法。
背景技术
在目前信息化技术和互联网技术的迅速发展下,数据量呈喷井式增长,数据类型也逐渐增多,并且复杂程度越来越高,现代社会已进入大数据时代。在这种背景下,要想充分发挥大数据的应用价值,必须加强数据质量管理力度,提高数据传输及使用的安全性、准确性、稳定性。
在过去几十年发展历程中,以Oracle等大型关系数据库为主,近几年也出现了各种各样层出不穷的开源数据库,比如MySQL、PGSQL等关系型数据库,很多半结构化数据库,比如ElasticSearch,mongodb等,以及各种图数据库的兴起,还有很多互联网非结构化数据。基于数据仓库的数据中台建设在数据治理中数据质量就显得尤为重要;如果不对不符合规范的数据进行标准化识别、筛选;不仅面临数据存储的问题,还会导致很多有价值的信息变得很难获取,大量无效数据污染,加大无谓的人力财力成本的投入。
在传统的数据质量过程中,很多都忽视了数据质量的重要性,导致很多正常的数据被异常数据污染,通常都是被动地被下游用户或者应用团队发现之后,然后告诉大数据数据分析团队去查找异常数据原因,然后去上游查找根源。这样就会导致排查周期慢、流程复杂、费时费力、只有专门的人员才能理解,学习成本增加、数据堆积等诸多问题。
发明内容
本发明的目的在于提供基于Hadoop的海量数据数据质量校验方法,有效实现数据质量校验。
实现上述目的的技术方案是:
基于Hadoop的海量数据数据质量校验方法,包括:
步骤1,制定数据质量标准,并存储于Hive的第二元数据库中;
步骤2,用户通过WEBUI浏览器界面、JDBC/ODBC接口或者CLI命令行的方式连接访问Hive;
步骤3,用户向Hive提交SQL指令,Hive内驱动器识别SQL指令类型,对于DDL指令,将创建表的元数据信息写入Hive自身的第一元数据库中;对于DQL语句,将SQL字符串转换为抽象语法树,对抽象语法树进行语法分析,同时根据第二元数据库中的数据质量标准,解析最新生成SQL语义是否有误,并添加扩展信息;
步骤4,驱动器中编译器将抽象语法树编译生成相应的逻辑执行计划,结合第二元数据库中的数据质量标准,驱动器中优化器对逻辑执行计划进行优化,驱动器中执行器将优化后的逻辑执行计划转换成物理计划,生成MapReduce的作业并提交到Yarn上执行,最后,将执行结果返回;
步骤5,返回的执行结果存入HDFS,并进行数据可视以及异常数据导出、追踪、溯源。
优选的,所述的数据质量标准包括:
正则规则:通过自定义正则表达式的形式制定的规则;
验证规则:邮箱号码验证,手机号码验证,车牌号码验证;
判断规则:判断内容长度、是否为空、数据范围;
内容格式规则;
特定场景下算法规则;
定义数据质量校验的标准输入与输出:定义数据质量校验的输入参数、输出参数、返回格式、字段格式信息。
优选的,所述的返回格式指:使用Json数组的形式作为数据质量探查的结果输出。
优选的,步骤3中,所述的对抽象语法树进行语法分析,包括:
驱动器访问第一元数据库获取相应的元数据信息,判断查询语句中需要查询的表是否存在,然后判断查询语句中所需要查询的字段是否存在,判断查询语法、语义是否正确,查询中关键词是否书写正确、查询中聚合的字段是否出现在group by语句之后、函数是否存在、函数的传参值类型格式是否正确;
所述的根据第二元数据库中的数据质量标准,解析最新生成SQL语义是否有误,并添加扩展信息,包括:
驱动器访问第二元数据库中的数据质量标准,根据数据质量校验的标准输入与输出对字段添加判断规则,再次解析最新生成SQL语义是否有误,同时添加扩展信息,扩展信息包括:用于识别该条记录的唯一ID、用于记录状态的标记字段、记录的更新时间和首次插入时间信息。
优选的,步骤4中,所述的编译器将抽象语法树编译生成相应的逻辑执行计划,指:编译器遍历整个抽象语法树,将其抽象成一个一个的子查询块,然后将各个子查询块合并成执行操作树;
所述的优化器对逻辑执行计划进行优化,指:优化器对执行操作树进行合并、删除来减少MapReduce任务。
优选的,步骤5中,用户使用select进行执行结果查看,同时使用insert语句将执行结果重新存储到HDFS。
优选的,步骤5中,所述的进行数据可视以及异常数据导出、追踪、溯源,包括:
对返回的执行结果中的Json返回内容进行解析,通过聚类统计,生成的每条记录都存在唯一的ID信息,根据该信息快速溯源到原始记录,对异常数据追踪和溯源。
优选的,步骤5中,将用户的任务加入调度任务中,进行周期性离线数据质量校验。
本发明的有益效果是:本发明通过在不同的治理流程中制定不同的数据标准,及时对流入每个环节的数据做处理,生成相应的结果,达到异常数据可展示、可追溯、易配置、易分类的数据质量校验效果。形成了完整的闭环,保证了从数据输入->数据校验->异常问题发现->问题溯源整个闭环链路,有效解决问题难以溯源的问题。制定的规则可以借助Hive的用户自定义函数,借助缓存的形式存储,很方便开发中使用,用户只需要定义标准规则以及标准输入输出格式即可对数据质量进行校验工作,就可以很好的减少人力成本投入,实现对数据质量进行校验,这种存储方式具有占用资源少,复杂逻辑内嵌的优势。依托于Hive特性,在传统Hive架构原理基础上很好的将标准规则存储到元数据库中,实现与Hive的兼容。同时可以借助一些查询搜索引擎,对异常数据准实时的搜索查询。并且,本发明依然支持标准的JDBC/ODBC数据库连接协议,不做任何修改,便于兼容开发者使用。算法支持标准SQL2003标准,不会对SQL解析层做任何修改,依然满足Hive SQL语法的支持和使用,可以无缝衔接原有Hive的架构,在原有Hive功能基础上通过添加数据质量元数据库,在驱动器部分实现对数据质量的校验。
附图说明
图1是本发明的基于Hadoop的海量数据数据质量校验方法的示意图;
图2是本发明中数据治理从数据接入到数据质量校验到结果输出的执行流程示意图;
图3是本发明中驱动器对DDL和DQL语句处理的流程示意图。
具体实施方式
下面将结合附图对本发明作进一步说明。
本发明的基于Hadoop的海量数据数据质量校验方法,包括下列步骤:
步骤1,制定数据质量标准,包括:
正则规则,即:通过自定义正则表达式的形式制定的规则。
验证规则,即:邮箱号码验证,手机号码验证,车牌号码验证等等。
判断规则,即:判断内容长度、是否为空、数据范围。
内容格式规则,比如是否包含某些特定内容。
特定场景下算法规则,比如:信用卡生成规则,身份证号码需要满足前六位代表行政区划,七到十四位代表出生日期,第十七位代表性别,最后一位满足校验规则。
定义数据质量校验的标准输入与输出,即:定义数据质量校验的输入参数、输出参数、返回格式、字段格式等信息。举例:一个完整规则,必须在制定规则的时候明确参数的类型,即输入原始数据的字段类型、必传参数个数、可选填参数的个数、返回值字段个数和格式等,在这里返回格式统一使用Json(是一种轻量级的数据交换格式)数组的形式作为数据质量探查的结果输出。
以上制定的数据质量标准统一存储到Hive(基于Hadoop的一个数据仓库工具)的元数据库中,该元数据库记为第二元数据库,这里区分Hive本身的元数据库(记做第一元数据库),需要单独存储,借助关系型数据库或者缓存内存数据库。
Hive包含DRIVER(驱动器),驱动器包含一些功能:
解释器:将HQL(一种类SQL的查询语言)语句转换成AST(抽象语法树),通过元数据信息识别HQL语法是否正确、表名表字段是否存在、质量规则是否合理、规则是否正确。
编译器:将AST(抽象语法树)编译生成逻辑执行计划。
优化器:对逻辑执行计划进行优化。
执行器(COMPILER):把逻辑执行计划转换成可以运行的物理计划,这里涉及主要是依靠MapReduce(一种用于大规模数据集并行运算的编程模型)、TEZ(Apache开源计算框架)等。
步骤2,用户通过传统WEBUI(网络界面访问)浏览器界面、JDBC(Java DatabaseConnectivity,简称JDBC)/ODBC(开放数据库连接,Open Database Connectivity简称ODBC)接口或者CLI(命令行接口)命令行的方式连接访问Hive。
步骤3,当用户通过Hive提供的一系列交互接口(Client),向Hive提交SQL指令(HSQL)的时候,请参阅图2。驱动器首先识别指令类型,对于DDL(数据定义语言)指令,将相应的创建表的元数据信息写入Hive自身元数据库(第一元数据库)中;对于DQL语句(数据查询分析语句),首先通过解析器,将SQL字符串转换成AST(抽象语法树),然后对AST进行语法分析,详见附图1。驱动器访问第一元数据库获取相应的元数据信息,判断查询语句中需要查询的表是否存在,然后判断查询语句中所需要查询的字段是否存在,判断查询语法、语义是否正确,查询中关键词是否书写正确、查询中聚合的字段是否出现在group by语句之后、函数是否存在、函数的传参值类型格式是否正确等;与此同时,附图1中,驱动器访问第二元数据库中的数据质量标准,根据步骤1中设定的参数要求(数据质量校验的标准输入与输出)对字段添加相应的判断规则,再次解析最新生成SQL语义是否有误,同时添加扩展信息,主要包含以下几个部分:用于识别该条记录的唯一ID、用于记录状态的标记字段、记录的更新时间和首次插入时间信息等。
步骤4,在上述步骤确保无误之后,编译器将上述解析器中的抽象语法树(ATS)编译生成相应的逻辑执行计划,由于生成的抽象语法树还是比较复杂,编译器遍历整个抽象语法树,将其抽象成一个一个的子查询块,然后将各个子查询块合并成执行操作树,优化器中对执行操作树进行合并、删除来减少MapReduce(一种用于大规模数据集并行运算的编程模型)任务,最后在执行器中把MapReduce任务生成最终可以执行的物理计划任务;在Hive中一般就是通常的MapReduce、TEZ(Apache开源计算框架),根据物理计划生成一个MapReduce的作业,提交到Yarn(一种新的Hadoop资源管理器)上执行,最后,将执行结果返回。
步骤5,当返回所需要结果之后,用户可以使用select(用于从数据库中选取数据)进行结果查看,与此同时可以使用insert(用于向数据库中写入数据)语句对结果再存储,重新存储到HDFS(Hadoop分布式文件系统),见附图3,重新写入到HDFS中的数据,对标准输出结果(返回的执行结果)中的Json返回内容进行解析,通过聚类统计(实现不同的规则类型输出结果求和、占比、均值、范围等形式统计,生成的记录中包含相应时间信息、状态信息可以对一定周期进行总数、比例的统计,每条记录都存在唯一的ID信息,根据该信息快速溯源到原始记录),达到对异常数据追踪和溯源的目的;同时将用户的任务加入调度任务中,实现周期性离线数据质量校验任务。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。

Claims (8)

1.基于Hadoop的海量数据数据质量校验方法,其特征在于,包括:
步骤1,制定数据质量标准,并存储于Hive的第二元数据库中;
步骤2,用户通过WEBUI浏览器界面、JDBC/ODBC接口或者CLI命令行的方式连接访问Hive;
步骤3,用户向Hive提交SQL指令,Hive内驱动器识别SQL指令类型,对于DDL指令,将创建表的元数据信息写入Hive自身的第一元数据库中;对于DQL语句,将SQL字符串转换为抽象语法树,对抽象语法树进行语法分析,同时根据第二元数据库中的数据质量标准,解析最新生成SQL语义是否有误,并添加扩展信息;
步骤4,驱动器中编译器将抽象语法树编译生成相应的逻辑执行计划,结合第二元数据库中的数据质量标准,驱动器中优化器对逻辑执行计划进行优化,驱动器中执行器将优化后的逻辑执行计划转换成物理计划,生成MapReduce的作业并提交到Yarn上执行,最后,将执行结果返回;
步骤5,返回的执行结果存入HDFS,并进行数据可视以及异常数据导出、追踪、溯源。
2.根据权利要求1所述的基于Hadoop的海量数据数据质量校验方法,其特征在于,所述的数据质量标准包括:
正则规则:通过自定义正则表达式的形式制定的规则;
验证规则:邮箱号码验证,手机号码验证,车牌号码验证;
判断规则:判断内容长度、是否为空、数据范围;
内容格式规则;
特定场景下算法规则;
定义数据质量校验的标准输入与输出:定义数据质量校验的输入参数、输出参数、返回格式、字段格式信息。
3.根据权利要求2所述的基于Hadoop的海量数据数据质量校验方法,其特征在于,所述的返回格式指:使用Json数组的形式作为数据质量探查的结果输出。
4.根据权利要求2所述的基于Hadoop的海量数据数据质量校验方法,其特征在于,步骤3中,所述的对抽象语法树进行语法分析,包括:
驱动器访问第一元数据库获取相应的元数据信息,判断查询语句中需要查询的表是否存在,然后判断查询语句中所需要查询的字段是否存在,判断查询语法、语义是否正确,查询中关键词是否书写正确、查询中聚合的字段是否出现在group by语句之后、函数是否存在、函数的传参值类型格式是否正确;
所述的根据第二元数据库中的数据质量标准,解析最新生成SQL语义是否有误,并添加扩展信息,包括:
驱动器访问第二元数据库中的数据质量标准,根据数据质量校验的标准输入与输出对字段添加判断规则,再次解析最新生成SQL语义是否有误,同时添加扩展信息,扩展信息包括:用于识别该条记录的唯一ID、用于记录状态的标记字段、记录的更新时间和首次插入时间信息。
5.根据权利要求1所述的基于Hadoop的海量数据数据质量校验方法,其特征在于,步骤4中,所述的编译器将抽象语法树编译生成相应的逻辑执行计划,指:编译器遍历整个抽象语法树,将其抽象成一个一个的子查询块,然后将各个子查询块合并成执行操作树;
所述的优化器对逻辑执行计划进行优化,指:优化器对执行操作树进行合并、删除来减少MapReduce任务。
6.根据权利要求1所述的基于Hadoop的海量数据数据质量校验方法,其特征在于,步骤5中,用户使用select进行执行结果查看,同时使用insert语句将执行结果重新存储到HDFS。
7.根据权利要求3所述的基于Hadoop的海量数据数据质量校验方法,其特征在于,步骤5中,所述的进行数据可视以及异常数据导出、追踪、溯源,包括:
对返回的执行结果中的Json返回内容进行解析,通过聚类统计,生成的每条记录都存在唯一的ID信息,根据该信息快速溯源到原始记录,对异常数据追踪和溯源。
8.根据权利要求1所述的基于Hadoop的海量数据数据质量校验方法,其特征在于,步骤5中,将用户的任务加入调度任务中,进行周期性离线数据质量校验。
CN202010195711.4A 2020-03-19 2020-03-19 基于Hadoop的海量数据数据质量校验方法 Active CN111400297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010195711.4A CN111400297B (zh) 2020-03-19 2020-03-19 基于Hadoop的海量数据数据质量校验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010195711.4A CN111400297B (zh) 2020-03-19 2020-03-19 基于Hadoop的海量数据数据质量校验方法

Publications (2)

Publication Number Publication Date
CN111400297A true CN111400297A (zh) 2020-07-10
CN111400297B CN111400297B (zh) 2023-11-03

Family

ID=71428884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010195711.4A Active CN111400297B (zh) 2020-03-19 2020-03-19 基于Hadoop的海量数据数据质量校验方法

Country Status (1)

Country Link
CN (1) CN111400297B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001500A (zh) * 2020-08-13 2020-11-27 星环信息科技(上海)有限公司 基于纵向联邦学习系统的模型训练方法、设备及存储介质
CN112181704A (zh) * 2020-09-28 2021-01-05 京东数字科技控股股份有限公司 一种大数据任务处理方法、装置、电子设备及存储介质
CN112527783A (zh) * 2020-11-27 2021-03-19 中科曙光南京研究院有限公司 一种基于Hadoop的数据质量探查系统
CN112632170A (zh) * 2020-12-30 2021-04-09 上海中通吉网络技术有限公司 基于sql的数据处理方法、装置和设备
CN113434625A (zh) * 2021-08-27 2021-09-24 中汽研(天津)汽车信息咨询有限公司 专利检索式的代码化方法、设备和存储介质
CN113467785A (zh) * 2021-07-19 2021-10-01 上海红阵信息科技有限公司 一种拟态数据库的sql转译方法和系统
CN115203750A (zh) * 2022-09-19 2022-10-18 杭州比智科技有限公司 基于Hive插件对Hive数据权限管控及安全审计方法及系统
WO2022267062A1 (en) * 2021-06-25 2022-12-29 Microsoft Technology Licensing, Llc Click-to-scipt reflection
CN116401177A (zh) * 2023-06-09 2023-07-07 瀚高基础软件股份有限公司 一种ddl正确性检测方法、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013096894A1 (en) * 2011-12-23 2013-06-27 The Arizona Board Of Regents On Behalf Of The University Of Arizona Methods of micro-specialization in database management systems
US20180196850A1 (en) * 2017-01-11 2018-07-12 Facebook, Inc. Systems and methods for optimizing queries
CN110059103A (zh) * 2019-04-28 2019-07-26 南京大学 一种跨平台统一的大数据sql查询方法
CN110309196A (zh) * 2019-05-22 2019-10-08 深圳壹账通智能科技有限公司 区块链数据存储和查询方法、装置、设备及存储介质
CN110399388A (zh) * 2019-07-29 2019-11-01 中国工商银行股份有限公司 数据查询方法、系统和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013096894A1 (en) * 2011-12-23 2013-06-27 The Arizona Board Of Regents On Behalf Of The University Of Arizona Methods of micro-specialization in database management systems
US20180196850A1 (en) * 2017-01-11 2018-07-12 Facebook, Inc. Systems and methods for optimizing queries
CN110059103A (zh) * 2019-04-28 2019-07-26 南京大学 一种跨平台统一的大数据sql查询方法
CN110309196A (zh) * 2019-05-22 2019-10-08 深圳壹账通智能科技有限公司 区块链数据存储和查询方法、装置、设备及存储介质
CN110399388A (zh) * 2019-07-29 2019-11-01 中国工商银行股份有限公司 数据查询方法、系统和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
崔光范;许利杰;刘杰;叶丹;钟华;: "基于Spark SQL的分布式全文检索框架的设计与实现" *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001500A (zh) * 2020-08-13 2020-11-27 星环信息科技(上海)有限公司 基于纵向联邦学习系统的模型训练方法、设备及存储介质
CN112181704A (zh) * 2020-09-28 2021-01-05 京东数字科技控股股份有限公司 一种大数据任务处理方法、装置、电子设备及存储介质
CN112527783A (zh) * 2020-11-27 2021-03-19 中科曙光南京研究院有限公司 一种基于Hadoop的数据质量探查系统
CN112632170A (zh) * 2020-12-30 2021-04-09 上海中通吉网络技术有限公司 基于sql的数据处理方法、装置和设备
WO2022267062A1 (en) * 2021-06-25 2022-12-29 Microsoft Technology Licensing, Llc Click-to-scipt reflection
CN113467785A (zh) * 2021-07-19 2021-10-01 上海红阵信息科技有限公司 一种拟态数据库的sql转译方法和系统
CN113467785B (zh) * 2021-07-19 2023-02-28 上海红阵信息科技有限公司 一种拟态数据库的sql转译方法和系统
CN113434625A (zh) * 2021-08-27 2021-09-24 中汽研(天津)汽车信息咨询有限公司 专利检索式的代码化方法、设备和存储介质
CN113434625B (zh) * 2021-08-27 2021-12-07 中汽信息科技(天津)有限公司 专利检索式的代码化方法、设备和存储介质
CN115203750A (zh) * 2022-09-19 2022-10-18 杭州比智科技有限公司 基于Hive插件对Hive数据权限管控及安全审计方法及系统
CN116401177A (zh) * 2023-06-09 2023-07-07 瀚高基础软件股份有限公司 一种ddl正确性检测方法、设备及介质
CN116401177B (zh) * 2023-06-09 2023-08-15 瀚高基础软件股份有限公司 一种ddl正确性检测方法、设备及介质

Also Published As

Publication number Publication date
CN111400297B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN111400297A (zh) 基于Hadoop的海量数据数据质量校验方法
US11847574B2 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
US11409744B2 (en) Query generation based on merger of subqueries
Luo et al. Synthesizing natural language to visualization (NL2VIS) benchmarks from NL2SQL benchmarks
US8972460B2 (en) Data model optimization using multi-level entity dependencies
CN106897322A (zh) 一种数据库和文件系统的访问方法和装置
US20110113025A1 (en) Systems and Methods for Data Storage and Retrieval Using Algebraic Relations Composed from Query Language Statements
US11580147B2 (en) Conversational database analysis
US20070276787A1 (en) Systems and Methods for Data Model Mapping
US7613734B2 (en) Systems and methods for providing data sets using a store of albegraic relations
US20070276786A1 (en) Systems and Methods for Data Manipulation Using Multiple Storage Formats
US11928114B2 (en) Query generation based on a logical data model with one-to-one joins
CN106293891B (zh) 多维投资指标监督方法
CN112434024B (zh) 面向关系型数据库的数据字典生成方法、装置、设备及介质
US20070276785A1 (en) Systems and Methods for Data Storage and Retrieval Using Algebraic Optimization
Kejriwal et al. A two-step blocking scheme learner for scalable link discovery.
US11928086B2 (en) Automatic machine learning data modeling in a low-latency data access and analysis system
KR102491753B1 (ko) 쿼리를 이용한 프레임워크 딥러닝 학습 시스템 및 방법
CN112347120B (zh) 一种基于复杂sql的自动优化方法和装置
Souza et al. Towards a Human-in-the-Loop Library for Tracking Hyperparameter Tuning in Deep Learning Development.
Dong et al. Scene-based big data quality management framework
Zhu et al. A data cleaning method for heterogeneous attribute fusion and record linkage
CN116302984A (zh) 一种测试任务的根因分析方法、装置及相关设备
CN116010439A (zh) 一种可视化中文sql系统及构建查询方法
CN111259027A (zh) 一种数据一致性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant