CN107908672A - 基于Hadoop平台的应用报表实现方法、设备及存储介质 - Google Patents

基于Hadoop平台的应用报表实现方法、设备及存储介质 Download PDF

Info

Publication number
CN107908672A
CN107908672A CN201711012672.4A CN201711012672A CN107908672A CN 107908672 A CN107908672 A CN 107908672A CN 201711012672 A CN201711012672 A CN 201711012672A CN 107908672 A CN107908672 A CN 107908672A
Authority
CN
China
Prior art keywords
data
verification
report
implementation method
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711012672.4A
Other languages
English (en)
Other versions
CN107908672B (zh
Inventor
汪亚男
李晶
冼炳洪
肖和兵
李朝阳
魏小胜
王新玉
夏佳
周东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201711012672.4A priority Critical patent/CN107908672B/zh
Publication of CN107908672A publication Critical patent/CN107908672A/zh
Application granted granted Critical
Publication of CN107908672B publication Critical patent/CN107908672B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Hadoop平台的应用报表实现方法,包括:将HDFS中存储的源数据进行抽取转换处理后加载到数据仓库的贴源层数据表中,并从中抽取数据进行数据质量校验,若校验通过,则对抽取数据进行转换处理后加载到数据仓库的模型层数据表中,然后再从中抽取数据进行数据质量校验,若校验通过,则对抽取数据进行转换处理后加载到数据仓库的应用层数据表中;对应用层数据表中数据进行数据质量校验,若校验通过,则将应用层数据表作为待上报的应用报表,否则发出校验异常告警。本发明还公开了一种基于Hadoop平台的应用报表实现设备及计算机可读存储介质。本发明可在低成本硬件资源下,实现海量数据报送,并满足高数据质量报送要求。

Description

基于Hadoop平台的应用报表实现方法、设备及存储介质
技术领域
本发明涉及数据库技术领域,尤其涉及一种基于Hadoop平台的应用报表实现方法、设备及计算机可读存储介质。
背景技术
在数据库数据处理领域,现有技术方案通常依赖于机器以及数据库软件本身的性能来处理数据。目前国内企业为了应对海量数据的时效和存储,不断地提升大型机/小型机/服务器的配置,以及扩大高端SAN共享存储容量,但系统的可扩展性不强,而且建设成本高昂。
由于海量的数据处理量进而导致数据校验的性能不佳,以及依赖传统数据库结构的约束来进行数据质量校验,而无系统化的数据质量校验体系,进而无法进行完整的数据质量校验,以致应用报表的数据质量无法得到有效保证。
发明内容
本发明的主要目的在于提供一种基于Hadoop平台的应用报表实现方法、设备及计算机可读存储介质,旨在解决如何低成本地实现海量数据的报送,并满足高数据质量报送要求的技术问题。
为实现上述目的,本发明提供一种基于Hadoop平台的应用报表实现方法,所述Hadoop平台至少包括:存储海量源数据的分布式文件系统HDFS、数据仓库工具Hive,采用Hive作为数据仓库,所述应用报表实现方法包括以下步骤:
S1、将HDFS中存储的源数据进行抽取转换处理后加载到数据仓库的贴源层数据表中;从贴源层数据表中抽取数据进行数据质量校验,若校验通过,则执行S2,否则发出校验异常告警;
S2、对贴源层数据表中的抽取数据进行转换处理后加载到数据仓库的模型层数据表中;从模型层数据表中抽取数据进行数据质量校验,若校验通过,则执行S3,否则发出校验异常告警;
S3、对模型层数据表中的抽取数据进行转换处理后加载到数据仓库的应用层数据表中;对应用层数据表中数据进行数据质量校验,若校验通过,则将应用层数据表作为待上报的应用报表,否则发出校验异常告警。
可选地,在步骤S1之前,所述应用报表实现方法还包括:
通过Hive进行数据仓库建模,并分别得到数据仓库的贴源层数据表、模型层数据表以及应用层数据表。
可选地,所述模型层数据表的建模原则至少包括:窄表转换为宽表、共性字段聚集、采用分区表存储每日切片数据;
其中,在所述分区表中,分区日期采用业务日期,且每个分区存储的切片数据为当日增量数据或者全量数据。
可选地,所述数据质量校验至少包括:数据规范性校验;
其中,所述数据规范性校验至少包括:主键唯一性校验、字段类型校验、字段长度校验、字典值校验、字段值格式规范校验。
可选地,所述数据质量校验至少还包括:数据完整性校验;
其中,所述数据完整性校验至少包括:字段必填项校验、不同数据表间平衡性校验。
可选地,所述数据质量校验至少还包括:数据一致性校验;
其中,所述数据一致性校验至少包括:外键一致性校验、不同字段间逻辑一致性校验、不同应用类别间相同数据一致性校验。
可选地,所述数据质量校验至少还包括:数据准确性校验;
其中,所述数据准确性校验至少包括:按照不同业务场景进行人工抽样校验。
可选地,所述数据质量校验至少还包括:数据及时性校验;
其中,所述数据及时性校验至少包括:对数据表中数据的产出时间进行时效校验。
进一步地,为实现上述目的,本发明还提供一种基于Hadoop平台的应用报表实现设备,所述应用报表实现设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的应用报表实现程序,所述应用报表实现程序被所述处理器执行时实现如上述任一项所述的应用报表实现方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有应用报表实现程序,所述应用报表实现程序被处理器执行时实现如上述任一项所述的应用报表实现方法的步骤。
本发明基于Hadoop开源大数据技术平台来实现应用报表,并使用Hive作为数据仓库。Hadoop分布式大数据技术,带来了更大的扩展性和弹性,进而可增加系统的数据计算能力与吞吐能力,更适合处理数据量大的分析计算,对解决日益增长的海量业务数据且要求高时效的应用报表具备天然优势,而且具备更强的水平扩展能力和成本低的特点。此外,对于数据报送类应用,数据质量是整个应用的核心,因此,本发明为了保证数据质量,报送数据统一在数据仓库中加工形成,进而可保证各报送数据的一致性,同时在应用报表形成过程中,为每个系统模块设立数据准入/准出标准,如果输入数据不满足标准,则发出告警,避免有质量问题的数据影响到下游系统。
附图说明
图1是本发明实施例方案涉及的设备硬件运行环境的结构示意图;
图2为本发明基于Hadoop平台的应用报表实现方法一实施例流程示意图;
图3为本发明应用报表实现方法一实施例中数据质量验证流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的设备硬件运行环境的结构示意图。
本发明实施例应用报表实现设备可以是PC机、服务器,也可以是平板电脑、便携计算机等设备。
如图1所示,该应用报表实现设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
本领域技术人员可以理解,图1中示出的应用报表实现设备的硬件结构并不构成对应用报表实现设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序,比如应用报表实现程序等。其中,操作系统是管理和控制应用报表实现设备与软件资源的程序,支持网络通信模块、用户接口模块、应用报表实现程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图1所示的应用报表实现设备硬件结构中,网络接口1004主要用于连接系统后台,与系统后台进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;应用报表实现设备通过处理器1001调用存储器1005中存储的应用报表实现程序,以执行以下操作:
S1、将HDFS中存储的源数据进行抽取转换处理后加载到数据仓库的贴源层数据表中;从贴源层数据表中抽取数据进行数据质量校验,若校验通过,则执行S2,否则发出校验异常告警;
S2、对贴源层数据表中的抽取数据进行转换处理后加载到数据仓库的模型层数据表中;从模型层数据表中抽取数据进行数据质量校验,若校验通过,则执行S3,否则发出校验异常告警;
S3、对模型层数据表中的抽取数据进行转换处理后加载到数据仓库的应用层数据表中;对应用层数据表中数据进行数据质量校验,若校验通过,则将应用层数据表作为待上报的应用报表,否则发出校验异常告警。
进一步地,所述应用报表实现设备通过处理器1001调用存储器1005中存储的应用报表实现程序,以执行以下操作:
通过Hive对数据仓库进行建模,并分别得到数据仓库的贴源层数据表、模型层数据表以及应用层数据表。
基于上述应用报表实现设备硬件结构,提出本发明基于Hadoop平台的应用报表实现方法的各个实施例。
参照图2,图2为本发明基于Hadoop平台的应用报表实现方法一实施例的流程示意图。
本实施例中,Hadoop平台至少包括:
(1)分布式文件系统HDFS:用于存储构建数据仓库的海量源数据;
(2)数据仓库工具Hive:可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
此外,为实现海量数据的即时查询,Hadoop平台还可以包括:分布式数据库HBASE以及分布式计算框架MapReduce。
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持,比如企业管理人员基于数据仓库的应用报表管理企业运营。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据仓库的数据来源于外部系统,比如各种业务系统、监控系统等,并且开放给外部应用,比如进行报表展示、数据即时查询、数据分析或挖掘等,因此数据仓库的基本架构主要包含的是数据流入流出的过程,数据仓库只是中间集成化数据管理的一个平台,基于数据流入流出的过程,可以划分为以下三个数据层:
第一层:贴源层,此层数据不做任何更改,直接沿用外围系统数据结构和数据,因而有外部系统的细节数据;
第二层:模型层,此层包含有各种主题明细宽表、多维数据模型、业务模型;多维数据模型提供了多角度多层次的分析应用,比如基于时间维、地域维等构建的销售星形模型、雪花模型,可以实现在各时间维度和地域维度的交叉查询,以及基于时间维和地域维的细分;业务模型指的是基于某些数据分析和决策支持而建立起来的数据模型,比如用户评价模型、关联推荐模型、RFM分析模型等,此层为外部业务数据在数据仓库中的口径统一与沉淀;
第三层:应用层,前端应用程序直接读取的数据源,对外开放。比如各种应用报表、应专题分析需求而计算生成的数据等。
数据仓库从HDFS获取的数据在数据仓库内进行转换和流动都可以认为是ETL(抽取Extra、转化Transfer、加载Load)过程,ETL是数据仓库的流水线,维系着数据仓库中数据的新陈代谢。
ETL工作的实质就是从各个数据源抽取数据,对数据进行转换,并最终加载填充数据到数据仓库建模后的数据表中。只有当这些数据表(比如维度表、事实表)被填充好,ETL工作才算完成。
1.抽取阶段
数据仓库是面向分析的,而操作型数据库是面向应用的。显然,并不是所有用于支撑业务系统的数据都有拿来分析的必要。因此,抽取阶段主要是根据数据仓库主题、主题域确定需要从外部数据源(比如HDFS中存储的数据)中提取数据。
2.转换阶段
转换阶段主要是指对抽取好了的数据的结构进行转换,以满足目标数据仓库模型的过程。此外,转换阶段也负责数据质量工作,也即在数据转行过程中将不需要的、不符合规范的数据进行清洗处理。
3.加载阶段
加载阶段将已经抽取好并转换后的数据加载到目标数据仓库建模后的数据表中。加载可分首次加载和刷新加载两种,其中,首次加载会涉及到大量数据,而刷新加载则属于一种微批量式的加载。
本实施例中,应用报表实现方法采用Hive作为数据仓库,通过ETL过程在数据仓库中实现应用报表,具体包括以下步骤:
S10、将HDFS中存储的源数据进行抽取转换处理后加载到数据仓库的贴源层数据表中;
S20、从贴源层数据表中抽取数据进行数据质量校验,若校验通过,则执行S30,否则发出校验异常告警;
S30、对贴源层数据表中的抽取数据进行转换处理后加载到数据仓库的模型层数据表中;
S40、从模型层数据表中抽取数据进行数据质量校验,若校验通过,则执行S50,否则发出校验异常告警;
S50、对模型层数据表中的抽取数据进行转换处理后加载到数据仓库的应用层数据表中;
S60、对应用层数据表中数据进行数据质量校验,若校验通过,则将应用层数据表作为待上报的应用报表,否则发出校验异常告警。
本实施例中,ETL贯穿于数据仓库的整个环节,包括:
首先,通过ETL,从HDFS中抽取源数据、对数据进行转换,并最终加载填充数据到数据仓库的贴源层数据表中;
其次,通过ETL,从贴源层数据表中抽取源数据、对数据进行转换,并最终加载填充数据到数据仓库的模型层数据表中;
最后,通过ETL,从模型层数据表中抽取源数据、对数据进行转换,并最终加载填充数据到数据仓库的应用层数据表中。
如图3所示,为保证应用报表中数据的质量,报送数据统一在数据仓库中加工形成,进而可保证各报送数据的一致性,同时在应用报表形成过程中,本实施例中,在每一数据处理环节设立数据准入/准出标准,如果输入数据不满足标准,则发出告警,避免有质量问题的数据影响到下游系统。
本发明基于Hadoop开源大数据技术平台来实现应用报表,并使用Hive作为数据仓库。Hadoop分布式大数据技术,带来了更大的扩展性和弹性,进而可增加系统的数据计算能力与吞吐能力,更适合处理数据量大的分析计算,对解决日益增长的海量业务数据且要求高时效的应用报表具备天然优势,而且具备更强的水平扩展能力和成本低的特点,并且本发明基于hadoop的大数据平台,建立了一套数据质量监控流程,可以保证高质量的应用报表,例如银行业的监管报表以及银行内部报表。
进一步可选的,在本发明应用报表实现方法另一实施例中,在步骤S1之前,应用报表实现方法还包括:
通过Hive进行数据仓库建模,并分别得到数据仓库的贴源层数据表、模型层数据表以及应用层数据表。
可选的,在一实施例中,模型层数据表的建模原则至少包括:窄表转换为宽表、共性字段聚集、采用分区表存储每日切片数据;
其中,在分区表中,分区日期采用业务日期,且每个分区存储的切片数据为当日增量数据或者全量数据。
(1)窄表与宽表是数据表的两种不同表现形式,所谓的窄表就是字段比较少的表,包含的维度层次比较少,因而冗余也比较少,适用于联机处理,而所谓的宽表就是字段比较多的表,包含的维度层次比较多,造成冗余也比较多,适用于数据挖掘。
在数据仓库中,通常要进行宽化,也即窄表变宽表,数据字段贴源,可以减少逻辑加工。比如业务系统的数据需要联机处理,因此,数据表的设计需要避免数据冗余、提高联机效率,因而采用窄表形式,而数据仓库的数据用于数据挖掘、数据分析等,因此数据表的设计需要方便业务分析,对源系统的数据少做转换,这样才可以更好地支持多种数据报送的需求,因而采用宽表设计。
(2)数据仓库中重要的任务就是沉淀数据,因而需要进行共性字段的聚集处理,它是粗化数据粒度的过程。聚集处理需要选取特定度量字段(比如某一维度),然后对度量字段使用某种聚集函数以实现共性字段聚集。
(3)采用Hive分区表设计,存储每日切片数据:分区日期为业务日期,每个分区存储当日增量数据(比如交易流水)或者当日全量数据(比如账户信息)。
进一步地,在本发明应用报表实现方法一实施例中,为保证应用报表中数据的质量,报送数据统一在数据仓库中加工形成,进而可保证各报送数据的一致性,同时在应用报表形成过程中,本实施例中,在每一数据处理环节设立数据准入/准出标准,如果输入数据不满足标准,则发出告警,避免有质量问题的数据影响到下游系统,如图3所示。
可选的,数据质量校验至少包括:
(1)数据规范性校验
主键唯一性校验:校验数据表的主键,进而确保数据记录唯一性;
字段类型校验:校验字段的数据类型,比如数值型或字符型等;
字段长度校验:校验字段的长度,比如字段长度必须小于或等于多少位;
字典值校验:校验字段值是否在某个数据字典范围内;
字段值格式规范校验:校验字段值是否满足某种格式规则,比如身份证号码的格式规则。
(2)数据完整性校验
字段必填项校验:校验字段是否为空,比如某些字段是要求必填的;
不同数据表间平衡性校验:比如校验TA表的记录条数、累计发生金额是否与TB表的记录条数、累计发生金额相等;
(3)数据一致性校验
外键一致性校验:比如校验TA表的字段AA是否在TB表的字段BB存在;
不同字段间逻辑一致性校验:比如当AA字段为某值时,校验BB字段是否为空或满足某个条件;
不同应用类别间相同数据一致性校验:比如应用报表为监管报表,则需校验不同监管类别的报表间数据是否一致;
(4)数据准确性校验,也即抽样校验,比如按照不同业务场景分类抽样明细数据,提供给业务人员进行人工核查;
(5)数据及时性校验,也即时效性校验,比如,设置每张表每天批量数据预期产出时间,如果超过,则告警,以便人工介入查找数据异常原因。
本实施例中,当数据校验出现异常时,则发出告警,以便人工介入检查数据异常原因,例如,若为源系统数据异常,则需由源业务系统修改数据后重新跑批,采用Hive分区表的设计,可以实现按照指定日期重新跑批,也即跑批异常可以灵活地在断点继续处理。
本发明还提供一种计算机可读存储介质。
本发明的计算机可读存储介质上存储有应用报表实现程序,该应用报表实现程序被处理器执行时实现上述应用报表实现方法任一实施例中的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

Claims (10)

1.一种基于Hadoop平台的应用报表实现方法,所述Hadoop平台至少包括:存储海量源数据的分布式文件系统HDFS、数据仓库工具Hive,其特征在于,采用Hive作为数据仓库,所述应用报表实现方法包括以下步骤:
S1、将HDFS中存储的源数据进行抽取转换处理后加载到数据仓库的贴源层数据表中;从贴源层数据表中抽取数据进行数据质量校验,若校验通过,则执行S2,否则发出校验异常告警;
S2、对贴源层数据表中的抽取数据进行转换处理后加载到数据仓库的模型层数据表中;从模型层数据表中抽取数据进行数据质量校验,若校验通过,则执行S3,否则发出校验异常告警;
S3、对模型层数据表中的抽取数据进行转换处理后加载到数据仓库的应用层数据表中;对应用层数据表中数据进行数据质量校验,若校验通过,则将应用层数据表作为待上报的应用报表,否则发出校验异常告警。
2.如权利要求1所述的应用报表实现方法,其特征在于,在步骤S1之前,所述应用报表实现方法还包括:
通过Hive进行数据仓库建模,并分别得到数据仓库的贴源层数据表、模型层数据表以及应用层数据表。
3.如权利要求2所述的应用报表实现方法,其特征在于,所述模型层数据表的建模原则至少包括:窄表转换为宽表、共性字段聚集、采用分区表存储每日切片数据;
其中,在所述分区表中,分区日期采用业务日期,且每个分区存储的切片数据为当日增量数据或者全量数据。
4.如权利要求1-3中任一项所述的应用报表实现方法,其特征在于,所述数据质量校验至少包括:数据规范性校验;
其中,所述数据规范性校验至少包括:主键唯一性校验、字段类型校验、字段长度校验、字典值校验、字段值格式规范校验。
5.如权利要求4所述的应用报表实现方法,其特征在于,所述数据质量校验至少还包括:数据完整性校验;
其中,所述数据完整性校验至少包括:字段必填项校验、不同数据表间平衡性校验。
6.如权利要求5所述的应用报表实现方法,其特征在于,所述数据质量校验至少还包括:数据一致性校验;
其中,所述数据一致性校验至少包括:外键一致性校验、不同字段间逻辑一致性校验、不同应用类别间相同数据一致性校验。
7.如权利要求6所述的应用报表实现方法,其特征在于,所述数据质量校验至少还包括:数据准确性校验;
其中,所述数据准确性校验至少包括:按照不同业务场景进行人工抽样校验。
8.如权利要求7所述的应用报表实现方法,其特征在于,所述数据质量校验至少还包括:数据及时性校验;
其中,所述数据及时性校验至少包括:对数据表中数据的产出时间进行时效校验。
9.一种基于Hadoop平台的应用报表实现设备,其特征在于,所述应用报表实现设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的应用报表实现程序,所述应用报表实现程序被所述处理器执行时实现如权利要求1至8中任一项所述的应用报表实现方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有应用报表实现程序,所述应用报表实现程序被处理器执行时实现如权利要求1至8中任一项所述的应用报表实现方法的步骤。
CN201711012672.4A 2017-10-24 2017-10-24 基于Hadoop平台的应用报表实现方法、设备及存储介质 Active CN107908672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711012672.4A CN107908672B (zh) 2017-10-24 2017-10-24 基于Hadoop平台的应用报表实现方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711012672.4A CN107908672B (zh) 2017-10-24 2017-10-24 基于Hadoop平台的应用报表实现方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN107908672A true CN107908672A (zh) 2018-04-13
CN107908672B CN107908672B (zh) 2022-01-14

Family

ID=61840835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711012672.4A Active CN107908672B (zh) 2017-10-24 2017-10-24 基于Hadoop平台的应用报表实现方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107908672B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033468A (zh) * 2018-08-31 2018-12-18 阿里巴巴集团控股有限公司 资源变动的处理方法及装置
CN110119426A (zh) * 2019-03-27 2019-08-13 携程计算机技术(上海)有限公司 酒店订单报表数据同步的方法及系统
CN110188149A (zh) * 2019-06-04 2019-08-30 宁波银行股份有限公司 一种数据仓库系统
CN110196888A (zh) * 2019-05-27 2019-09-03 深圳前海微众银行股份有限公司 基于Hadoop的数据更新方法、装置、系统及介质
CN110489441A (zh) * 2019-08-12 2019-11-22 厦门商集网络科技有限责任公司 一种基于大数据的即席查询方法及设备
CN110704404A (zh) * 2019-08-29 2020-01-17 苏宁云计算有限公司 一种数据质量校验方法、装置、系统
CN110795302A (zh) * 2018-08-02 2020-02-14 北京嘀嘀无限科技发展有限公司 数据监控方法、数据监控系统、计算机设备和存储介质
CN110909060A (zh) * 2019-11-26 2020-03-24 中信银行股份有限公司 数据报送方法和系统
CN111930812A (zh) * 2020-07-20 2020-11-13 银盛支付服务股份有限公司 基于flink的实时聚合报表方法、电子设备及可读存储介质
CN112632169A (zh) * 2020-12-29 2021-04-09 永辉云金科技有限公司 一种金融数据自动上报方法、装置及计算机设备
CN112860803A (zh) * 2021-03-29 2021-05-28 中信银行股份有限公司 一种对账校验的方法、装置、设备及可读存储介质
CN113377611A (zh) * 2021-06-07 2021-09-10 广发银行股份有限公司 一种业务处理流程监控方法、系统、设备及存储介质
CN113722344A (zh) * 2021-09-10 2021-11-30 北京百度网讯科技有限公司 数据生产方法、装置、电子设备、存储介质及程序产品
CN113806454A (zh) * 2021-09-24 2021-12-17 四川新网银行股份有限公司 一种解决数据仓库账务日切测试数据采集的方法及系统
CN116911269A (zh) * 2023-06-05 2023-10-20 杭州观远数据有限公司 一种聚合数据修改拆分至明细的方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136323A1 (en) * 2005-12-13 2007-06-14 Zurek Thomas F Mapping data structures
US20090043730A1 (en) * 2006-06-26 2009-02-12 Steve Lavdas Methods and Apparatus for Improving Data Warehouse Performance
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104616213A (zh) * 2015-02-11 2015-05-13 浪潮电子信息产业股份有限公司 水电行业两级数据中心通用架构
CN105184642A (zh) * 2015-09-02 2015-12-23 浪潮软件集团有限公司 一种综合治税平台
CN106027671A (zh) * 2016-07-05 2016-10-12 深圳前海大数点科技有限公司 基于云计算的工业数据总线与数据服务系统
CN106446168A (zh) * 2016-09-26 2017-02-22 北京赛思信安技术股份有限公司 一种面向分布式数据仓库的高效加载客户端实现方法
CN106528070A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 一种数据表生成方法及设备
CN107103025A (zh) * 2017-01-05 2017-08-29 北京亚信智慧数据科技有限公司 一种数据处理方法及数据处理平台

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136323A1 (en) * 2005-12-13 2007-06-14 Zurek Thomas F Mapping data structures
US20090043730A1 (en) * 2006-06-26 2009-02-12 Steve Lavdas Methods and Apparatus for Improving Data Warehouse Performance
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104616213A (zh) * 2015-02-11 2015-05-13 浪潮电子信息产业股份有限公司 水电行业两级数据中心通用架构
CN105184642A (zh) * 2015-09-02 2015-12-23 浪潮软件集团有限公司 一种综合治税平台
CN106528070A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 一种数据表生成方法及设备
CN106027671A (zh) * 2016-07-05 2016-10-12 深圳前海大数点科技有限公司 基于云计算的工业数据总线与数据服务系统
CN106446168A (zh) * 2016-09-26 2017-02-22 北京赛思信安技术股份有限公司 一种面向分布式数据仓库的高效加载客户端实现方法
CN107103025A (zh) * 2017-01-05 2017-08-29 北京亚信智慧数据科技有限公司 一种数据处理方法及数据处理平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张志亮等: "基于Hadoop的电网数据质量校验方法与验证系统", 《计算机研究与发展》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795302A (zh) * 2018-08-02 2020-02-14 北京嘀嘀无限科技发展有限公司 数据监控方法、数据监控系统、计算机设备和存储介质
CN109033468B (zh) * 2018-08-31 2022-09-16 创新先进技术有限公司 资源变动的处理方法及装置
CN109033468A (zh) * 2018-08-31 2018-12-18 阿里巴巴集团控股有限公司 资源变动的处理方法及装置
CN110119426A (zh) * 2019-03-27 2019-08-13 携程计算机技术(上海)有限公司 酒店订单报表数据同步的方法及系统
CN110196888A (zh) * 2019-05-27 2019-09-03 深圳前海微众银行股份有限公司 基于Hadoop的数据更新方法、装置、系统及介质
CN110196888B (zh) * 2019-05-27 2024-05-10 深圳前海微众银行股份有限公司 基于Hadoop的数据更新方法、装置、系统及介质
CN110188149A (zh) * 2019-06-04 2019-08-30 宁波银行股份有限公司 一种数据仓库系统
CN110489441A (zh) * 2019-08-12 2019-11-22 厦门商集网络科技有限责任公司 一种基于大数据的即席查询方法及设备
CN110704404B (zh) * 2019-08-29 2023-04-28 苏宁云计算有限公司 一种数据质量校验方法、装置、系统
CN110704404A (zh) * 2019-08-29 2020-01-17 苏宁云计算有限公司 一种数据质量校验方法、装置、系统
CN110909060A (zh) * 2019-11-26 2020-03-24 中信银行股份有限公司 数据报送方法和系统
CN110909060B (zh) * 2019-11-26 2023-10-03 中信银行股份有限公司 数据报送方法和系统
CN111930812B (zh) * 2020-07-20 2024-05-03 银盛支付服务股份有限公司 基于flink的实时聚合报表方法、电子设备及可读存储介质
CN111930812A (zh) * 2020-07-20 2020-11-13 银盛支付服务股份有限公司 基于flink的实时聚合报表方法、电子设备及可读存储介质
CN112632169A (zh) * 2020-12-29 2021-04-09 永辉云金科技有限公司 一种金融数据自动上报方法、装置及计算机设备
CN112860803A (zh) * 2021-03-29 2021-05-28 中信银行股份有限公司 一种对账校验的方法、装置、设备及可读存储介质
CN112860803B (zh) * 2021-03-29 2024-05-03 中信银行股份有限公司 一种对账校验的方法、装置、设备及可读存储介质
CN113377611A (zh) * 2021-06-07 2021-09-10 广发银行股份有限公司 一种业务处理流程监控方法、系统、设备及存储介质
CN113722344A (zh) * 2021-09-10 2021-11-30 北京百度网讯科技有限公司 数据生产方法、装置、电子设备、存储介质及程序产品
CN113806454B (zh) * 2021-09-24 2023-06-06 四川新网银行股份有限公司 一种解决数据仓库账务日切测试数据采集的方法及系统
CN113806454A (zh) * 2021-09-24 2021-12-17 四川新网银行股份有限公司 一种解决数据仓库账务日切测试数据采集的方法及系统
CN116911269B (zh) * 2023-06-05 2024-02-20 杭州观远数据有限公司 一种聚合数据修改拆分至明细的方法
CN116911269A (zh) * 2023-06-05 2023-10-20 杭州观远数据有限公司 一种聚合数据修改拆分至明细的方法

Also Published As

Publication number Publication date
CN107908672B (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
CN107908672A (zh) 基于Hadoop平台的应用报表实现方法、设备及存储介质
US11914620B2 (en) System and method for aggregating values through risk dimension hierarchies in a multidimensional database environment
US20230089618A1 (en) System and method for use of a dynamic flow in a multidimensional database environment
CN110199273B (zh) 用于在多维数据库环境中的一次扫描中进行加载、聚合和批量计算的系统和方法
Sumbaly et al. The big data ecosystem at linkedin
US8051034B2 (en) Parallel processing of assigned table partitions
US9348874B2 (en) Dynamic recreation of multidimensional analytical data
US9135647B2 (en) Methods and systems for flexible and scalable databases
CN106462578A (zh) 数据库条目查询和更新的方法
US11200223B2 (en) System and method for dependency analysis in a multidimensional database environment
CN111367989B (zh) 一种实时数据指标计算系统和方法
EP2166496A1 (en) Method, system, and computer for analytical reporting and archiving of data
US11803865B2 (en) Graph based processing of multidimensional hierarchical data
JP7202442B2 (ja) 多次元データベース環境における仮想キューブでのリアルタイムデータ集約のためのシステムおよび方法
CN108897686A (zh) 全分录自动化测试方法和装置
CN110266555A (zh) 用于分析网站服务请求的方法
CN111260452B (zh) 一种税务大数据模型的构建方法及系统
CN111723129A (zh) 报表生成方法、报表生成装置和电子设备
Goda et al. 4mbench: Performance Benchmark of Manufacturing Business Database
CN106844056A (zh) Hadoop大数据平台多租户作业管理方法及其系统
CN117893235A (zh) 数据分析方法、装置、计算机设备和存储介质
Bouchelouche Real-Time Business Intelligence
CN105843688A (zh) 一种企业门户系统的集成方法及装置
CN115422199A (zh) 多维统计数据的处理方法、装置及计算机设备
Alobaidi et al. Benchmarking criteria for a cloud data warehouse

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant