CN113076317B - 基于大数据的数据处理方法、装置、设备及可读存储介质 - Google Patents

基于大数据的数据处理方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113076317B
CN113076317B CN202110380430.0A CN202110380430A CN113076317B CN 113076317 B CN113076317 B CN 113076317B CN 202110380430 A CN202110380430 A CN 202110380430A CN 113076317 B CN113076317 B CN 113076317B
Authority
CN
China
Prior art keywords
data
physical table
detail
component
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110380430.0A
Other languages
English (en)
Other versions
CN113076317A (zh
Inventor
周中和
陈婷
吴三平
王宗泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202110380430.0A priority Critical patent/CN113076317B/zh
Publication of CN113076317A publication Critical patent/CN113076317A/zh
Application granted granted Critical
Publication of CN113076317B publication Critical patent/CN113076317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的数据处理方法、装置、设备及计算机可读存储介质,述基于大数据的数据处理方法包括:在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表;获取选择的维度组件和指标组件,并获取所述维度组件对应的维度物理表,以及获取所述指标组件对应的指标物理表;将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据;基于所述明细数据,生成数据宽表,以基于所述数据宽表进行数据处理。本发明提高了数据处理效率,并提高了数据处理的灵活性。

Description

基于大数据的数据处理方法、装置、设备及可读存储介质
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种基于大数据的数据处理方法、装置、设备及计算机可读存储介质。
背景技术
随着金融科技及互联网技术的迅速发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域。目前,对业务数据进行处理的模型均为建立在数据结构稳定,以及维度和指标不易改变的场景下,例如Kimball(金博尔)维度模型、星型模型、雪花型模型等,这些模型通常采用维度表和事实表的方式对数据进行组织和管理,即一个事实对应一组维度表,以实现多维分析。
然而,随着大数据技术的普及,数据呈现爆炸式的增长,在一些数据分析应用场景下,维度和指标的口径定义会不断发生变化,导致现有模型显露出一系列的缺陷。例如,为实现多维分析,需将多种维度和指标进行组合以生成宽表,然后从宽表中排除无效的维度和指标,以使基于有效的维度和指标进行数据分析等数据处理操作,这过程需要耗费大量的数据开发工作,导致对数据进行挖掘、沉淀、呈现等数据处理操作效率过低。
综上所述,如何提高数据处理效率是目前亟需解决的问题。
发明内容
本发明的主要目的在于提供一种基于大数据的数据处理方法、装置、设备及计算机可读存储介质,旨在提高数据处理效率,并提高数据处理的灵活性。
为实现上述目的,本发明提供一种基于大数据的数据处理方法,所述基于大数据的数据处理方法包括以下步骤:
在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表;
获取选择的维度组件和指标组件,并获取所述维度组件对应的维度物理表,以及获取所述指标组件对应的指标物理表;
将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据;
基于所述明细数据,生成数据宽表,以基于所述数据宽表进行数据处理。
可选地,所述基于所述明细数据,生成数据宽表的步骤包括:
将所述明细数据按照维度进行分组,得到分组数据;或,
将所述明细数据按照指标进行分组,得到分组数据;
将所述分组数据插入到宽表的物理表中,得到数据宽表。
可选地,所述在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表的步骤之后,还包括:
将所述明细主键物理表的主键进行关联扩展,以使所述主键包含多个主键字段。
可选地,所述在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表的步骤之前,还包括:
获取第一字段定义,其中,所述第一字段定义为基于构建明细主键组件的业务需求,提取对应的业务明细表的字段得到,所述第一字段定义包括主键字段、维度字段、指标字段和日期分区字段;
基于所述第一字段定义,构建明细主键物理表;
基于所述第一字段定义及所述明细主键物理表,构建明细主键组件,以供基于所述明细主键组件与其他组件进行组合生成数据宽表。
可选地,所述基于所述第一字段定义,构建明细主键物理表的步骤之后,还包括:
在初始化时,获取第一口径代码,其中,所述第一口径代码为基于构建明细主键组件的业务需求确定的代码;
基于所述第一口径代码,生成所述明细主键物理表的数据;
其中,所述基于所述第一字段定义及所述明细主键物理表,构建明细主键组件的步骤包括:
基于所述第一字段定义、所述明细主键物理表及所述第一口径代码,构建明细主键组件。
可选地,所述在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表的步骤之前,还包括:
获取第二字段定义,其中,所述第二字段定义为基于构建维度组件的业务需求确定得到,所述第二字段定义包括主键字段、维度字段和日期分区字段;
基于所述第二字段定义,构建维度物理表;
基于所述第二字段定义及所述维度物理表,构建维度组件,以供基于所述维度组件与其他组件进行组合生成数据宽表。
可选地,所述基于所述第二字段定义,构建维度物理表的步骤之后,还包括:
在初始化时,获取第二口径代码,其中,所述第二口径代码为基于构建维度组件的业务需求确定的代码;
基于所述第二口径代码,生成所述维度物理表的数据;
其中,所述基于所述第二字段定义及所述维度物理表,构建维度组件的步骤包括:
基于所述第二字段定义、所述维度物理表及所述第二口径代码,构建维度组件。
可选地,所述基于所述第二口径代码,生成所述维度物理表的数据的步骤之后,还包括:
基于所述维度物理表的数据,统计所述维度物理表的枚举值总数和/或去重条数;和/或,
基于所述维度物理表的数据,确定所述维度物理表的枚举值在预设时间段内的变化情况;
基于所述枚举值总数和/或所述去重条数和/或所述变化情况,生成维度数据概览;
其中,所述基于所述第二字段定义及所述维度物理表,构建维度组件的步骤包括:
基于所述第二字段定义、所述维度物理表、所述第二口径代码及所述维度数据概览,构建维度组件。
可选地,所述在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表的步骤之前,还包括:
获取第三字段定义,其中,所述第三字段定义为基于构建指标组件的业务需求确定得到,所述第三字段定义包括主键字段和指标字段;
基于所述第三字段定义,构建指标物理表;
基于所述第三字段定义及所述指标物理表,构建指标组件,以供基于所述指标组件与其他组件进行组合生成数据宽表。
可选地,所述基于所述第三字段定义,构建指标物理表的步骤之后,还包括:
在初始化时,获取第三口径代码,其中,所述第三口径代码为基于构建指标组件的业务需求确定的代码;
基于所述第三口径代码,生成所述指标物理表的数据;
其中,所述基于所述第三字段定义及所述指标物理表,构建指标组件的步骤包括:
基于所述第三字段定义、所述指标物理表及所述第三口径代码,构建指标组件。
可选地,所述基于所述第三口径代码,生成所述指标物理表的数据的步骤之后,还包括:
将所述指标物理表的数据按照预设运算规则进行运算,得到运算值,其中,所述运算值包括最大值、最小值、平均值、中位数和众数中的至少一种;和/或,
基于所述指标物理表的数据,确定所述指标物理表的指标数据分布情况;
基于所述运算值和/或所述指标数据分布情况,生成指标数据概览;
其中,所述基于所述第三字段定义及所述指标物理表,构建指标组件的步骤包括:
基于所述第三字段定义、所述指标物理表、所述第三口径代码及所述指标数据概览,构建指标组件。
可选地,所述将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据的步骤之前,还包括:
将所述维度物理表和所述指标物理表按照预设个数进行分组,得到物理表组;
其中,所述将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据的步骤包括:
将所述明细主键物理表与所述物理表组的一组物理表进行左关联,并将左关联得到的数据保存至临时表;
将所述临时表与所述物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至所述临时表;
若所述物理表组中还存在未进行左关联的物理表,则返回将所述临时表与所述物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至所述临时表的步骤,直至所述物理表组中的物理表均已进行左关联;
若所述物理表组中的物理表均已进行左关联,则获取所述临时表的数据,并将所述临时表的数据作为明细数据。
可选地,所述基于所述明细数据,生成数据宽表的步骤之后,还包括:
基于所述数据宽表的数据,按照预设分析规则生成宽表数据概览。
此外,为实现上述目的,本发明还提供一种基于大数据的数据处理装置,所述基于大数据的数据处理装置包括:
第一获取模块,用于在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表;
第二获取模块,用于获取选择的维度组件和指标组件,并获取所述维度组件对应的维度物理表,以及获取所述指标组件对应的指标物理表;
关联模块,用于将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据;
生成模块,用于基于所述明细数据,生成数据宽表,以基于所述数据宽表进行数据处理。
此外,为实现上述目的,本发明还提供一种基于大数据的数据处理设备,所述基于大数据的数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大数据的数据处理程序,所述基于大数据的数据处理程序被所述处理器执行时实现如上所述的基于大数据的数据处理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于大数据的数据处理程序,所述基于大数据的数据处理程序被处理器执行时实现如上所述的基于大数据的数据处理方法的步骤。
本发明提供一种基于大数据的数据处理方法、装置、设备及计算机可读存储介质,在检测到包含数据主体的明细主键组件被选择时,获取明细主键组件对应的明细主键物理表;获取选择的维度组件和指标组件,并获取维度组件对应的维度物理表,以及获取指标组件对应的指标物理表;将明细主键物理表与维度物理表进行左关联,以及将明细主键物理表与指标物理表进行左关联,生成明细数据;基于明细数据,生成数据宽表,以基于数据宽表进行数据处理。通过上述方式,用户可根据业务需求,灵活选择明细主键组件,并灵活选择进行关联的维度组件和指标组件,可提高数据处理的灵活性。同时,在选择完明细主键组件、维度组件和指标组件之后,可自动将多种维度和指标进行组合生成数据宽表,以使基于该数据宽表快速进行数据处理操作。综上所述,本发明提高了数据处理效率,并提高了数据处理的灵活性。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明基于大数据的数据处理方法第一实施例的流程示意图;
图3为本发明实施例涉及的第一交互示意图;
图4为本发明实施例涉及的第二交互示意图;
图5为本发明实施例涉及的第三交互示意图;
图6为本发明实施例涉及的口径代码示意图;
图7为本发明基于大数据的数据处理方法第四实施例的流程示意图;
图8为本发明实施例涉及的字段定义示意图;
图9为本发明实施例涉及的第一数据概览示意图;
图10为本发明实施例涉及的第二数据概览示意图;
图11为本发明基于大数据的数据处理装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端为基于大数据的数据处理设备,该基于大数据的数据处理设备可以为PC(personal computer,个人计算机)、微型计算机、笔记本电脑、服务器等具有处理功能的终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU(Central Processing Unit,中央处理器),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于大数据的数据处理程序。
在图1所示的终端中,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,并执行以下操作:
在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表;
获取选择的维度组件和指标组件,并获取所述维度组件对应的维度物理表,以及获取所述指标组件对应的指标物理表;
将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据;
基于所述明细数据,生成数据宽表,以基于所述数据宽表进行数据处理。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
将所述明细数据按照维度进行分组,得到分组数据;或,
将所述明细数据按照指标进行分组,得到分组数据;
将所述分组数据插入到宽表的物理表中,得到数据宽表。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
将所述明细主键物理表的主键进行关联扩展,以使所述主键包含多个主键字段。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
获取第一字段定义,其中,所述第一字段定义为基于构建明细主键组件的业务需求,提取对应的业务明细表的字段得到,所述第一字段定义包括主键字段、维度字段、指标字段和日期分区字段;
基于所述第一字段定义,构建明细主键物理表;
基于所述第一字段定义及所述明细主键物理表,构建明细主键组件,以供基于所述明细主键组件与其他组件进行组合生成数据宽表。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
在初始化时,获取第一口径代码,其中,所述第一口径代码为基于构建明细主键组件的业务需求确定的代码;
基于所述第一口径代码,生成所述明细主键物理表的数据;
其中,所述基于所述第一字段定义及所述明细主键物理表,构建明细主键组件的步骤包括:
基于所述第一字段定义、所述明细主键物理表及所述第一口径代码,构建明细主键组件。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
获取第二字段定义,其中,所述第二字段定义为基于构建维度组件的业务需求确定得到,所述第二字段定义包括主键字段、维度字段和日期分区字段;
基于所述第二字段定义,构建维度物理表;
基于所述第二字段定义及所述维度物理表,构建维度组件,以供基于所述维度组件与其他组件进行组合生成数据宽表。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
在初始化时,获取第二口径代码,其中,所述第二口径代码为基于构建维度组件的业务需求确定的代码;
基于所述第二口径代码,生成所述维度物理表的数据;
其中,所述基于所述第二字段定义及所述维度物理表,构建维度组件的步骤包括:
基于所述第二字段定义、所述维度物理表及所述第二口径代码,构建维度组件。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
基于所述维度物理表的数据,统计所述维度物理表的枚举值总数和/或去重条数;和/或,
基于所述维度物理表的数据,确定所述维度物理表的枚举值在预设时间段内的变化情况;
基于所述枚举值总数和/或所述去重条数和/或所述变化情况,生成维度数据概览;
其中,所述基于所述第二字段定义及所述维度物理表,构建维度组件的步骤包括:
基于所述第二字段定义、所述维度物理表、所述第二口径代码及所述维度数据概览,构建维度组件。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
获取第三字段定义,其中,所述第三字段定义为基于构建指标组件的业务需求确定得到,所述第三字段定义包括主键字段和指标字段;
基于所述第三字段定义,构建指标物理表;
基于所述第三字段定义及所述指标物理表,构建指标组件,以供基于所述指标组件与其他组件进行组合生成数据宽表。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
在初始化时,获取第三口径代码,其中,所述第三口径代码为基于构建指标组件的业务需求确定的代码;
基于所述第三口径代码,生成所述指标物理表的数据;
其中,所述基于所述第三字段定义及所述指标物理表,构建指标组件的步骤包括:
基于所述第三字段定义、所述指标物理表及所述第三口径代码,构建指标组件。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
将所述指标物理表的数据按照预设运算规则进行运算,得到运算值,其中,所述运算值包括最大值、最小值、平均值、中位数和众数中的至少一种;和/或,
基于所述指标物理表的数据,确定所述指标物理表的指标数据分布情况;
基于所述运算值和/或所述指标数据分布情况,生成指标数据概览;
其中,所述基于所述第三字段定义及所述指标物理表,构建指标组件的步骤包括:
基于所述第三字段定义、所述指标物理表、所述第三口径代码及所述指标数据概览,构建指标组件。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
将所述维度物理表和所述指标物理表按照预设个数进行分组,得到物理表组;
其中,所述将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据的步骤包括:
将所述明细主键物理表与所述物理表组的一组物理表进行左关联,并将左关联得到的数据保存至临时表;
将所述临时表与所述物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至所述临时表;
若所述物理表组中还存在未进行左关联的物理表,则返回将所述临时表与所述物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至所述临时表的步骤,直至所述物理表组中的物理表均已进行左关联;
若所述物理表组中的物理表均已进行左关联,则获取所述临时表的数据,并将所述临时表的数据作为明细数据。
进一步地,处理器1001可以用于调用存储器1005中存储的基于大数据的数据处理程序,还执行以下操作:
基于所述数据宽表的数据,按照预设分析规则生成宽表数据概览。
基于上述硬件结构,提出本发明基于大数据的数据处理方法各个实施例。
本发明提供一种基于大数据的数据处理方法。
参照图2,图2为本发明基于大数据的数据处理方法第一实施例的流程示意图。
在本实施例中,该基于大数据的数据处理方法包括以下步骤S10-S40:
步骤S10,在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表;
在本实施例中,基于已经配置完成的明细主键组件、维度组件和指标组件等数据组件之后,用户可通过页面选择明细主键组件,参考图3,图3为本发明实施例涉及的第一交互示意图,用户可基于图3中的页面选择进入活动的明细主键组件。对于服务器端或后端等处理端而言,在检测到包含数据主体的明细主键组件被选择时,获取明细主键组件对应的明细主键物理表,以使后续基于该明细主键物理表与其他物理表进行左关联,生成宽表。
其中,明细主键组件为表示业务需求的主体明细,即数据主体为当前业务需求的主体明细数据。该明细主键组件包括明细主键物理表、字段定义、口径代码、数据概览、组件名称、组件描述等。该字段定义用于说明明细主键组件包含的字段,该字段包含主键字段,还可能包含维度字段、指标字段、日期分区字段等。口径代码是可执行的代码,会在初始化的过程中用于生成真实的组件数据,例如在每日固定时间初始化,并基于该口径代码生成真实的数据,并插入到明细主键物理表。该数据概览为在明细主键物理表中数据插入后,计算其时序数据、直方数据、最大最小值数据、平均值数据、异常值比率等数据。该组件名称用于标识明细主键组件,例如有效开通人数、是否用券借款等。组件描述用于描述明细主键组件的口径定义。此外,口径代码中包括DataCheck(日期检查)语句,该DataCheck语句用于每日跑批中,触发开始生成数据的条件。
其中,明细主键物理表作为数据承载的数据表,该明细主键物理表包含字段及其数据,该明细主键物理表在明细主键组件的字段定义完成时便建立,并且每次初始化时基于明细主键组件的口径定义生成数据,以插入该明细主键物理表。为便于理解,例如,该明细主键物理表为数据库中的数据库表。可以理解,若明细主键物理表已创建完成,则无需再创建,若明细主键物理表未创建,则在添加数据前先创建明细主键物理表。
需要说明的是,可选择的明细主键组件包含多个,不同的明细主键组件对应不同的业务场景,即对应不同的业务需求。该明细主键组件在数据分析中,映射的是业务场景的主体明细,因此,通常先选择明细主键组件。例如,分析客户还款留存,明细主键组件中字段定义的明细主键就是客户。
此外,还需要说明的是,明细主键组件可用于后续的组合以生成宽表,也可以单独使用,即该明细主键组件将业务数据封装成了一个个的独立组件,由于该明细主键组件采用的是标准化、颗粒化、共享化的方式进行构建和管理,因此,该明细主键组件可单独进行使用,单独实现业务需求,从而提高明细主键组件的使用灵活性。具体的,可将维度组件和指标组件的物理表嵌入到sql语句中,以单独进行使用。
在一实施例中,本发明实施例可基于B/S(Browser/Server,浏览器/服务器模式)架构进行开发,后台可采用python编程语言进行开发,即对业务逻辑进行封装及处理,与数据库或存储数据的数据仓库进行交互的脚本可使用hive_sql,此外,还可采用shell脚本执行相关命令,以及采用azkaban(批量工作流任务调度器)进行任务调度,并且基于hadoop数据平台进行开发。在其他实施方式中,还可以基于C/S(客户端/服务器模式)架构进行开发,后台也可以采用Java、C++、scala等编程语言进行开发,也就是说上述编程语言、脚本语言、系统架构等均可根据实际情况进行选择,此处不作限定。
步骤S20,获取选择的维度组件和指标组件,并获取所述维度组件对应的维度物理表,以及获取所述指标组件对应的指标物理表;
在本实施例中,在明细主键组件选择之后,基于已经配置完成的维度组件和指标组件,用户可通过页面选择维度组件,参考图4,图4为本发明实施例涉及的第二交互示意图,用户可基于图4中的页面选择是否经营贷、借款风险等级、社交分分段、是否延期的维度组件,以及用户可通过页面选择指标组件,参考图5,图5为本发明实施例涉及的第三交互示意图,用户可基于图5中的页面选择首次开通人数、未申请人数、贷款金额、授信额度的指标组件。对于服务器端或后端等处理端而言,获取选择的维度组件和指标组件,并获取维度组件对应的维度物理表,以及获取指标组件对应的指标物理表,以使后续基于明细主键物理表与该维度物理表和该指标物理表进行左关联,生成宽表。
其中,维度组件为表示业务需求的某种特征,例如性别、年龄、地区、时间等。该维度组件包括维度物理表、字段定义、口径代码、数据概览、组件名称、组件描述等。该字段定义用于说明维度组件包含的字段,该字段包含主键字段、维度字段、日期分区字段等。口径代码是可执行的代码,会在初始化的过程中用于生成真实的组件数据,例如在每日固定时间初始化,并基于该口径代码生成真实的数据,并插入到维度物理表。该数据概览为在维度物理表中数据插入后,计算其时序数据、直方数据、最大最小值数据、平均值数据、异常值比率等数据。该组件名称用于标识维度组件,例如是否经营贷、借款风险等级、社交分分段、是否延期等。组件描述用于描述维度组件的口径定义。此外,口径代码中包括DataCheck(日期检查)语句,参考图6,图6为本发明实施例涉及的口径代码示意图,该DataCheck语句用于每日跑批中,触发开始生成数据的条件。
其中,指标组件为表示发展程度的单位或方法,例如收入、利润率、留存率、覆盖率等。该指标组件包括指标物理表、字段定义、口径代码、数据概览、组件名称、组件描述等。该字段定义用于说明指标组件包含的字段,该字段包含主键字段、指标字段等。口径代码是可执行的代码,会在初始化的过程中用于生成真实的组件数据,例如在每日固定时间初始化,并基于该口径代码生成真实的数据,并插入到指标物理表。该数据概览为在指标物理表中数据插入后,计算其时序数据、直方数据、最大最小值数据、平均值数据、异常值比率等数据。该组件名称用于标识指标组件,例如首次开通人数、未申请人数等。组件描述用于描述指标组件的口径定义,例如用自然语言的方式描述数据口径的规格。此外,口径代码中包括DataCheck(日期检查)语句,该DataCheck语句用于每日跑批中,触发开始生成数据的条件。
其中,维度物理表作为数据承载的数据表,该维度物理表包含字段及其数据,该维度物理表在维度组件的字段定义完成时便建立,并且每次初始化时基于维度组件的口径定义生成数据,以插入该维度物理表。为便于理解,例如,该维度物理表为数据库中的数据库表。可以理解,若维度物理表已创建完成,则无需再创建,若维度物理表未创建,则在添加数据前先创建维度物理表。
其中,指标物理表作为数据承载的数据表,该指标物理表包含字段及其数据,该指标物理表在指标组件的字段定义完成时便建立,并且每次初始化时基于指标组件的口径定义生成数据,以插入该指标物理表。为便于理解,例如,该指标物理表为数据库中的数据库表。可以理解,若指标物理表已创建完成,则无需再创建,若指标物理表未创建,则在添加数据前先创建指标物理表。
需要说明的是,可选择的维度组件包含多个,不同的维度组件对应不同的业务场景,即对应不同的业务需求。在选择一个明细主键组件之后,可对应选择一个或多个维度组件。相应的,可选择的指标组件包含多个,不同的指标组件对应不同的业务场景,即对应不同的业务需求。在选择一个明细主键组件之后,可对应选择一个或多个指标组件。
此外,还需要说明的是,维度组件和指标组件可用于后续的组合以生成宽表,也可以单独使用,即该维度组件将业务数据封装成了一个个的独立组件,由于该维度组件采用的是标准化、颗粒化、共享化的方式进行构建和管理,因此,该维度组件可单独进行使用,单独实现业务需求,从而提高维度组件的使用灵活性。相应的,该指标组件将业务数据封装成了一个个的独立组件,由于该指标组件采用的是标准化、颗粒化、共享化的方式进行构建和管理,因此,该指标组件可单独进行使用,单独实现业务需求,从而提高指标组件的使用灵活性。具体的,可将维度组件和指标组件的物理表嵌入到sql语句中,以单独进行使用。
步骤S30,将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据;
在明细主键物理表、维度物理表、指标物理表均获取得到之后,将明细主键物理表与维度物理表进行左关联,以及将明细主键物理表与指标物理表进行左关联,生成明细数据。其中,明细数据为进行关联之后得到的数据之和。
其中,左关联用于将明细主键物理表分别与维度物理表和指标物理表进行关联,即返回的明细数据为明细主键物理表所有记录、维度物理表中联结字段相等的记录和指标物理表中联结字段相等的记录。例如,sql语句中的“select*from A left join B on A.id=B.id”,其中,A为明细主键物理表的表名,B为维度物理表或指标物理表的表名,A.id为明细主键物理表的主键、B.id为维度物理表或指标物理表的主键。
可以理解,也可以使用右关联将明细主键物理表与维度物理表和指标物理表进行关联,即将明细主键物理表与维度物理表和指标物理表的顺序进行对换。或者是等值关联,即根据实际需要将需要的数据进行关联。
需要说明的是,明细主键物理表为一个,而维度物理表可包括多个,即该明细主键物理表可关联1个或多个维度物理表。相应的,指标物理表可包括多个,即该明细主键物理表可关联1个或多个指标物理表。
步骤S40,基于所述明细数据,生成数据宽表,以基于所述数据宽表进行数据处理。
在明细数据生成之后,基于该明细数据,生成数据宽表,以基于该数据宽表进行数据处理。具体的,将该明细数据插入到数据宽表中,以使数据宽表存在庞大的数据,后续可基于该数据宽表中的数据,进行一系列公式、预设规则等的处理,生成数据概览,或者进行其他数据分析等数据处理操作。
其中,该数据宽表包含比较多的字段,也就是包含跟业务主题相关的主键、明细、维度、指标、属性等,具体的,该数据宽表为将主键、明细、维度、指标、属性等关联在一起的一张数据库表。
可以理解,宽表由于把不同的内容都放在同一张表存储,宽表已经不符合三范式的模型设计规范,随之带来的好处就是提高查询性能及便捷性,可以大大提高数据处理中迭代计算的效率。
需要说明的是,一个数据宽表可以由一个明细主键组件、多个维度组件和多个指标组件组合构成。例如,由一个主键为白名单客户的明细主键组件、一个年龄维度组件、一个学历维度组件、一个授信额度指标组件、一个欠款金额指标组件组合构建数据宽表,该数据宽表可用于研究白名单客户的年龄、学历对应的授信和欠款相关的信息。
本发明实施例提供一种基于大数据的数据处理方法,在检测到包含数据主体的明细主键组件被选择时,获取明细主键组件对应的明细主键物理表;获取选择的维度组件和指标组件,并获取维度组件对应的维度物理表,以及获取指标组件对应的指标物理表;将明细主键物理表与维度物理表进行左关联,以及将明细主键物理表与指标物理表进行左关联,生成明细数据;基于明细数据,生成数据宽表,以基于数据宽表进行数据处理。通过上述方式,用户可根据业务需求,灵活选择明细主键组件,并灵活选择进行关联的维度组件和指标组件,可提高数据处理的灵活性。同时,在选择完明细主键组件、维度组件和指标组件之后,可自动将多种维度和指标进行组合生成数据宽表,以使基于该数据宽表快速进行数据处理操作。综上所述,本发明实施例提高了数据处理效率,并提高了数据处理的灵活性。
进一步地,基于上述第一实施例,提出本发明基于大数据的数据处理方法的第二实施例。
在本实施例中,上述步骤S40包括以下步骤a41-a43:
步骤a41,将所述明细数据按照维度进行分组,得到分组数据;或,
步骤a42,将所述明细数据按照指标进行分组,得到分组数据;
步骤a43,将所述分组数据插入到宽表的物理表中,得到数据宽表。
在一实施例中,可以将关联得到的明细数据按照维度进行分组,得到分组数据,然后,将该分组数据插入到宽表的物理表中,得到数据宽表。在另一实施例中,可以将关联得到的明细数据按照指标进行分组,得到分组数据,然后,将该分组数据插入到宽表的物理表中,得到数据宽表。
需要说明的是,关联得到的明细数据包括维度字段和/或指标字段,因此,可根据维度字段或指标字段对明细数据进行分组。例如,根据性别字段进行分组,将明细数据中男生的数据与女生的数据进行区分,以在宽表的物理表中依次显示男生的数据和女生的数据,或者,依次显示女生的数据和男生的数据。
此外,还需要说明的是,宽表的物理表作为数据承载的数据表,该宽表的物理表包含字段,即在明细数据生成后,该宽表的物理表便根据明细数据的字段进行构建,以供后续将分组数据插入该宽表的物理表,生成数据宽表,即该数据宽表包括字段和数据。可以理解,若宽表的物理表已构建完成,则无需再构建,若宽表的物理表未构建,则在插入数据前先基于明细数据的字段创建宽表的物理表。
本实施例中,将关联得到的明细数据进行分组,并将分组后的分组数据插入至数据宽表中,以提高数据宽表的可视化水平。同时,数据宽表中的数据分组后,在后续分组查询时,可提高分组查询效率,从而进一步提高了数据处理的效率。
进一步地,基于上述第一实施例,提出本发明基于大数据的数据处理方法的第三实施例。
在本实施例中,在上述步骤S10之后,该基于大数据的数据处理方法还包括:
步骤A,将所述明细主键物理表的主键进行关联扩展,以使所述主键包含多个主键字段。
在本实施例中,为使后续尽可能兼容更多的维度和指标,即与更多的维度物理表和指标物理表进行关联,将明细主键物理表的主键进行关联扩展,以使该主键包含多个主键字段。
其中,关联扩展后的主键为联合主键,也就是说通过多个主键字段唯一确定一行数据。当然,该明细主键物理表在之前构建时,其主键就可以为联合组件,此时,可进一步进行关联扩展,以使主键包含更丰富的主键字段。
例如,明细主键物理表的原本主键字段为用户id(identification,身份标识),基于该用户id可扩展得到相应的账户id和产品号等。具体的,可根据实际需要,设定预设规则,以基于原主键字段生成关联的主键字段,从而实现多个主键字段。
本实施例中,将明细主键物理表的主键进行关联扩展,可使主键包含多个主键字段,以使后续与更多的维度物理表和指标物理表进行关联,从而可实现更多维度和更多指标的数据分析场景,提高了数据处理的丰富性,并且后续关联生成的数据宽表的数据更加庞大,从而进一步提高数据处理的效率。
进一步地,基于上述第一实施例,提出本发明基于大数据的数据处理方法的第四实施例。
参照图7,图7为本发明基于大数据的数据处理方法第四实施例的流程示意图。
在本实施例中,在上述步骤S10之前,该基于大数据的数据处理方法还包括:
步骤S50,获取第一字段定义,其中,所述第一字段定义为基于构建明细主键组件的业务需求,提取对应的业务明细表的字段得到,所述第一字段定义包括主键字段、维度字段、指标字段和日期分区字段;
首先,基于构建明细主键组件的业务需求,选择对应的已经存在的业务明细表,该业务明细表可为已存在的数据模型中的业务明细表,也可以为人工进行填充的业务明细表,然后,提取该业务明细表中的相关字段,作为构建的明细主键组件的主键、维度、指标、日期分区等字段。对于本发明实施例的处理端而言,获取第一字段定义,其中,该第一字段定义为基于构建明细主键组件的业务需求,提取对应的业务明细表的字段得到,该第一字段定义包括主键字段、维度字段、指标字段和日期分区字段。
需要说明的是,第一字段定义用于将明细主键组件所包含的字段及其定义展示给数据分析师,以使数据分析师清楚所需处理的字段。该第一字段定义还用于生成明细主键组件的明细主键物理表。
为便于理解,参考图8,图8为本发明实施例涉及的字段定义示意图,字段定义包括字段名、字段类型、字段描述、关联定义。其中,图8中包括编辑和删除按钮,以供用户对字段定义中的字段进行处理。此外,图8中第一个字段为主键字段,第二个字段和第三个字段为日期分区字段,后续字段为维度字段和指标字段。
其中,业务明细表为根据构建明细主键组件的业务需求确定得到的,例如,构建明细主键组件的业务需求为分析客户还款留存,则业务明细表为客户相关的数据表。
其中,主键字段用于唯一标识一个主体,例如,该主键字段用于唯一标识明细主键物理表的一行数据,该主键字段可以包括一个或多个。维度字段用于表示维度信息,一个维度包括一个字段。该指标字段用于表示指标信息,一个指标包括一个字段。日期分区字段用于两张物理表进行关联时,根据该日期分区字段规定的日期关联相关的数据,即筛选出规定日期内的数据。
此外,还需要说明的是,主键字段、维度字段通常为String(字符串)的数据类型,而指标字段通常为bigint(大整型)、double(双浮点型)等数值型的数据类型。
步骤S60,基于所述第一字段定义,构建明细主键物理表;
在本实施例中,当第一字段定义获取得到后,基于该第一字段定义构建明细主键物理表,即该明细主键物理表包括第一字段定义的字段。
需要说明的是,明细主键物理表作为数据承载的数据表,该明细主键物理表包含第一字段定义的字段,在后续初始化时基于明细主键组件的口径定义生成数据,以插入该明细主键物理表。可以理解,若明细主键物理表已创建完成,则无需再创建。
步骤S70,基于所述第一字段定义及所述明细主键物理表,构建明细主键组件,以供基于所述明细主键组件与其他组件进行组合生成数据宽表。
在本实施例中,基于第一字段定义及明细主键物理表,构建明细主键组件,以供基于该明细主键组件与其他组件进行组合生成数据宽表。
其中,明细主键组件为表示业务需求的主体明细。该明细主键组件包括明细主键物理表、字段定义、数据概览、组件名称、组件描述等,当然还包括生成明细主键物理表的真实数据的口径代码。该数据概览为在明细主键物理表中数据插入后,计算其时序数据、直方数据、最大最小值数据、平均值数据、异常值比率等数据。该组件名称用于标识明细主键组件,例如有效开通人数、是否用券借款等。组件描述用于描述明细主键组件的口径定义。
需要说明的是,明细主键物理表为将业务场景数据按照业务特性进行划分得到,每个业务特征定义为一个组件,每个组件都有一个独立的物理表与之对应。该明细主键组件之间相互隔离,同时又可以和其他维度组件和指标组件自由组合,形成新的业务语义,即数据分析师可自主定义数据分析规则。
进一步地,上述步骤S60之后,本发明基于大数据的数据处理方法还包括:
步骤B,在初始化时,获取第一口径代码,其中,所述第一口径代码为基于构建明细主键组件的业务需求确定的代码;
在本实施例中,在明细主键物理表构建完成之后,并且在初始化时,获取第一口径代码,该第一口径代码为基于构建明细主键组件的业务需求确定的代码。其中,明细主键物理表和第一口径代码应属于同一个明细主键组件。
需要说明的是,第一口径代码是可执行的代码,会在初始化的过程中用于生成真实的明细主键组件数据。可以理解,不同的业务逻辑,对应的第一口径代码不一样,即该第一口径代码是基于构建明细主键组件的业务需求确定的代码。
在一实施例中,口径代码中包括DataCheck(日期检查)语句,该DataCheck语句用于每日跑批中,触发开始生成数据的条件,即开始初始化。在其他实施方式中,初始化的时间可以为固定时间,或者由用户进行触发,此处不作限定。
步骤C,基于所述第一口径代码,生成所述明细主键物理表的数据;
在本实施例中,基于该第一口径代码,生成该明细主键物理表的数据。即将数据插入至该明细主键物理表,以生成明细主键物理表的真实数据。
相应的,上述步骤S70包括:
步骤a71,基于所述第一字段定义、所述明细主键物理表及所述第一口径代码,构建明细主键组件。
在本实施例中,基于第一字段定义、明细主键物理表、第一口径代码,构建明细主键组件,以供基于该明细主键组件与其他组件进行组合生成数据宽表。
本实施例中,对明细主键组件进行构建,以便后续基于该明细主键组件进行数据组件化管理,也就是说数据组件化建模与数据组件化管理作为一个整体,不可分离。
进一步地,基于上述第一实施例,提出本发明基于大数据的数据处理方法的第五实施例。
在本实施例中,在上述步骤S10之前,该基于大数据的数据处理方法还包括:
步骤D,获取第二字段定义,其中,所述第二字段定义为基于构建维度组件的业务需求确定得到,所述第二字段定义包括主键字段、维度字段和日期分区字段;
首先,基于构建维度组件的业务需求,确定第二字段定义,作为构建的维度组件的主键、维度、日期分区等字段。对于本发明实施例的处理端而言,获取第二字段定义,其中,该第二字段定义为基于构建维度组件的业务需求确定得到,该第二字段定义包括主键字段、维度字段和日期分区字段。
需要说明的是,第二字段定义用于将维度组件所包含的字段及其定义展示给数据分析师,以使数据分析师清楚所需处理的字段。该第二字段定义还用于生成维度组件的维度物理表。
具体的,第二字段定义包括字段名、字段类型、字段描述、关联定义。其中,包括编辑和删除按钮,以供用户对字段定义中的字段进行处理。
其中,主键字段用于唯一标识一个主体,例如,该主键字段用于唯一标识维度物理表的一行数据。维度字段用于表示维度信息,一个维度包括一个字段。日期分区字段用于两张物理表进行关联时,根据该日期分区字段规定的日期关联相关的数据,即筛选出规定日期内的数据。
此外,还需要说明的是,主键字段、维度字段通常为String(字符串)的数据类型。
步骤E,基于所述第二字段定义,构建维度物理表;
在本实施例中,当第二字段定义获取得到后,基于该第二字段定义构建维度物理表,即该维度物理表包括第二字段定义的字段。
需要说明的是,维度物理表作为数据承载的数据表,该维度物理表包含第二字段定义的字段,在后续初始化时基于维度组件的口径定义生成数据,以插入该维度物理表。可以理解,若维度物理表已创建完成,则无需再创建。
步骤F,基于所述第二字段定义及所述维度物理表,构建维度组件,以供基于所述维度组件与其他组件进行组合生成数据宽表。
在本实施例中,基于第二字段定义及维度物理表,构建维度组件,以供基于该维度组件与其他组件进行组合生成数据宽表。
其中,该维度组件包括维度物理表、字段定义、数据概览、组件名称、组件描述等,当然还包括生成维度物理表的真实数据的口径代码。该数据概览为在维度物理表中数据插入后,计算其时序数据、直方数据、最大最小值数据、平均值数据、异常值比率等数据。该组件名称用于标识维度组件,例如是否经营贷、借款风险等级、社交分分段、是否延期等。组件描述用于描述维度组件的口径定义。
需要说明的是,维度物理表为将业务场景数据按照业务特性进行划分得到,每个业务特征定义为一个组件,每个组件都有一个独立的物理表与之对应。该维度组件之间相互隔离,同时又可以和其他数据组件自由组合,形成新的业务语义,即数据分析师可自主定义数据分析规则。
进一步地,上述步骤E之后,本发明基于大数据的数据处理方法还包括:
步骤G,在初始化时,获取第二口径代码,其中,所述第二口径代码为基于构建维度组件的业务需求确定的代码;
在本实施例中,在维度物理表构建完成之后,并且在初始化时,获取第二口径代码,该第二口径代码为基于构建维度组件的业务需求确定的代码。其中,维度物理表和第二口径代码应属于同一个明细主键组件。
需要说明的是,第二口径代码是可执行的代码,会在初始化的过程中用于生成真实的维度组件数据。可以理解,不同的业务逻辑,对应的第二口径代码不一样,即该第二口径代码是基于构建维度组件的业务需求确定的代码。
在一实施例中,口径代码中包括DataCheck(日期检查)语句,该DataCheck语句用于每日跑批中,触发开始生成数据的条件,即开始初始化。在其他实施方式中,初始化的时间可以为固定时间,或者由用户进行触发,此处不作限定。
步骤H,基于所述第二口径代码,生成所述维度物理表的数据;
在本实施例中,基于该第二口径代码,生成该维度物理表的数据。即将数据插入至该维度物理表,以生成维度物理表的真实数据。
相应的,上述步骤F包括:
步骤F1,基于所述第二字段定义、所述维度物理表及所述第二口径代码,构建维度组件。
在本实施例中,基于第二字段定义、维度物理表、第二口径代码,构建维度组件,以供基于该维度组件与其他组件进行组合生成数据宽表。
进一步地,上述步骤H之后,本发明基于大数据的数据处理方法还包括:
步骤I,基于所述维度物理表的数据,统计所述维度物理表的枚举值总数和/或去重条数;和/或,
在本实施例中,在生成维度物理表的数据之后,基于维度物理表的数据,统计该维度物理表的枚举值总数和/或去重条数,以供基于该枚举值总数和/或去重条数生成数据概览。
其中,枚举值总数为维度物理表的数据总数,即维度物理表的记录的数据行数。去重条数为去除掉重复的数据之后的数据行数。为便于理解,参考图9,图9为本发明实施例涉及的第一数据概览示意图。
步骤J,基于所述维度物理表的数据,确定所述维度物理表的枚举值在预设时间段内的变化情况;
在本实施例中,在生成维度物理表的数据之后,基于维度物理表的数据,确定维度物理表的枚举值在预设时间段内的变化情况,以供基于该变化情况生成数据概览。
其中,数据变化用于分析数据的稳定性,例如过大或过小的数据为有问题的数据。为便于理解,可参考图9。
步骤K,基于所述枚举值总数和/或所述去重条数和/或所述变化情况,生成维度数据概览;
最后,基于枚举值总数和/或去重条数和/或变化情况,生成维度数据概览。其中,若枚举值总数和去重条数不相同,则表示该数据有问题。
相应的,上述步骤F包括:
步骤F2,基于所述第二字段定义、所述维度物理表、所述第二口径代码及所述维度数据概览,构建维度组件。
在本实施例中,基于第二字段定义、维度物理表、第二口径代码、维度数据概览,构建维度组件,以供基于该维度组件与其他组件进行组合生成数据宽表。
本实施例中,对维度组件进行构建,以便后续基于该维度组件进行数据组件化管理,也就是说数据组件化建模与数据组件化管理作为一个整体,不可分离。同时,业务数据的维度作为单独的组件进行构建,相互之间的逻辑关系不存在交叉影响,降低了维护的风险,即只需要关注组件内部的口径逻辑,无需考虑兼容性等问题,从而进一步提高数据处理的便捷性和效率。此外,维度组件的口径采用标准化代码来展示,维度组件对应的物理表数据由标准化的代码执行后生效,数据分析师,可以通过口径展示了解数据口径的全貌,从而减少数据重复确认和测试工作,以及减少数据开发者与数据分析者之间的沟通,从而进一步提高数据处理的效率。
进一步地,基于上述第一实施例,提出本发明基于大数据的数据处理方法的第六实施例。
在本实施例中,在上述步骤S10之前,该基于大数据的数据处理方法还包括:
步骤L,获取第三字段定义,其中,所述第三字段定义为基于构建指标组件的业务需求确定得到,所述第三字段定义包括主键字段和指标字段;
首先,基于构建指标组件的业务需求,确定第三字段定义,作为构建的指标组件的主键、指标等字段。对于本发明实施例的处理端而言,获取第三字段定义,其中,该第三字段定义为基于构建指标组件的业务需求确定得到,该第三字段定义包括主键字段和指标字段。
需要说明的是,第三字段定义用于将指标组件所包含的字段及其定义展示给数据分析师,以使数据分析师清楚所需处理的字段。该第三字段定义还用于生成指标组件的指标物理表。
具体的,第三字段定义包括字段名、字段类型、字段描述、关联定义。其中,包括编辑和删除按钮,以供用户对字段定义中的字段进行处理。
其中,主键字段用于唯一标识一个主体,例如,该主键字段用于唯一标识指标物理表的一行数据。指标字段用于表示指标信息,一个指标包括一个字段。此外,还需要说明的是,主键字段、指标字段通常为bigint(大整型)、double(双浮点型)等数值型的数据类型。
步骤M,基于所述第三字段定义,构建指标物理表;
在本实施例中,当第三字段定义获取得到后,基于该第三字段定义构建指标物理表,即该指标物理表包括第三字段定义的字段。
需要说明的是,指标物理表作为数据承载的数据表,该指标物理表包含第三字段定义的字段,在后续初始化时基于指标组件的口径定义生成数据,以插入该指标物理表。可以理解,若指标物理表已创建完成,则无需再创建。
步骤N,基于所述第三字段定义及所述指标物理表,构建指标组件,以供基于所述指标组件与其他组件进行组合生成数据宽表。
在本实施例中,基于第三字段定义及指标物理表,构建指标组件,以供基于该指标组件与其他组件进行组合生成数据宽表。
其中,该指标组件包括指标物理表、字段定义、数据概览、组件名称、组件描述等,当然还包括生成指标物理表的真实数据的口径代码。该数据概览为在指标物理表中数据插入后,计算其时序数据、直方数据、最大最小值数据、平均值数据、异常值比率等数据。该组件名称用于标识指标组件,例如是首次开通人数、未申请人数、贷款金额、授信额度等。组件描述用于描述指标组件的口径定义。
需要说明的是,指标物理表为将业务场景数据按照业务特性进行划分得到,每个业务特征定义为一个组件,每个组件都有一个独立的物理表与之对应。该指标组件之间相互隔离,同时又可以和其他数据组件自由组合,形成新的业务语义,即数据分析师可自主定义数据分析规则。
进一步地,上述步骤M之后,本发明基于大数据的数据处理方法还包括:
步骤O,在初始化时,获取第三口径代码,其中,所述第三口径代码为基于构建指标组件的业务需求确定的代码;
在本实施例中,在指标物理表构建完成之后,并且在初始化时,获取第三口径代码,该第三口径代码为基于构建指标组件的业务需求确定的代码。其中,指标物理表和第三口径代码应属于同一个明细主键组件。
需要说明的是,第三口径代码是可执行的代码,会在初始化的过程中用于生成真实的指标组件数据。可以理解,不同的业务逻辑,对应的第三口径代码不一样,即该第三口径代码是基于构建指标组件的业务需求确定的代码。
在一实施例中,口径代码中包括DataCheck(日期检查)语句,该DataCheck语句用于每日跑批中,触发开始生成数据的条件,即开始初始化。在其他实施方式中,初始化的时间可以为固定时间,或者由用户进行触发,此处不作限定。
步骤P,基于所述第三口径代码,生成所述指标物理表的数据;
在本实施例中,基于该第三口径代码,生成该指标物理表的数据。即将数据插入至该指标物理表,以生成指标物理表的真实数据。
相应的,上述步骤N包括:
步骤N1,基于所述第三字段定义、所述指标物理表及所述第三口径代码,构建指标组件。
在本实施例中,基于第三字段定义、指标物理表、第三口径代码,构建指标组件,以供基于该指标组件与其他组件进行组合生成数据宽表。
进一步地,上述步骤P之后,本发明基于大数据的数据处理方法还包括:
步骤Q,将所述指标物理表的数据按照预设运算规则进行运算,得到运算值,其中,所述运算值包括最大值、最小值、平均值、中位数和众数中的至少一种;和/或,
在本实施例中,在生成指标物理表的数据之后,将该指标物理表的数据按照预设运算规则进行运算,得到运算值,其中,该运算值包括最大值、最小值、平均值、中位数和众数中的至少一种,以供基于该运算值生成数据概览。
其中,预设运算规则包括最大值运算规则、最小值运算规则、平均值运算规则、中位数运算规则、众数运算规则等。
步骤R,基于所述指标物理表的数据,确定所述指标物理表的指标数据分布情况;
在本实施例中,在生成指标物理表的数据之后,基于该指标物理表的数据,确定指标物理表的指标数据分布情况,以供基于该指标数据分布情况生成数据概览。
其中,指标数据分布情况用于分析数据的分布情况,例如过大或过小的数据为有问题的数据。为便于理解,可参考图10,图10为本发明实施例涉及的第二数据概览示意图。
步骤S,基于所述运算值和/或所述指标数据分布情况,生成指标数据概览;
最后,基于运算值和/或指标数据分布情况,生成指标数据概览。
相应的,上述步骤N包括:
步骤N2,基于所述第三字段定义、所述指标物理表、所述第三口径代码及所述指标数据概览,构建指标组件。
在本实施例中,基于第三字段定义、指标物理表、第三口径代码、指标数据概览,构建指标组件,以供基于该指标组件与其他组件进行组合生成数据宽表。
本实施例中,对指标组件进行构建,以便后续基于该指标组件进行数据组件化管理,也就是说数据组件化建模与数据组件化管理作为一个整体,不可分离。同时,业务数据的指标作为单独的组件进行构建,相互之间的逻辑关系不存在交叉影响,降低了维护的风险,即只需要关注组件内部的口径逻辑,无需考虑兼容性等问题,从而进一步提高数据处理的便捷性和效率。此外,指标组件的口径采用标准化代码来展示,指标组件对应的物理表数据由标准化的代码执行后生效,数据分析师,可以通过口径展示了解数据口径的全貌,从而减少数据重复确认和测试工作,以及减少数据开发者与数据分析者之间的沟通,从而进一步提高数据处理的效率。
进一步地,基于上述第一实施例,提出本发明基于大数据的数据处理方法的第七实施例。
在本实施例中,在上述步骤S30之前,该基于大数据的数据处理方法还包括:
步骤T,将所述维度物理表和所述指标物理表按照预设个数进行分组,得到物理表组;
在本实施例中,与明细主键物理表相关联的维度物理表和指标物理表通常包含多个,若维度物理表和指标物理表的总数量大于预设个数,则将维度物理表和指标物理表按照预设个数进行分组,得到物理表组,以基于分组的物理表组分别进行关联,若维度物理表和指标物理表的总数量小于或等于预设个数,则无需进行分组,直接将所有的物理表进行关联。
其中,预设个数可以根据实际情况进行设定,例如3个、4个等,此处不作限定。可以理解,该预设个数可以根据本发明实施例所处的大数据平台进行确定,以兼容不同规模大数据平台的处理能力。
相应的,上述步骤S30包括:
步骤a31,将所述明细主键物理表与所述物理表组的一组物理表进行左关联,并将左关联得到的数据保存至临时表;
在对维度物理表和指标物理表进行分组之后,将明细主键物理表与物理表组的一组物理表进行左关联,并将左关联得到的数据保存至临时表。其中,物理表组的一组物理表为分组后的任一组物理表,在首次进行关联之后,该一组物理表便不再进行关联。
其中,临时表作为数据承载的数据表,该临时表包含字段和数据,用于存储每次关联之后的数据。也就是说,首次关联任务只进行预设个数的组件关联,并将关联之后的数据保存至临时表。
步骤a32,将所述临时表与所述物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至所述临时表;
在首次关联之后,再一次进行关联任务,即将临时表与物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至临时表。其中,物理表组的另一组物理表为还未关联的一组物理表。
需要说明的是,再一次将关联的数据保存至临时表,即覆盖临时表原来的数据,以实时更新临时表。
步骤a33,若所述物理表组中还存在未进行左关联的物理表,则返回将所述临时表与所述物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至所述临时表的步骤,直至所述物理表组中的物理表均已进行左关联;
之后,判断物理表组中是否还存在未进行左关联的物理表,若物理表组中还存在未进行左关联的物理表,则返回将所述临时表与所述物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至所述临时表的步骤,即返回a32的步骤,直至物理表组中的物理表均已进行左关联。
步骤a34,若所述物理表组中的物理表均已进行左关联,则获取所述临时表的数据,并将所述临时表的数据作为明细数据。
在本实施例中,判断物理表组中是否还存在未进行左关联的物理表,若物理表组中的物理表均已进行左关联,则获取临时表的数据,并将临时表的数据作为明细数据,以供基于该明细数据生成数据宽表。
在本实施例中,采用分组关联的方式,将维度物理表和指标物理表按照预设个数进行分组,以使每个关联任务只进行预设个数的组件关联。从而将大任务分割为小任务,以兼顾不同规模数据处理能力的设备或平台,从而提高数据处理的适用性。
进一步地,基于上述第一实施例,提出本发明基于大数据的数据处理方法的第八实施例。
在本实施例中,在上述步骤S40之后,该基于大数据的数据处理方法还包括:
步骤U,基于所述数据宽表的数据,按照预设分析规则生成宽表数据概览。
在数据宽表生成之后,为便于数据分析师查看数据详情,基于数据宽表的数据,按照预设分析规则生成宽表数据概览,以供数据分析师查看数据详情并进行相关分析。
其中,预设规则可以为最大值运算规则、最小值运算规则、平均值运算规则、中位数运算规则、众数运算规则等运算规则,也可以为统计时序数据、直方数据、异常值比率等规则。也就是说,可以根据实际需要,设定预设规则,以实现相关数据分析目的。
本实施例中,宽表数据概览是基于数据宽表的数据,按照预设规则的计算得出,以使数据使用者可以通过宽表数据概览了解数据口径的全貌,从而减少口径沟通,以及减少数据重复确认和测试工作,从而进一步提高数据处理的效率。
本发明还提供一种基于大数据的数据处理装置。
参照图11,图11为本发明基于大数据的数据处理装置第一实施例的功能模块示意图。
在本实施例中,所述基于大数据的数据处理装置包括:
第一获取模块10,用于在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表;
第二获取模块20,用于获取选择的维度组件和指标组件,并获取所述维度组件对应的维度物理表,以及获取所述指标组件对应的指标物理表;
关联模块30,用于将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据;
生成模块40,用于基于所述明细数据,生成数据宽表,以基于所述数据宽表进行数据处理。
其中,上述基于大数据的数据处理装置的各虚拟功能模块存储于图1所示基于大数据的数据处理设备的存储器1005中,用于实现基于大数据的数据处理程序的所有功能;各模块被处理器1001执行时,可实现数据处理功能。
进一步地,所述生成模块40包括:
数据分组单元,用于将所述明细数据按照维度进行分组,得到分组数据;或,
数据分组单元,还用于将所述明细数据按照指标进行分组,得到分组数据;
数据插入单元,用于将所述分组数据插入到宽表的物理表中,得到数据宽表。
进一步地,所述基于大数据的数据处理装置还包括:
主键扩展模块,用于将所述明细主键物理表的主键进行关联扩展,以使所述主键包含多个主键字段。
进一步地,所述基于大数据的数据处理装置还包括:
字段获取模块,用于获取第一字段定义,其中,所述第一字段定义为基于构建明细主键组件的业务需求,提取对应的业务明细表的字段得到,所述第一字段定义包括主键字段、维度字段、指标字段和日期分区字段;
物理表构建模块,用于基于所述第一字段定义,构建明细主键物理表;
组件构建模块,用于基于所述第一字段定义及所述明细主键物理表,构建明细主键组件,以供基于所述明细主键组件与其他组件进行组合生成数据宽表。
进一步地,所述基于大数据的数据处理装置还包括:
代码获取模块,用于在初始化时,获取第一口径代码,其中,所述第一口径代码为基于构建明细主键组件的业务需求确定的代码;
数据生成模块,用于基于所述第一口径代码,生成所述明细主键物理表的数据;
其中,所述组件构建模块包括:
组件构建单元,用于基于所述第一字段定义、所述明细主键物理表及所述第一口径代码,构建明细主键组件。
进一步地,所述基于大数据的数据处理装置还包括:
字段获取模块,还用于获取第二字段定义,其中,所述第二字段定义为基于构建维度组件的业务需求确定得到,所述第二字段定义包括主键字段、维度字段和日期分区字段;
物理表构建模块,还用于基于所述第二字段定义,构建维度物理表;
组件构建模块,还用于基于所述第二字段定义及所述维度物理表,构建维度组件,以供基于所述维度组件与其他组件进行组合生成数据宽表。
进一步地,所述基于大数据的数据处理装置还包括:
代码获取模块,还用于在初始化时,获取第二口径代码,其中,所述第二口径代码为基于构建维度组件的业务需求确定的代码;
数据生成模块,还用于基于所述第二口径代码,生成所述维度物理表的数据;
其中,所述组件构建模块还包括:
组件构建单元,还用于基于所述第二字段定义、所述维度物理表及所述第二口径代码,构建维度组件。
进一步地,所述基于大数据的数据处理装置还包括:
统计模块,用于基于所述维度物理表的数据,统计所述维度物理表的枚举值总数和/或去重条数;和/或,
变化确定模块,用于基于所述维度物理表的数据,确定所述维度物理表的枚举值在预设时间段内的变化情况;
概览生成模块,用于基于所述枚举值总数和/或所述去重条数和/或所述变化情况,生成维度数据概览;
其中,所述组件构建模块还包括:
组件构建单元,还用于基于所述第二字段定义、所述维度物理表、所述第二口径代码及所述维度数据概览,构建维度组件。
进一步地,所述基于大数据的数据处理装置还包括:
字段获取模块,用于获取第三字段定义,其中,所述第三字段定义为基于构建指标组件的业务需求确定得到,所述第三字段定义包括主键字段和指标字段;
物理表构建模块,用于基于所述第三字段定义,构建指标物理表;
组件构建模块,用于基于所述第三字段定义及所述指标物理表,构建指标组件,以供基于所述指标组件与其他组件进行组合生成数据宽表。
进一步地,所述基于大数据的数据处理装置还包括:
代码获取模块,还用于在初始化时,获取第三口径代码,其中,所述第三口径代码为基于构建指标组件的业务需求确定的代码;
数据生成模块,还用于基于所述第三口径代码,生成所述指标物理表的数据;
其中,所述组件构建模块还包括:
组件构建单元,还用于基于所述第三字段定义、所述指标物理表及所述第三口径代码,构建指标组件。
进一步地,所述基于大数据的数据处理装置还包括:
运算模块,用于将所述指标物理表的数据按照预设运算规则进行运算,得到运算值,其中,所述运算值包括最大值、最小值、平均值、中位数和众数中的至少一种;和/或,
分布确定模块,用于基于所述指标物理表的数据,确定所述指标物理表的指标数据分布情况;
概览生成模块,还用于基于所述运算值和/或所述指标数据分布情况,生成指标数据概览;
其中,所述组件构建模块还包括:
组件构建单元,还用于基于所述第三字段定义、所述指标物理表、所述第三口径代码及所述指标数据概览,构建指标组件。
进一步地,所述基于大数据的数据处理装置还包括:
物理表分组模块,用于将所述维度物理表和所述指标物理表按照预设个数进行分组,得到物理表组;
其中,所述关联模块30包括:
第一关联单元,用于将所述明细主键物理表与所述物理表组的一组物理表进行左关联,并将左关联得到的数据保存至临时表;
第二关联单元,用于将所述临时表与所述物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至所述临时表;
第三关联单元,用于若所述物理表组中还存在未进行左关联的物理表,则返回将所述临时表与所述物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至所述临时表的步骤,直至所述物理表组中的物理表均已进行左关联;
数据获取单元,用于若所述物理表组中的物理表均已进行左关联,则获取所述临时表的数据,并将所述临时表的数据作为明细数据。
进一步地,所述基于大数据的数据处理装置还包括:
概览生成模块,还用于基于所述数据宽表的数据,按照预设分析规则生成宽表数据概览。
其中,上述基于大数据的数据处理装置中各个模块的功能实现与上述基于大数据的数据处理方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有基于大数据的数据处理程序,所述基于大数据的数据处理程序被处理器执行时实现如以上任一项实施例所述的基于大数据的数据处理方法的步骤。
本发明计算机可读存储介质的具体实施例与上述基于大数据的数据处理方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (14)

1.一种基于大数据的数据处理方法,其特征在于,所述基于大数据的数据处理方法包括以下步骤:
在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表;
获取选择的维度组件和指标组件,并获取所述维度组件对应的维度物理表,以及获取所述指标组件对应的指标物理表;
将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据;
基于所述明细数据,生成数据宽表,以基于所述数据宽表进行数据处理;
所述在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表的步骤之前,还包括:
获取第一字段定义,其中,所述第一字段定义为基于构建明细主键组件的业务需求,提取对应的业务明细表的字段得到,所述第一字段定义包括主键字段、维度字段、指标字段和日期分区字段;
基于所述第一字段定义,构建明细主键物理表;
在初始化时,获取第一口径代码,其中,所述第一口径代码为基于构建明细主键组件的业务需求确定的代码;
基于所述第一口径代码,生成所述明细主键物理表的数据;
基于所述第一字段定义、所述第一口径代码及所述明细主键物理表,构建明细主键组件,以供基于所述明细主键组件与其他组件进行组合生成数据宽表。
2.如权利要求1所述的基于大数据的数据处理方法,其特征在于,所述基于所述明细数据,生成数据宽表的步骤包括:
将所述明细数据按照维度进行分组,得到分组数据;或,
将所述明细数据按照指标进行分组,得到分组数据;
将所述分组数据插入到宽表的物理表中,得到数据宽表。
3.如权利要求1所述的基于大数据的数据处理方法,其特征在于,所述在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表的步骤之后,还包括:
将所述明细主键物理表的主键进行关联扩展,以使所述主键包含多个主键字段。
4.如权利要求1所述的基于大数据的数据处理方法,其特征在于,所述在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表的步骤之前,还包括:
获取第二字段定义,其中,所述第二字段定义为基于构建维度组件的业务需求确定得到,所述第二字段定义包括主键字段、维度字段和日期分区字段;
基于所述第二字段定义,构建维度物理表;
基于所述第二字段定义及所述维度物理表,构建维度组件,以供基于所述维度组件与其他组件进行组合生成数据宽表。
5.如权利要求4所述的基于大数据的数据处理方法,其特征在于,所述基于所述第二字段定义,构建维度物理表的步骤之后,还包括:
在初始化时,获取第二口径代码,其中,所述第二口径代码为基于构建维度组件的业务需求确定的代码;
基于所述第二口径代码,生成所述维度物理表的数据;
其中,所述基于所述第二字段定义及所述维度物理表,构建维度组件的步骤包括:
基于所述第二字段定义、所述维度物理表及所述第二口径代码,构建维度组件。
6.如权利要求5所述的基于大数据的数据处理方法,其特征在于,所述基于所述第二口径代码,生成所述维度物理表的数据的步骤之后,还包括:
基于所述维度物理表的数据,统计所述维度物理表的枚举值总数和/或去重条数;和/或,
基于所述维度物理表的数据,确定所述维度物理表的枚举值在预设时间段内的变化情况;
基于所述枚举值总数和/或所述去重条数和/或所述变化情况,生成维度数据概览;
其中,所述基于所述第二字段定义及所述维度物理表,构建维度组件的步骤包括:
基于所述第二字段定义、所述维度物理表、所述第二口径代码及所述维度数据概览,构建维度组件。
7.如权利要求1所述的基于大数据的数据处理方法,其特征在于,所述在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表的步骤之前,还包括:
获取第三字段定义,其中,所述第三字段定义为基于构建指标组件的业务需求确定得到,所述第三字段定义包括主键字段和指标字段;
基于所述第三字段定义,构建指标物理表;
基于所述第三字段定义及所述指标物理表,构建指标组件,以供基于所述指标组件与其他组件进行组合生成数据宽表。
8.如权利要求7所述的基于大数据的数据处理方法,其特征在于,所述基于所述第三字段定义,构建指标物理表的步骤之后,还包括:
在初始化时,获取第三口径代码,其中,所述第三口径代码为基于构建指标组件的业务需求确定的代码;
基于所述第三口径代码,生成所述指标物理表的数据;
其中,所述基于所述第三字段定义及所述指标物理表,构建指标组件的步骤包括:
基于所述第三字段定义、所述指标物理表及所述第三口径代码,构建指标组件。
9.如权利要求8所述的基于大数据的数据处理方法,其特征在于,所述基于所述第三口径代码,生成所述指标物理表的数据的步骤之后,还包括:
将所述指标物理表的数据按照预设运算规则进行运算,得到运算值,其中,所述运算值包括最大值、最小值、平均值、中位数和众数中的至少一种;和/或,
基于所述指标物理表的数据,确定所述指标物理表的指标数据分布情况;
基于所述运算值和/或所述指标数据分布情况,生成指标数据概览;
其中,所述基于所述第三字段定义及所述指标物理表,构建指标组件的步骤包括:
基于所述第三字段定义、所述指标物理表、所述第三口径代码及所述指标数据概览,构建指标组件。
10.如权利要求1至9任一项所述的基于大数据的数据处理方法,其特征在于,所述将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据的步骤之前,还包括:
将所述维度物理表和所述指标物理表按照预设个数进行分组,得到物理表组;
其中,所述将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据的步骤包括:
将所述明细主键物理表与所述物理表组的一组物理表进行左关联,并将左关联得到的数据保存至临时表;
将所述临时表与所述物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至所述临时表;
若所述物理表组中还存在未进行左关联的物理表,则返回将所述临时表与所述物理表组的另一组物理表进行左关联,并将左关联得到的数据保存至所述临时表的步骤,直至所述物理表组中的物理表均已进行左关联;
若所述物理表组中的物理表均已进行左关联,则获取所述临时表的数据,并将所述临时表的数据作为明细数据。
11.如权利要求1至9任一项所述的基于大数据的数据处理方法,其特征在于,所述基于所述明细数据,生成数据宽表的步骤之后,还包括:
基于所述数据宽表的数据,按照预设分析规则生成宽表数据概览。
12.一种基于大数据的数据处理装置,其特征在于,所述基于大数据的数据处理装置包括:
第一获取模块,用于在检测到包含数据主体的明细主键组件被选择时,获取所述明细主键组件对应的明细主键物理表;
第二获取模块,用于获取选择的维度组件和指标组件,并获取所述维度组件对应的维度物理表,以及获取所述指标组件对应的指标物理表;
关联模块,用于将所述明细主键物理表与所述维度物理表进行左关联,以及将所述明细主键物理表与所述指标物理表进行左关联,生成明细数据;
生成模块,用于基于所述明细数据,生成数据宽表,以基于所述数据宽表进行数据处理;
字段获取模块,用于获取第一字段定义,其中,所述第一字段定义为基于构建明细主键组件的业务需求,提取对应的业务明细表的字段得到,所述第一字段定义包括主键字段、维度字段、指标字段和日期分区字段;
物理表构建模块,用于基于所述第一字段定义,构建明细主键物理表;
组件构建模块,用于基于所述第一字段定义及所述明细主键物理表,构建明细主键组件,以供基于所述明细主键组件与其他组件进行组合生成数据宽表;
代码获取模块,用于在初始化时,获取第一口径代码,其中,所述第一口径代码为基于构建明细主键组件的业务需求确定的代码;
数据生成模块,用于基于所述第一口径代码,生成所述明细主键物理表的数据;
所述组件构建模块包括:
组件构建单元,用于基于所述第一字段定义、所述明细主键物理表及所述第一口径代码,构建明细主键组件。
13.一种基于大数据的数据处理设备,其特征在于,所述基于大数据的数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大数据的数据处理程序,所述基于大数据的数据处理程序被所述处理器执行时实现如权利要求1至11中任一项所述的基于大数据的数据处理方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于大数据的数据处理程序,所述基于大数据的数据处理程序被处理器执行时实现如权利要求1至11中任一项所述的基于大数据的数据处理方法的步骤。
CN202110380430.0A 2021-04-08 2021-04-08 基于大数据的数据处理方法、装置、设备及可读存储介质 Active CN113076317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110380430.0A CN113076317B (zh) 2021-04-08 2021-04-08 基于大数据的数据处理方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110380430.0A CN113076317B (zh) 2021-04-08 2021-04-08 基于大数据的数据处理方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113076317A CN113076317A (zh) 2021-07-06
CN113076317B true CN113076317B (zh) 2024-06-18

Family

ID=76615671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110380430.0A Active CN113076317B (zh) 2021-04-08 2021-04-08 基于大数据的数据处理方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113076317B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019396A (zh) * 2017-12-01 2019-07-16 中国移动通信集团广东有限公司 一种基于分布式多维分析的数据分析系统及方法
CN110716950A (zh) * 2019-09-20 2020-01-21 黄沙沙 一种口径系统建立方法、装置、设备及计算机存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9223847B2 (en) * 2012-03-07 2015-12-29 Microsoft Technology Licensing, Llc Using dimension substitutions in OLAP cubes
CN107038200A (zh) * 2016-12-15 2017-08-11 平安科技(深圳)有限公司 业务数据处理方法及系统
CN109144994B (zh) * 2017-06-19 2022-04-29 华为技术有限公司 索引更新方法、系统及相关装置
CN109697066B (zh) * 2018-12-28 2021-02-05 第四范式(北京)技术有限公司 实现数据表拼接及自动训练机器学习模型的方法和系统
CN110109978A (zh) * 2019-05-16 2019-08-09 深圳前海微众银行股份有限公司 基于指标的数据分析方法、装置、服务器及可读存储介质
CN110400046A (zh) * 2019-06-18 2019-11-01 平安科技(深圳)有限公司 监控指标调整方法、装置、设备及计算机可读存储介质
CN110427434B (zh) * 2019-06-28 2022-06-07 苏宁云计算有限公司 一种多维数据查询方法及装置
CN110674228B (zh) * 2019-09-23 2024-03-26 先进新星技术(新加坡)控股有限公司 数据仓库模型构建和数据查询方法、装置及设备
CN110851543A (zh) * 2019-11-08 2020-02-28 深圳市彬讯科技有限公司 一种数据建模的方法、装置、设备以及存储介质
CN111241185B (zh) * 2020-04-26 2020-10-27 浙江网商银行股份有限公司 数据处理方法以及装置
CN112364004B (zh) * 2020-11-10 2023-09-26 中国平安人寿保险股份有限公司 基于数据仓库的保单数据处理方法、装置及存储介质
CN112182091B (zh) * 2020-12-03 2021-04-27 光大科技有限公司 多源数据整合方法、系统、存储介质和电子装置
CN112559524A (zh) * 2020-12-14 2021-03-26 中国建设银行股份有限公司 一种指标数据库建立方法、装置及存储介质
CN112581266A (zh) * 2020-12-28 2021-03-30 中国建设银行股份有限公司 银行流动性指标确定方法、装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019396A (zh) * 2017-12-01 2019-07-16 中国移动通信集团广东有限公司 一种基于分布式多维分析的数据分析系统及方法
CN110716950A (zh) * 2019-09-20 2020-01-21 黄沙沙 一种口径系统建立方法、装置、设备及计算机存储介质

Also Published As

Publication number Publication date
CN113076317A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN109766497B (zh) 排行榜生成方法及装置、存储介质、电子设备
US9727981B2 (en) Visualizing data model sensitivity to variations in parameter values
US10191968B2 (en) Automated data analysis
CN104866426B (zh) 软件测试综合控制方法及系统
CN111930366B (zh) 一种基于jit实时编译的规则引擎实现方法及系统
CN112434015B (zh) 数据存储的方法、装置、电子设备及介质
CN108038655A (zh) 部门需求的推荐方法、应用服务器及计算机可读存储介质
CN109740129A (zh) 基于区块链的报表生成方法、装置、设备及可读存储介质
CN113076317B (zh) 基于大数据的数据处理方法、装置、设备及可读存储介质
US20130124484A1 (en) Persistent flow apparatus to transform metrics packages received from wireless devices into a data store suitable for mobile communication network analysis by visualization
CN114722789B (zh) 数据报表集成方法、装置、电子设备及存储介质
CN115543428A (zh) 一种基于策略模板的模拟数据生成方法和装置
CN111723129B (zh) 报表生成方法、报表生成装置和电子设备
CN113868138A (zh) 测试数据的获取方法、系统、设备及存储介质
CN113934894A (zh) 基于指标树的数据显示方法、终端设备
CN113743791A (zh) 一种业务工单的业务考评方法、装置、电子设备和介质
CN110765118B (zh) 一种数据的修订方法、修订装置及可读存储介质
CN111353288B (zh) 报表处理方法、系统、装置和计算机可读存储介质
CN116755684B (zh) OAS Schema的生成方法、装置、设备及介质
CN114254918A (zh) 指标数据的计算方法、装置、可读介质及电子设备
CN117827902A (zh) 业务数据处理方法、装置、计算机设备以及存储介质
CN117708112A (zh) 数据检核方法、装置、电子设备和存储介质
CN117669517A (zh) 报表生成方法、装置、设备及计算机可读存储介质
CN115392206A (zh) 基于wps/excel快速查询数据方法、装置、设备及存储介质
CN117611271A (zh) 一种供应商资质能力评估标签体系构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant