CN115017159A - 数据处理方法及装置、存储介质及电子设备 - Google Patents

数据处理方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115017159A
CN115017159A CN202210724915.1A CN202210724915A CN115017159A CN 115017159 A CN115017159 A CN 115017159A CN 202210724915 A CN202210724915 A CN 202210724915A CN 115017159 A CN115017159 A CN 115017159A
Authority
CN
China
Prior art keywords
data
service data
service
target
storage area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210724915.1A
Other languages
English (en)
Inventor
田晓芸
陈昕
李海茹
高成康
杨雨龙
于灏
陈媛君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Digital Technology Holdings Co ltd
State Grid E Commerce Technology Co Ltd
Original Assignee
State Grid Digital Technology Holdings Co ltd
State Grid E Commerce Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Digital Technology Holdings Co ltd, State Grid E Commerce Technology Co Ltd filed Critical State Grid Digital Technology Holdings Co ltd
Priority to CN202210724915.1A priority Critical patent/CN115017159A/zh
Publication of CN115017159A publication Critical patent/CN115017159A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Abstract

本发明提供了一种数据处理方法及装置、存储介质及电子设备,其中,先获取目标查询语句;对目标查询语句进行解析,获得各个数据表的依赖信息;当接收到预设的传输队列传输的业务数据时,确定业务数据的数据类型;在业务数据的数据类型为新增类型或修改类型的情况下,在各个数据表中确定业务数据所属的目标数据表;根据目标数据表和依赖信息判断存储区域中是否存在与业务数据相匹配的数据;若存在与业务数据相匹配的数据,则将业务数据和该数据组成宽表数据;将宽表数据存储到宽表中。能够通过数据表的依赖信息确定出与业务数据相匹配的数据,然后存储到一张宽表中,从而能够在一张宽表中获得用户所需的查询结果,极大的提升了查询效率。

Description

数据处理方法及装置、存储介质及电子设备
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据处理方法及装置、存储介质及电子设备。
背景技术
近年来,随着计算机技术的发展,大数据处理技术也越来越广泛的应用在各个领域中,例如,电子商务领域。在一些大数据应用场景下,通常需要对海量数据进行实时处理,然后存储到数据仓库中,以满足数据查询需求,然而,在涉及到多个关联表查询需求时,通常需要关联多个子表才能获得查询结果,查询效率低。
发明内容
本发明所要解决的技术问题是提供一种数据处理方法,能够提高数据查询效率。
本发明还提供了一种数据处理装置,用以保证上述方法在实际中的实现及应用。
一种数据处理方法,包括:
响应于数据处理指令,获取所述数据处理指令对应的目标查询语句;
对所述目标查询语句进行解析,获得各个数据表的依赖信息;
当接收到预设的传输队列传输的业务数据时,确定所述业务数据的数据类型;
在所述业务数据的数据类型为新增类型或修改类型的情况下,在各个所述数据表中确定所述业务数据所属的目标数据表;
根据所述业务数据所属的目标数据表和所述依赖信息判断预设的存储区域中是否存在与所述业务数据相匹配的数据;
若所述存储区域中存在与所述业务数据相匹配的数据,则将所述业务数据和所述数据组成宽表数据;
将所述宽表数据存储到预设的宽表中。
上述的方法,可选的,还包括:
在所述业务数据的数据类型为删除类型的情况下,获得所述业务数据对应的索引信息;
删除预设宽表中的与所述索引信息相匹配的数据。
上述的方法,可选的,还包括:
若所述数据库中不存在与所述业务数据相匹配的数据,则将所述业务数据缓存到所述存储区域中。
上述的方法,可选的,所述将所述宽表数据存储到预设的宽表之后,还包括:
当接收到查询指令时,在所述宽表中查询与所述查询指令相匹配的宽表数据,并输出与所述查询指令相匹配的宽表数据。
上述的方法,可选的,获取所述数据处理指令对应的目标查询语句,包括:
获取所述数据处理指令中包含的计算模型;
将所述计算模型转换成所述数据处理指令对应的目标查询语句。
上述的方法,可选的,所述根据所述业务数据所属的目标数据表和所述依赖信息判断预设的存储区域中是否存在与所述业务数据相匹配的数据,包括:
根据所述依赖信息确定与业务数据所属的目标数据表相关联的数据表;
判断预设的存储区域中是否存在与所述目标数据表相关联的数据表的表数据;所述存储区域包括内存和分布式存储系统hbase数据库中的至少一种;
若所述存储区域中存在与所述目标数据表相关联的数据表的表数据,则确定所述存储区域中存在与所述业务数据相匹配的数据。
一种数据处理装置,包括:
获取单元,用于响应数据处理指令,获取所述数据处理指令对应的目标查询语句;
解析单元,用于对所述目标查询语句进行解析,获得各个数据表的依赖信息;
接收单元,用于当接收到预设的传输队列传输的业务数据时,确定所述业务数据的数据类型;
确定单元,用于在所述业务数据的数据类型为新增类型或修改类型的情况下,在各个所述数据表中确定所述业务数据所属的目标数据表;
判断单元,用于根据所述业务数据所属的目标数据表和所述依赖信息判断预设的存储区域中是否存在与所述业务数据相匹配的数据;
执行单元,用于若所述存储区域中存在与所述业务数据相匹配的数据,则将所述业务数据和所述数据组成宽表数据;
存储单元,用于将所述宽表数据存储到预设的宽表中。
上述的装置,可选的,获取单元,包括:
获取子单元,用于获取所述数据处理指令中包含的计算模型;
转换子单元,用于将所述计算模型转换成所述数据处理指令对应的目标查询语句。
一种存储介质,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的数据处理方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如上述的数据处理方法。
基于上述本发明实施提供的一种数据处理方法及装置、存储介质及电子设备,该方法包括:响应于数据处理指令,获取所述数据处理指令对应的目标查询语句;对所述目标查询语句进行解析,获得各个数据表的依赖信息;当接收到预设的传输队列传输的业务数据时,确定所述业务数据的数据类型;在所述业务数据的数据类型为新增类型或修改类型的情况下,在各个所述数据表中确定所述业务数据所属的目标数据表;根据所述业务数据所属的目标数据表和所述依赖信息判断预设的存储区域中是否存在与所述业务数据相匹配的数据;若所述存储区域中存在与所述业务数据相匹配的数据,则将所述业务数据和所述数据组成宽表数据;将所述宽表数据存储到预设的宽表中。能够通过数据表的依赖信息确定出与业务数据相匹配的数据,然后存储到一张宽表中,从而能够在一张宽表中获得用户所需的查询结果,极大的提升了查询效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种数据处理方法的方法流程图;
图2为本发明提供的一种获取数据处理指令对应的目标查询语句的过程的流程图;
图3为本发明提供的一种判断存储区域中是否存在与业务数据相匹配的数据的过程的流程图;
图4为本发明提供的一种数据处理装置的结构示意图;
图5为本发明提供的一种电子设备的结构示意图;
图6为本发明提供的一种内存记录的示例图;
图7为本发明提供的一种数据处理过程的示例图;
图8为本发明提供的一种服务集成数据流转图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供了一种数据处理方法,该方法可以应用于电子设备的计算引擎中,所述方法的方法流程图如图1所示,具体包括:
S101:响应于数据处理指令,获取所述数据处理指令对应的目标查询语句。
在本实施例中,数据处理指令可以是对接数据系统的业务方触发的指令,该数据处理指令中可以包含计算模型,可以根据计算模型生成目标查询语句。
可选的,目标查询语句可以是各种数据库算法的查询语句,例如,可以是SQL查询语句。
S102:对所述目标查询语句进行解析,获得各个数据表的依赖信息。
在本实施例中,可以通过对目标查询语句进行解析,可以获得各个数据表的依赖信息,该依赖信息可以被计算引擎识别,可以将依赖信息存储在计算引擎的缓存中,依赖信息可以表征各个数据表的依赖关系。
例如,包含三个数据表,分别为数据表a、数据表b和数据表c,则依赖关系可以是数据表b依赖数据表a,数据表c依赖数据表b。
S103:当接收到预设的传输队列传输的业务数据时,确定所述业务数据的数据类型。
在本实施例中,传输队列可以是kafka队列,可以对传输队列进行实时监听,当接收到传输队列传输的业务数据时,可以确定业务数据的数据类型,数据类型可以是新增类型、修改类型和删除类型中的一种。
S104:在所述业务数据的数据类型为新增类型或修改类型的情况下,在各个所述数据表中确定所述业务数据所属的目标数据表。
S105:根据所述业务数据所属的目标数据表和所述依赖信息判断预设的存储区域中是否存在与所述业务数据相匹配的数据。
在本实施例中,与业务数据相匹配的数据可以是关联数据表的数据,关联数据表是表征与目标数据表存在依赖关系的数据表,可以根据依赖信息确定出与目标数据表存在依赖关系的数据表。
S106:若所述存储区域中存在与所述业务数据相匹配的数据,则将所述业务数据和所述数据组成宽表数据。
在本实施例中,存储区域可以是计算引擎的内存,也可以是数据库,也可以先确定内存中是否包含与业务数据相匹配的数据,若内存中不存在,则确定到数据库中是否包含与业务数据相匹配的数据。
S107:将所述宽表数据存储到预设的宽表中。
在本实施例中,宽表可以是存储引擎的存储表,例如,可以是存储引擎Kudu的宽表,将宽表数据存储到宽表中,可以实现将多个相关联的数据表中的数据存储到同一表中,从而可以提升表数据的处理效率,例如,可以提升查询效率。
应用本发明实施例提供的方法,能够通过数据表的依赖信息确定出与业务数据相匹配的数据,然后存储到一张宽表中,从而能够在一张宽表中获得用户所需的查询结果,极大的提升了查询效率。
在本发明提供的实施例中,基于上述的实施过程,可选的,还包括:
在所述业务数据的数据类型为删除类型的情况下,获得所述业务数据对应的索引信息;
删除预设宽表中的与所述索引信息相匹配的数据。
在本实施例中,索引信息可以由该业务数据的主键和查询语句中的关联条件生成,该索引信息可以是MD5值。
具体的,可以在宽表中确定与索引信息相对应的行数据项,从而确定需要置空的字段。
在本发明提供的实施例中,基于上述的实施过程,可选的,还包括:
若所述数据库中不存在与所述业务数据相匹配的数据,则将所述业务数据缓存到所述存储区域中。
在本实施例中,将业务数据缓存到所述存储区域中,当接收到传输队列传输的新的业务数据时,若新的业务数据的数据类型为新增类型或修改类型,且新的业务数据与已存储到存储区域中的业务数据匹配,则将新的业务数据与该已存储到存储区域的业务数据组成宽表数据,然后将宽表数据存到宽表中。
在本发明提供的实施例中,基于上述的实施过程,可选的,所述将所述宽表数据存储到预设的宽表之后,还包括:
当接收到查询指令时,在所述宽表中查询与所述查询指令相匹配的宽表数据,并输出与所述查询指令相匹配的宽表数据。
在本实施例中,可以确定查询指令中包含的查询条件,利用查询条件遍历宽表,获得与所述查询指令相匹配的宽表数据。
在本发明提供的实施例中,基于上述的实施过程,可选的,获取所述数据处理指令对应的目标查询语句,如图2所示,包括:
S201:获取所述数据处理指令中包含的计算模型。
在本实施例中,可以数据数据处理指令进行解析,获得数据处理指令的指令信息;从指令信息中获得计算模型,计算模型可以由业务方根据业务需求逻辑配置得到。
S202:将所述计算模型转换成所述数据处理指令对应的目标查询语句。
在本实施例中,可以通过模型解析器对计算模型进行解析,获得模型信息;根据计算解析器对模型信息进行解析,将模型信息中的计算逻辑转换为目标查询语句。
在本发明提供的实施例中,基于上述的实施过程,可选的,所述根据所述业务数据所属的目标数据表和所述依赖信息判断预设的存储区域中是否存在与所述业务数据相匹配的数据,如图3所示,包括:
S301:根据所述依赖信息确定与业务数据所属的目标数据表相关联的数据表。
在本实施例中的依赖信息包含各个数据表的依赖关系,可以将目标数据表依赖的数据表和/或被依赖的数据表确定为与目标数据表相关联的数据表。
可选的,可以根据依赖关系确定是否存在目标数据表依赖的数据表和被依赖的数据表;若目标数据表不存在依赖的数据表,则可以说明目标数据表为主表,可以将业务数据插入到宽表中。
S302:判断预设的存储区域中是否存在与所述目标数据表相关联的数据表的表数据;所述存储区域包括内存和分布式存储系统hbase数据库中的至少一种;
在本实施例中,在存储区域包含内存和hbase数据库的情况下,可以先判断内存中是否存在与目标数据表相关联的数据表的表数据;若不存在,则可以判断hbase数据库中是否存在与目标数据表相关联的数据表的表数据。
S303:若所述存储区域中存在与所述目标数据表相关联的数据表的表数据,则确定所述存储区域中存在与所述业务数据相匹配的数据。
在本实施例中,可以将目标数据表依赖的数据表的表数据确定为与目标业务数据相匹配的数据。
S304:若所述存储区域中不存在与所述目标数据表相关联的数据表的表数据,则确定所述存储区域中不存在与所述业务数据相匹配的数据。
在本实施例中,存储区域中不存在业务数据相匹配的数据的情况下,可以将业务数据缓存到内存或者hbase数据库中。
与图1所述的方法相对应,本发明实施例还提供了一种数据处理装置,用于对图1中方法的具体实现,本发明实施例提供的数据处理装置可以应用于电子设备中,其结构示意图如图4所示,具体包括:
获取单元401,用于响应数据处理指令,获取所述数据处理指令对应的目标查询语句;
解析单元402,用于对所述目标查询语句进行解析,获得各个数据表的依赖信息;
接收单元403,用于当接收到预设的传输队列传输的业务数据时,确定所述业务数据的数据类型;
确定单元404,用于在所述业务数据的数据类型为新增类型或修改类型的情况下,在各个所述数据表中确定所述业务数据所属的目标数据表;
判断单元405,用于根据所述业务数据所属的目标数据表和所述依赖信息判断预设的存储区域中是否存在与所述业务数据相匹配的数据;
执行单元406,用于若所述存储区域中存在与所述业务数据相匹配的数据,则将所述业务数据和所述数据组成宽表数据;
存储单元407,用于将所述宽表数据存储到预设的宽表中。
应用本发明实施例提供的装置,能够通过数据表的依赖信息确定出与业务数据相匹配的数据,然后存储到一张宽表中,从而能够在一张宽表中获得用户所需的查询结果,极大的提升了查询效率。
在本发明提供的一实施例中,基于上述的方案,可选的,获取单元401,包括:
获取子单元,用于获取所述数据处理指令中包含的计算模型;
转换子单元,用于将所述计算模型转换成所述数据处理指令对应的目标查询语句。
在本发明提供的一实施例中,基于上述的方案,可选的,所述数据处理装置,还包括:
第一处理单元,用于在所述业务数据的数据类型为删除类型的情况下,获得所述业务数据对应的索引信息;
第二处理单元,用于删除预设宽表中的与所述索引信息相匹配的数据。
在本发明提供的一实施例中,基于上述的方案,可选的,所述数据处理装置,还包括:
缓存单元,用于若所述数据库中不存在与所述业务数据相匹配的数据,则将所述业务数据缓存到所述存储区域中。
在本发明提供的一实施例中,基于上述的方案,可选的,所述数据处理装置,还包括:
输出单元,用于当接收到查询指令时,在所述宽表中查询与所述查询指令相匹配的宽表数据,并输出与所述查询指令相匹配的宽表数据。
在本发明提供的一实施例中,基于上述的方案,可选的,所述判断单元,包括:
第一确定子单元,用于根据所述依赖信息确定与业务数据所属的目标数据表相关联的数据表;
判断子单元,用于判断预设的存储区域中是否存在与所述目标数据表相关联的数据表的表数据;所述存储区域包括内存和分布式存储系统hbase数据库中的至少一种;
确定子单元,用于若所述存储区域中存在与所述目标数据表相关联的数据表的表数据,则确定所述存储区域中存在与所述业务数据相匹配的数据。
上述本发明实施例公开的数据处理装置中的各个单元和模块具体的原理和执行过程,与上述本发明实施例公开的数据处理方法相同,可参见上述本发明实施例提供的数据处理方法中相应的部分,这里不再进行赘述。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述数据处理方法。
本发明实施例还提供了一种电子设备,其结构示意图如图5所示,具体包括存储器501,以及一个或者一个以上的指令502,其中一个或者一个以上指令502存储于存储器501中,且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作:
响应于数据处理指令,获取所述数据处理指令对应的目标查询语句;
对所述目标查询语句进行解析,获得各个数据表的依赖信息;
当接收到预设的传输队列传输的业务数据时,确定所述业务数据的数据类型;
在所述业务数据的数据类型为新增类型或修改类型的情况下,在各个所述数据表中确定所述业务数据所属的目标数据表,根据所述业务数据所属的目标数据表和所述依赖信息判断预设的存储区域中是否存在与所述业务数据相匹配的数据;
若所述存储区域中存在与所述业务数据相匹配的数据,则将所述业务数据和所述数据组成宽表数据;
将所述宽表数据存储到预设的宽表中。
在本发明提供的一实施例中,可以基于流计算引擎spark streaming处理数据,并实时监听kafka队列发送过来的业务数据。首先根据sql查询语句解析出表数据的依赖关系并维护至spark任务内存中,具体如图6所示,将表数据的依赖关系维护到spark内存之后,还可以将相关表数据同步至hbase做快速索引。然后,如图7所示,接收kafka队列传输的数据,判断数据来源类型,即新增类型、修改类型和删除类型。其中,新增类型和修改走相同的处理逻辑,若接收到的数据是新增类型或修改类型,则将每一条接收的数据从hbase快速索引里匹配关联数据,将接收到的数据和匹配到的数据合成一条有效宽表数据存入kudu宽表中,若匹配不到则缓存该接收到的数据的记录。直到下一批次的数据能够关联到最后存入kudu宽表中。若接收到的数据是删除类型,则直接根据主键删除宽表数据和快速缓存数据即可。
例如,在sql计算逻辑中都是以左关联的主表作为参考,例如a,b,c三张表相互依次左关联,a表作为主表的前提下,之后新来一条b表的数据,那么a和b的数据就能关联上并存入宽表中。如果此时b表数据由于其他原因没有在同一批次计算得到,只拿到了c表数据,那么就产生a不能和c关联,此时c的数据就在hbase里作为缓存。等待着b表获得可关联的数据后在一并填充进宽表中。
具体的,数据仓库会根据不同的业务产线、指标、项目等维度进行分仓,每个分仓下均包含数据运营层ODS、数据细节层DWD、数据中间层DWS、数据服务层ADS,参见图8,为本发明实施例提供的一种服务集成数据流转图,具体流转过程如下:
1、首先通过数据建模平台创建存储模型和计算模型(sql查询语句)。存储模型为各个分层内的表结构模型,计算模型为后续实时流计算核心服务提供计算依据。
2、将计算模型发送至逻辑解析器中,对模型进行拆解分析。将分析后的数据发送至计算解析器用于转换至spark streaming可解析的语言。
3、通过流计算平台配置计算任务和任务监控,实现任务在线运维、资源监控和问题分析。
4、ETL数据抽取服务将各个数据源的数据同步至计算核心服务和数仓的ODS层中,其中ODS作为贴源层可用于后续的数据质量分析和补偿逻辑使用。
5、最后将计算服务产出的结果,根据创建的模型分别存储至实时数仓的各个分层中(DWD基础明细层,DWS宽表明细层,ADS应用数据层),然后提供出接口给后续的外部服务调用。
应用本发明实施例提供的方法,能够对原始的数据仓库实现了针对数据查询分析和报表需求的宽表模型化处理,原始需要通过关联多个子表才能关联出来的数据,现在仅需要一张表即可查询到想要的结果,极大提高了查询效率。对离线数仓报表实现了实时化,不需要在等待数据预计算的时间,实现仅有毫秒到分钟级别的延迟即可得到最新的数据。
本发明还使用了hbase的快速检索技术,将硬件成本较高的内存转移至成本较低的硬盘中来实现。
本发明提供的技术可以包括以下几个关键点:基于spark streaming流计算技术实现;基于kudu宽表数据查询,实现毫秒级响应;数据仓库使用impala+kudu作为底层,可以实现jdbc与其他系统无缝对接。
需要说明的是,实时数仓是基于传统数据仓库演进而来。以往的传统数据仓库没有对业务数据的二次处理加工逻辑,而是仅用于海量数据的存储和查询。
对于日积月累的海量数据查询的响应性能还是有很大瓶颈。其主要原因是因为各业务系统数据的表结构模型仅适用于其本身的业务,而对于之后的数据分析、报表统计、数据预警等应用场景来说,需要关联大量的表关系才能计算出想要的结果。那么随着关联关系的复杂度增加,查询分析的性能会受到极大的影响。
一般解决该问题分为两种方式:1、离线数仓;2、实时数仓。
离线数仓:以数据预处理作为核心技术,对要统计的数据结果根据sql计算模型去跑离线任务。将计算的任务存储在离线仓库中,那么查询的数据可以直接在结果数据里查询,省去了关联计算耗费的时间,从而实现毫秒级响应。但其缺点也很明显,及时性较差,今天只能查昨天以前的数据(T+1模式)。计算的结果会存储大量的冗余数据,因此比较占用存储空间。
实时数仓:采用新一代大数据处理技术的流式计算技术实现。该数仓具有模型驱动、面向主题和实时处理等特点。相比离线数仓,新数据的及时性得到了保证。在极低的延迟下,对新产生的业务数据实时计算并汇总到实时数仓的各个分层中(DWD,DWS,ADS各分层)。每个分层都是通过对原始业务数据,根据分析和统计需求重新设计的模型。保证了毫秒级响应查询的同时也满足了数据及时性。缺点主要是计算过程中会产生大量冗余数据,因此属于空间换时间的解决方案。
因此,本发明实施例通过对传统数仓和离线数仓做了升级,实现了实时数仓来处理现有业务数据。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种数据处理方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
响应于数据处理指令,获取所述数据处理指令对应的目标查询语句;
对所述目标查询语句进行解析,获得各个数据表的依赖信息;
当接收到预设的传输队列传输的业务数据时,确定所述业务数据的数据类型;
在所述业务数据的数据类型为新增类型或修改类型的情况下,在各个所述数据表中确定所述业务数据所属的目标数据表;
根据所述业务数据所属的目标数据表和所述依赖信息判断预设的存储区域中是否存在与所述业务数据相匹配的数据;
若所述存储区域中存在与所述业务数据相匹配的数据,则将所述业务数据和所述数据组成宽表数据;
将所述宽表数据存储到预设的宽表中。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所述业务数据的数据类型为删除类型的情况下,获得所述业务数据对应的索引信息;
删除预设宽表中的与所述索引信息相匹配的数据。
3.根据权利要求1所述的方法,其特征在于,还包括:
若所述数据库中不存在与所述业务数据相匹配的数据,则将所述业务数据缓存到所述存储区域中。
4.根据权利要求1所述的方法,其特征在于,所述将所述宽表数据存储到预设的宽表之后,还包括:
当接收到查询指令时,在所述宽表中查询与所述查询指令相匹配的宽表数据,并输出与所述查询指令相匹配的宽表数据。
5.根据权利要求1所述的方法,其特征在于,获取所述数据处理指令对应的目标查询语句,包括:
获取所述数据处理指令中包含的计算模型;
将所述计算模型转换成所述数据处理指令对应的目标查询语句。
6.根据权利要求1所述的方法,其特征在于,所述根据所述业务数据所属的目标数据表和所述依赖信息判断预设的存储区域中是否存在与所述业务数据相匹配的数据,包括:
根据所述依赖信息确定与业务数据所属的目标数据表相关联的数据表;
判断预设的存储区域中是否存在与所述目标数据表相关联的数据表的表数据;所述存储区域包括内存和分布式存储系统hbase数据库中的至少一种;
若所述存储区域中存在与所述目标数据表相关联的数据表的表数据,则确定所述存储区域中存在与所述业务数据相匹配的数据。
7.一种数据处理装置,其特征在于,包括:
获取单元,用于响应数据处理指令,获取所述数据处理指令对应的目标查询语句;
解析单元,用于对所述目标查询语句进行解析,获得各个数据表的依赖信息;
接收单元,用于当接收到预设的传输队列传输的业务数据时,确定所述业务数据的数据类型;
确定单元,用于在所述业务数据的数据类型为新增类型或修改类型的情况下,在各个所述数据表中确定所述业务数据所属的目标数据表;
判断单元,用于根据所述业务数据所属的目标数据表和所述依赖信息判断预设的存储区域中是否存在与所述业务数据相匹配的数据;
执行单元,用于若所述存储区域中存在与所述业务数据相匹配的数据,则将所述业务数据和所述数据组成宽表数据;
存储单元,用于将所述宽表数据存储到预设的宽表中。
8.根据权利要求7所述的装置,其特征在于,获取单元,包括:
获取子单元,用于获取所述数据处理指令中包含的计算模型;
转换子单元,用于将所述计算模型转换成所述数据处理指令对应的目标查询语句。
9.一种存储介质,其特征在于,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~6任意一项所述的数据处理方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~6任意一项所述的数据处理方法。
CN202210724915.1A 2022-06-24 2022-06-24 数据处理方法及装置、存储介质及电子设备 Pending CN115017159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210724915.1A CN115017159A (zh) 2022-06-24 2022-06-24 数据处理方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210724915.1A CN115017159A (zh) 2022-06-24 2022-06-24 数据处理方法及装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115017159A true CN115017159A (zh) 2022-09-06

Family

ID=83077720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210724915.1A Pending CN115017159A (zh) 2022-06-24 2022-06-24 数据处理方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115017159A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115525722A (zh) * 2022-11-04 2022-12-27 杭州小电科技股份有限公司 宽表数据的同步方法、装置、电子装置和存储介质
CN116610714A (zh) * 2023-07-14 2023-08-18 北京数巅科技有限公司 一种数据查询方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115525722A (zh) * 2022-11-04 2022-12-27 杭州小电科技股份有限公司 宽表数据的同步方法、装置、电子装置和存储介质
CN115525722B (zh) * 2022-11-04 2023-03-21 杭州小电科技股份有限公司 宽表数据的同步方法、装置、电子装置和存储介质
CN116610714A (zh) * 2023-07-14 2023-08-18 北京数巅科技有限公司 一种数据查询方法、装置、计算机设备及存储介质
CN116610714B (zh) * 2023-07-14 2023-10-31 北京数巅科技有限公司 一种数据查询方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN115017159A (zh) 数据处理方法及装置、存储介质及电子设备
CN107783985B (zh) 一种分布式数据库查询方法、装置及管理系统
CN107451208B (zh) 一种数据搜索方法与装置
CN109783512A (zh) 数据处理方法、装置、计算机设备及存储介质
CN106873945A (zh) 基于批处理和流式处理的数据处理架构及数据处理方法
CN110147470B (zh) 一种跨机房数据比对系统及方法
CN110134738B (zh) 分布式存储系统资源预估方法、装置
CN109947729B (zh) 一种实时数据分析方法及装置
CN110928851A (zh) 处理日志信息的方法、装置、设备及存储介质
CN115587118A (zh) 任务数据的维表关联处理方法及装置、电子设备
CN114416868B (zh) 一种数据同步方法、装置、设备及存储介质
US8732323B2 (en) Recording medium storing transaction model generation support program, transaction model generation support computer, and transaction model generation support method
CN114579668A (zh) 一种数据库数据同步方法
CN110309184A (zh) 一种航空运价数据的缓存方法及系统
CN111209314A (zh) 一种电力信息系统海量日志数据实时处理系统
CN113010373B (zh) 数据监测方法、装置、电子设备及存储介质
CN115269654A (zh) 一种数据缓存补充方法、装置、设备及介质
CN115712677A (zh) 搜索数据同步方法及其装置、设备、介质、产品
CN113568892A (zh) 一种基于内存计算对数据源进行数据查询的方法和设备
CN114265904A (zh) 一种数据处理方法及云计算平台
JP6626198B2 (ja) 管理装置、実行環境設定方法、ストリームデータ処理システム
CN112579552A (zh) 日志存储及调用方法、装置及系统
US20120284315A1 (en) Optimization of non-deterministic computational paths
CN110297827A (zh) 一种集合Lucene和Hbase的电力数据检索系统
CN112784119B (zh) 一种数据查询及同步优化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination