CN117520313A - 基于多维关联数据仓库切片表的数据回溯方法及装置 - Google Patents
基于多维关联数据仓库切片表的数据回溯方法及装置 Download PDFInfo
- Publication number
- CN117520313A CN117520313A CN202410001973.0A CN202410001973A CN117520313A CN 117520313 A CN117520313 A CN 117520313A CN 202410001973 A CN202410001973 A CN 202410001973A CN 117520313 A CN117520313 A CN 117520313A
- Authority
- CN
- China
- Prior art keywords
- data
- backtracking
- target
- slice
- warehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003860 storage Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000005192 partition Methods 0.000 description 6
- 230000002354 daily effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/219—Managing data history or versioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于多维关联数据仓库切片表的数据回溯方法、装置、电子设备及计算机可读介质。该方法包括:获取数据回溯目标和数据回溯日期;基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合,所述数据仓库切片表集合基于维度事实表以及日志型数据表关联得到;根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表;在所述至少一个目标切片表中确定主键;基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息。本申请能够快速准确的回溯历史数据,在回溯历史数据时避免引入时间错误数据,减少分析人员的统计难度,提升工作效率。
Description
技术领域
本申请涉及计算机信息处理领域,具体而言,涉及一种基于多维关联数据仓库切片表的数据回溯方法、装置、电子设备及计算机可读介质。
背景技术
数据仓库(Data Warehouse)作为提供所有类型数据的集合,为商业分析和公司策略决策提供空间和数据支持。数据仓库中基础表是从各个业务系统ETL(extract,transform, and load)过来的维度事实表。事实表的记录在新增后,后面还会再更新,对于数仓ETL来说,处理方式一般有两种,方式一是全量表同步:保留最新状态全量同步覆盖旧数据,方式二是快照表同步:在同步时点做切片全量同步当时状态,保留每个切片数据。由于上述两种方式不能针对所有的场景准确快速的获取想要的统计数据,这两种方式均存在着缺陷。
因此,需要一种新的基于多维关联数据仓库切片表的数据回溯方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本申请提供一种基于多维关联数据仓库切片表的数据回溯方法、装置、电子设备及计算机可读介质,能够快速准确的回溯历史数据,在回溯历史数据时避免引入时间错误数据,减少分析人员的统计难度,提升工作效率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一方面,提出一种基于多维关联数据仓库切片表的数据回溯方法,该方法包括:获取数据回溯目标和数据回溯日期;基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合,所述数据仓库切片表集合基于维度事实表以及日志型数据表关联得到;根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表;在所述至少一个目标切片表中确定主键;基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息。
可选地,还包括:确定多个回溯目标;确定每个回溯目标对应的切片周期;基于所述切片周期获取每个回溯目标对应的多个增量数据;基于所述多个增量数据生成每个回溯目标对应的数据仓库切片集合。
可选地,基于所述切片周期获取每个回溯目标对应的多个增量数据,包括:确定每个回溯目标对应的维度事实表和日志型数据表;将所述维度事实表和所述日志型数据表进行关联;在每个切片周期获取所述回溯目标对应的维度事实表和日志型数据表的增量数据。
可选地,将所述维度事实表和所述日志型数据表进行关联,包括:根据所述回溯目标确定主键;基于所述主键将所述维度事实表和所述日志型数据表进行关联。
可选地,基于所述多个增量数据生成每个回溯目标对应的数据仓库切片集合,包括:获取所述回溯目标对应的维度事实表和日志型数据表的基础数据;通过所述多个增量数据生成多个数据仓库切片;根据所述基础数据和所述多个数据仓库切片生成每个回溯目标对应的数据仓库切片集合。
可选地,基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合,包括:根据所述回溯目标确定数据主题;根据所述数据主题在所述多个数据仓库切片表集合中确定目标数据仓库切片表集合。
可选地,根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表,包括:将所述回溯日期按照所述目标切片表对应的切片周期进行拆分,生成多个时间节点;在所述目标数据仓库切片表集合中提取与所述多个时间节点对应的目标切片表。
可选地,基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息,包括:过滤所述至少一个目标切片表中的数据;根据所述回溯目标确定统计指标;按照所述主键由所述至少一个目标切片中提取数据;根据所述数据计算所述统计指标的数值。
可选地,过滤所述至少一个目标切片表中的数据,包括:提取所述至少一个目标切片表中的主键对应的主键时间;将所述回溯日期和所述主键时间进行比较;将所述至少一个目标切片表中所述主键时间晚于所述回溯日期的数据剔除。
可选地,还包括:根据所述回溯信息评估所述回溯目标对应的业务状态;和/或根据所述回溯信息调整所述回溯目标对应的业务策略;和/或根据所述回溯信息更新所述回溯目标对应的业务信息。
根据本申请的一方面,提出一种基于多维关联数据仓库切片表的数据回溯装置,该装置包括:回溯模块,用于获取数据回溯目标和数据回溯日期;目标模块,用于基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合;日期模块,用于根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表;主键模块,用于在所述至少一个目标切片表中确定主键;回溯模块,用于基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息。
根据本申请的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本申请的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本申请的基于多维关联数据仓库切片表的数据回溯方法、装置、电子设备及计算机可读介质,通过获取数据回溯目标和数据回溯日期;基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合,所述数据仓库切片表集合基于维度事实表以及日志型数据表关联得到;根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表;在所述至少一个目标切片表中确定主键;基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息的方式,能够快速准确的回溯历史数据,在回溯历史数据时避免引入时间错误数据,减少分析人员的统计难度,提升工作效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种基于多维关联数据仓库切片表的数据回溯方法的流程图。
图2是根据另一示例性实施例示出的一种基于多维关联数据仓库切片表的数据回溯方法的流程图。
图3是根据另一示例性实施例示出的一种基于多维关联数据仓库切片表的数据回溯方法的流程图。
图4是根据一示例性实施例示出的一种基于多维关联数据仓库切片表的数据回溯装置的框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本案申请人,在实际使用过程中发现,在资源产品销售领域,经常需要统计3个月前月底某产品线下的资源占用数量。
在生产环境的业务系统里,用户在借用资源时系统会在创建一条交易记录,在之后的时间按月准时或提前或逾期归还资源产品,每归还资源产品或按月到期一次时会更新交易事实表中的已还、未还数据和归还资源产品状态。在数据从生产环境同步到数据仓库的过程中被称作ETL(extract, transform, and load)。
如果需要统计3个月前月底某产品线下的资源占用数量,对于上文中提到的方式一全量表,每天全量将业务系统中数据ETL到数据仓库中,只有一个分区或者没有分区,每次往全量表里面写数据都会覆盖之前的数据,不能记录数据的历史变化,只能截止到当前最新、全量的数据。因此业务系统中每笔交易记录数据已经更新到当前的未还余额,并不知道3个月前的数据,不能满足统计需要。
对于上文中提到的方式二快照表,因为全量表无法反映历史的变化,这时快照表就应运而生,快照表记录截止数据日期的全量数据(每个分区都是记录截止当前分区日期的全量数据),但其有一个问题,会过度依赖同步时间点,若数据仓库在凌晨1:00同步,则保存的是截止1:00的数据,若数据仓库在凌晨3:00同步,则保存的是截止3:00的数据,若当天数据仓库同步出现异常,未能完成同步,则没有当天的日切片数据。
基于上述原因,为方便风险数据分析使用,需要开发生成截止到每天最新且准确的客户状态、归还资源产品状态等,保证不漏用已有数据、不提前使用数据(即不穿越)。
为了解决上述问题,本申请提出一种基于多维关联数据仓库切片表的数据回溯方法,使用维度事实表与日志型记录表做数据仓库切片表的思路,因实际使用过程中按日切片为基础数据,使用量最多,且其它(比如按月,按年)切片可通过指定日期为一月的月初、月末,一年的年初、年末来实现,所以,在本申请中切片表设置为按日切片。
下面根据具体的实施例,对本申请的内容进行详细说明。
图1是根据一示例性实施例示出的一种基于多维关联数据仓库切片表的数据回溯方法的流程图。基于多维关联数据仓库切片表的数据回溯方法10至少包括步骤S102至S110。
如图1所示,在S102中,获取数据回溯目标和数据回溯日期。确定想要回溯或检索的数据的特定目标或需求。例如,希望获取过去一周内某个特定产品的销售数据。
数据回溯日期是指在时间上回溯到的特定日期或时间点,以获取过去的数据。这个日期可以是具体的日期(比如2023年1月1日)或是相对的日期(比如过去的七天)。通过指定数据回溯日期,你可以确定需要检索数据的时间范围。
在S104中,基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合,所述数据仓库切片表集合基于维度事实表以及日志型数据表关联得到。
在一个实施例中,可根据所述回溯目标确定数据主题;根据所述数据主题在所述多个数据仓库切片表集合中确定目标数据仓库切片表集合。
当确定了回溯目标后,可以基于这个目标来确定数据主题。数据主题指的是一组相关联的数据,通常按照其内容或者用途进行分类,比如销售数据、用户信息等。所述数据仓库切片表集合基于维度事实表以及日志型数据表关联得到。根据数据主题,可以在这些不同的数据仓库中找到包含所需数据的切片表集合。
例如,如果数据主题是“销售数据”,可需要查看包含销售数据的不同数据表或数据仓库。这些可能包括销售交易记录、产品信息表、客户信息表等。通过在多个数据仓库中定位包含这些数据的切片表集合,可以找到所需的目标数据仓库切片表集合。
在S106中,根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表。
可例如,将所述回溯日期按照所述目标切片表对应的切片周期进行拆分,生成多个时间节点;在所述目标数据仓库切片表集合中提取与所述多个时间节点对应的目标切片表。按照目标切片表的切片周期,将回溯日期拆分成多个时间节点,并从目标数据仓库切片表集合中提取与这些时间节点对应的切片表。
在S108中,在所述至少一个目标切片表中确定主键。在数据库中,主键是用于唯一标识数据表中每一行记录的字段或字段集合。
在S110中,基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息。
可例如,过滤所述至少一个目标切片表中的数据;根据所述回溯目标确定统计指标;按照所述主键由所述至少一个目标切片中提取数据;根据所述数据计算所述统计指标的数值。
更具体的,可使用数据库查询语言(如SQL)中的SELECT语句来过滤所述的目标切片表中的数据。根据回溯目标,确定需要计算的统计指标。还可使用数据库查询语言中的SELECT语句,根据主键从至少一个目标切片表中提取所需的数据。一旦提取了所需的数据,就可以使用数据库查询语言或脚本编程语言(如Python、R等)中的聚合函数来计算所述统计指标的数值。例如,使用SUM函数计算总和、AVG函数计算平均值等。
根据本申请的基于多维关联数据仓库切片表的数据回溯方法,通过获取数据回溯目标和数据回溯日期;基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合,所述数据仓库切片表集合基于维度事实表以及日志型数据表关联得到;根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表;在所述至少一个目标切片表中确定主键;基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息的方式,能够快速准确的回溯历史数据,在回溯历史数据时避免引入时间错误数据,减少分析人员的统计难度,提升工作效率。
应清楚地理解,本申请描述了如何形成和使用特定示例,但本申请的原理不限于这些示例的任何细节。相反,基于本申请公开的内容的教导,这些原理能够应用于许多其它实施例。
在一个具体的实施例中,维度事实表示例(主键)(包含2笔资源成功申请信息)如下:
资源成功申请信息表:
维度事实表示例(明细)(包含此2笔交易对应的分期明细信息)如下:
归还资源产品记录表,日志型数据表(包含上述2笔放款成功后,客户接下来的归还资源产品真实记录,包括正常归还资源产品、提前归还资源产品、逾期归还资源产品)如下:
图2是根据另一示例性实施例示出的一种基于多维关联数据仓库切片表的数据回溯方法的流程图。图2所示的流程20是对图1所示的流程的补充描述。
如图2所示,在S202中,确定多个回溯目标。数据仓库里对于日切型数据,是有回溯历史数据需求的。比如风险分析或者建模时,需要用到以前的某天或某段时间的数据,需要准确到当天能用到的真实的状态,即不漏用数据,也不穿越使用数据。因此在做切片表时,也需要将回溯的实现兼顾考虑进去。
在本申请中,穿越使用数据指的是:避免切片切到了更新后的数据,比如,1点更新数据为A、2点更新数据为B、2点05分更新数据为C、3点的更新数据为D。若定点切片,1点的切片数据为A、2点的切片数据为B,3点的切片数据为D,此时遗漏了中间的一个数据C,若用3点的切片数据进行分析时,就直接使用到了数据D,这种情况就称为使用了穿越数据。
在S204中,确定每个回溯目标对应的切片周期。可例如,引入时间切片(如使用按日切片)观察日:date_watch,格式2022-01-01。
引入切片目的,一是每日的增量数据,使用当天的观察日与当天数据,直接计算当天的分区数据;二是为了以天为单位回溯历史数据的需要,若需要回溯历史某一天数据或某一段时间,将date_watch指定为那一天或那段时间的每一天,回刷逻辑生成当天分区数据即可。
在S206中,基于所述切片周期获取每个回溯目标对应的多个增量数据。可例如,确定每个回溯目标对应的维度事实表和日志型数据表;将所述维度事实表和所述日志型数据表进行关联;在每个切片周期获取所述回溯目标对应的维度事实表和日志型数据表的增量数据。使用维度事实表(本申请中即资源成功申请信息表+分期明细信息表)为主与日志型数据表(本申请中即归还资源产品记录表)进行关联,生成基础数据。
更具体的,可根据所述回溯目标确定主键;基于所述主键将所述维度事实表和所述日志型数据表进行关联。
还可例如,获取所述回溯目标对应的维度事实表和日志型数据表的基础数据;通过所述多个增量数据生成多个数据仓库切片;根据所述基础数据和所述多个数据仓库切片生成每个回溯目标对应的数据仓库切片集合。
在S208中,基于所述多个增量数据生成每个回溯目标对应的数据仓库切片集合。用观察日与归还资源产品时间进行比较,将基础数据进行过滤,确保不使用观察日之后的数据,防止数据穿越。
根据本申请中方法生成的切片表(方式三)和上文中方式一、方式二的区别如下:
图3是根据另一示例性实施例示出的一种基于多维关联数据仓库切片表的数据回溯方法的流程图。图3所示的流程30是对图1所示的流程中S110“基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息”的详细描述。
如图3所示,在S302中,过滤所述至少一个目标切片表中的数据。可例如,提取所述至少一个目标切片表中的主键对应的主键时间;将所述回溯日期和所述主键时间进行比较;将所述至少一个目标切片表中所述主键时间晚于所述回溯日期的数据剔除。
确定统计主键(本申请中以每笔交易loan_no和观察日date_watch为主键),以此主键维度进行统计
计算各指标变量的逻辑需时,需要注意是否使用了回溯历史某个时点时未更新,但当前已更新的数据(如结清日期),避免使用此类字段,而是用实际归还资源产品时间与观察日去计算。
在S304中,根据所述回溯目标确定统计指标。根据不同的回溯目标确定待统计的指标,回溯目标是某一阶段的产品售价的话,统计指标可例如为产品价格、产品折扣等等信息。
在S306中,按照所述主键由所述至少一个目标切片中提取数据。根据主键提取多个目标切片中的数据。
在S308中,根据所述数据计算所述统计指标的数值。计算各指标变量,比如资源占用数量、已结清数量、未还初始数量、当前归还资源产品期数等
在一个实施例中,还可根据所述回溯信息评估所述回溯目标对应的业务状态;还可根据所述回溯信息调整所述回溯目标对应的业务策略;还可根据所述回溯信息更新所述回溯目标对应的业务信息。
本申请介绍了一种使用维度事实表与日志型数据表结合开发准确的数据仓库切片表的思路,可回溯历史数据,统计数据不使用穿越信息,为数据分析人员减少了统计难度。此实验思路可用于多种场景,包括但不限于对数量切片、客户状态切片、模型打分数据切片、可经营状态切片等,是一种实用的场景化数据仓库维度表生成思路。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU 执行的计算机程序。在该计算机程序被CPU 执行时,执行本申请提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图4是根据一示例性实施例示出的一种基于多维关联数据仓库切片表的数据回溯装置的框图。如图4所示,基于多维关联数据仓库切片表的数据回溯装置40包括:回溯模块402,目标模块404,日期模块406,主键模块408,回溯模块410。
回溯模块402用于获取数据回溯目标和数据回溯日期;
目标模块404用于基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合;目标模块404还用于根据所述回溯目标确定数据主题;根据所述数据主题在所述多个数据仓库切片表集合中确定目标数据仓库切片表集合。
日期模块406用于根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表;日期模块406还用于将所述回溯日期按照所述目标切片表对应的切片周期进行拆分,生成多个时间节点;在所述目标数据仓库切片表集合中提取与所述多个时间节点对应的目标切片表。
主键模块408用于在所述至少一个目标切片表中确定主键;
回溯模块410用于基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息。回溯模块410还用于过滤所述至少一个目标切片表中的数据;根据所述回溯目标确定统计指标;按照所述主键由所述至少一个目标切片中提取数据;根据所述数据计算所述统计指标的数值。
根据本申请的基于多维关联数据仓库切片表的数据回溯装置,通过获取数据回溯目标和数据回溯日期;基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合,所述数据仓库切片表集合基于维度事实表以及日志型数据表关联得到;根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表;在所述至少一个目标切片表中确定主键;基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息的方式,能够快速准确的回溯历史数据,在回溯历史数据时避免引入时间错误数据,减少分析人员的统计难度,提升工作效率。
如图5所示,本申请实施例提供了一种电子设备,包括处理器510、通信接口520、存储器530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信;
存储器530,用于存放计算机程序;
处理器510,用于执行存储器530上所存放的程序时,实现上述任一实施例的基于多维关联数据仓库切片表的数据回溯方法。
通信接口520用于上述电子设备与其他设备之间的通信。
存储器530可以包括随机存取存储器530(RandomAccessMemory,简称RAM),也可以包括非易失性存储器530(non-volatilememory),例如至少一个磁盘存储器530。可选的,存储器530还可以是至少一个位于远离前述处理器510的存储装置。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述任一实施例的基于多维关联数据仓库切片表的数据回溯方法。可例如,获取数据回溯目标和数据回溯日期;基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合,所述数据仓库切片表集合基于维度事实表以及日志型数据表关联得到;根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表;在所述至少一个目标切片表中确定主键;基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息。
以上具体地示出和描述了本申请的示例性实施例。应可理解的是,本申请不限于这里描述的详细结构、设置方式或实现方法;相反,本申请意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (13)
1.一种基于多维关联数据仓库切片表的数据回溯方法,其特征在于,包括:
获取数据回溯目标和数据回溯日期;
基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合,所述数据仓库切片表集合基于维度事实表以及日志型数据表关联得到;
根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表;
在所述至少一个目标切片表中确定主键;
基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息。
2.如权利要求1所述的方法,其特征在于,还包括:
确定多个回溯目标;
确定每个回溯目标对应的切片周期;
基于所述切片周期获取每个回溯目标对应的多个增量数据;
基于所述多个增量数据生成每个回溯目标对应的数据仓库切片集合。
3.如权利要求2所述的方法,其特征在于,基于所述切片周期获取每个回溯目标对应的多个增量数据,包括:
确定每个回溯目标对应的维度事实表和日志型数据表;
将所述维度事实表和所述日志型数据表进行关联;
在每个切片周期获取所述回溯目标对应的维度事实表和日志型数据表的增量数据。
4.如权利要求3所述的方法,其特征在于,将所述维度事实表和所述日志型数据表进行关联,包括:
根据所述回溯目标确定主键;
基于所述主键将所述维度事实表和所述日志型数据表进行关联。
5.如权利要求3所述的方法,其特征在于,基于所述多个增量数据生成每个回溯目标对应的数据仓库切片集合,包括:
获取所述回溯目标对应的维度事实表和日志型数据表的基础数据;
通过所述多个增量数据生成多个数据仓库切片;
根据所述基础数据和所述多个数据仓库切片生成每个回溯目标对应的数据仓库切片集合。
6.如权利要求1所述的方法,其特征在于,基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合,包括:
根据所述回溯目标确定数据主题;
根据所述数据主题在所述多个数据仓库切片表集合中确定目标数据仓库切片表集合。
7.如权利要求1所述的方法,其特征在于,根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表,包括:
将所述回溯日期按照所述目标切片表对应的切片周期进行拆分,生成多个时间节点;
在所述目标数据仓库切片表集合中提取与所述多个时间节点对应的目标切片表。
8.如权利要求1所述的方法,其特征在于,基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息,包括:
过滤所述至少一个目标切片表中的数据;
根据所述回溯目标确定统计指标;
按照所述主键由所述至少一个目标切片中提取数据;
根据所述数据计算所述统计指标的数值。
9.如权利要求8所述的方法,其特征在于,过滤所述至少一个目标切片表中的数据,包括:
提取所述至少一个目标切片表中的主键对应的主键时间;
将所述回溯日期和所述主键时间进行比较;
将所述至少一个目标切片表中所述主键时间晚于所述回溯日期的数据剔除。
10.如权利要求1所述的方法,其特征在于,还包括:
根据所述回溯信息评估所述回溯目标对应的业务状态;和/或
根据所述回溯信息调整所述回溯目标对应的业务策略;和/或
根据所述回溯信息更新所述回溯目标对应的业务信息。
11.一种基于多维关联数据仓库切片表的数据回溯装置,其特征在于,包括:
回溯模块,用于获取数据回溯目标和数据回溯日期;
目标模块,用于基于所述数据回溯目标在多个数据仓库切片表集合中确定目标数据仓库切片表集合;
日期模块,用于根据所述数据回溯日期在所述目标数据仓库切片表集合中确定至少一个目标切片表;
主键模块,用于在所述至少一个目标切片表中确定主键;
回溯模块,用于基于所述主键对所述至少一个目标切片表中的数据进行数据回溯,生成回溯信息。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至10中任一所述的方法。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至10中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410001973.0A CN117520313B (zh) | 2024-01-02 | 2024-01-02 | 基于多维关联数据仓库切片表的数据回溯方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410001973.0A CN117520313B (zh) | 2024-01-02 | 2024-01-02 | 基于多维关联数据仓库切片表的数据回溯方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117520313A true CN117520313A (zh) | 2024-02-06 |
CN117520313B CN117520313B (zh) | 2024-03-26 |
Family
ID=89764795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410001973.0A Active CN117520313B (zh) | 2024-01-02 | 2024-01-02 | 基于多维关联数据仓库切片表的数据回溯方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520313B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007087358A (ja) * | 2005-09-22 | 2007-04-05 | Shigehiro Boku | ウェブログにおいて自動でトラックバックを作成する装置 |
CN105740365A (zh) * | 2016-01-27 | 2016-07-06 | 北京掌阔移动传媒科技有限公司 | 一种数据仓库快速查询方法和装置 |
CN107562768A (zh) * | 2016-09-14 | 2018-01-09 | 彩讯科技股份有限公司 | 一种数据处理过程动态回溯追踪方法 |
CN112306820A (zh) * | 2020-11-26 | 2021-02-02 | 南京欣华软件技术有限公司 | 一种日志运维根因分析方法、装置、电子设备及存储介质 |
CN113535481A (zh) * | 2021-07-20 | 2021-10-22 | 北京京东振世信息技术有限公司 | 数据的回溯方法、装置和非易失性计算机可读存储介质 |
CN114020535A (zh) * | 2021-11-05 | 2022-02-08 | 中远海运科技股份有限公司 | 一种基于航运数据快照的回溯分析系统 |
CN114780370A (zh) * | 2022-05-10 | 2022-07-22 | 中国平安财产保险股份有限公司 | 基于日志的数据修正方法、装置、电子设备及存储介质 |
CN116015823A (zh) * | 2022-12-19 | 2023-04-25 | 绿盟科技集团股份有限公司 | 一种事件检测方法、装置、电子设备及存储介质 |
CN117216031A (zh) * | 2023-09-12 | 2023-12-12 | 中国联合网络通信集团有限公司 | 一种基于分布式数据库的数据回溯方法、装置及介质 |
-
2024
- 2024-01-02 CN CN202410001973.0A patent/CN117520313B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007087358A (ja) * | 2005-09-22 | 2007-04-05 | Shigehiro Boku | ウェブログにおいて自動でトラックバックを作成する装置 |
CN105740365A (zh) * | 2016-01-27 | 2016-07-06 | 北京掌阔移动传媒科技有限公司 | 一种数据仓库快速查询方法和装置 |
CN107562768A (zh) * | 2016-09-14 | 2018-01-09 | 彩讯科技股份有限公司 | 一种数据处理过程动态回溯追踪方法 |
CN112306820A (zh) * | 2020-11-26 | 2021-02-02 | 南京欣华软件技术有限公司 | 一种日志运维根因分析方法、装置、电子设备及存储介质 |
CN113535481A (zh) * | 2021-07-20 | 2021-10-22 | 北京京东振世信息技术有限公司 | 数据的回溯方法、装置和非易失性计算机可读存储介质 |
CN114020535A (zh) * | 2021-11-05 | 2022-02-08 | 中远海运科技股份有限公司 | 一种基于航运数据快照的回溯分析系统 |
CN114780370A (zh) * | 2022-05-10 | 2022-07-22 | 中国平安财产保险股份有限公司 | 基于日志的数据修正方法、装置、电子设备及存储介质 |
CN116015823A (zh) * | 2022-12-19 | 2023-04-25 | 绿盟科技集团股份有限公司 | 一种事件检测方法、装置、电子设备及存储介质 |
CN117216031A (zh) * | 2023-09-12 | 2023-12-12 | 中国联合网络通信集团有限公司 | 一种基于分布式数据库的数据回溯方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117520313B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20060047715A1 (en) | System and method for managing and analyzing data from an operational database | |
CN108415964A (zh) | 数据表查询方法、装置、终端设备及存储介质 | |
CN111858742A (zh) | 一种数据可视化方法、装置、存储介质及设备 | |
US5826104A (en) | Batch program status via tape data set information for dynamically determining the real time status of a batch program running in a main frame computer system | |
CN110781235A (zh) | 基于大数据的采购数据处理方法、装置、终端及存储介质 | |
CN111723004B (zh) | 敏捷软件开发的度量方法,度量数据输出方法以及装置 | |
CN108415990B (zh) | 数据质量监控方法、装置、计算机设备和存储介质 | |
CN117520313B (zh) | 基于多维关联数据仓库切片表的数据回溯方法及装置 | |
CN114511314A (zh) | 一种支付账户管理的方法、装置、计算机设备和存储介质 | |
CN114722045A (zh) | 时间序列数据的存储方法及装置 | |
CN111427936B (zh) | 报表生成方法、装置、计算机设备和存储介质 | |
CN112819297A (zh) | 生产任务完成效率分析方法、装置和终端设备 | |
JP5252009B2 (ja) | データ集計装置およびデータ集計プログラム | |
JP5252008B2 (ja) | データ集計装置およびデータ集計プログラム | |
CN116775667B (zh) | 一种关联数据的处理方法及装置 | |
JP5252012B2 (ja) | データ集計装置およびデータ集計プログラム | |
CN114647555B (zh) | 基于多业务系统的数据预警方法、装置、设备和介质 | |
JP2006251891A (ja) | データ集計装置およびデータ集計プログラム | |
CN111737281B (zh) | 数据库查询方法、装置、电子设备以及可读存储介质 | |
JP5252011B2 (ja) | データ集計装置およびデータ集計プログラム | |
JP5252010B2 (ja) | データ集計装置およびデータ集計プログラム | |
CN118069455A (zh) | 一种数据实时处理方法及其系统 | |
CN117171174A (zh) | 一种数据处理方法、装置及电子设备 | |
CN114638534A (zh) | 风险处理方法、装置、电子设备及存储介质 | |
CN118096011A (zh) | 一种库存数据的更新方法、更新装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |