CN115422198A - 大数据拉链表处理方法、装置、设备及存储介质 - Google Patents
大数据拉链表处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115422198A CN115422198A CN202211123895.9A CN202211123895A CN115422198A CN 115422198 A CN115422198 A CN 115422198A CN 202211123895 A CN202211123895 A CN 202211123895A CN 115422198 A CN115422198 A CN 115422198A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- chain
- pull
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 47
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 81
- 230000008859 change Effects 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 7
- 230000002950 deficient Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 7
- 230000002354 daily effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003203 everyday effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2308—Concurrency control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种大数据拉链表处理方法、装置、设备及存储介质,涉及数据处理领域。该方法包括:获取拉链表的增量数据,所述拉链表的主键包括客户标识和产品标识,所述拉链表的信息变化键包括消费明细、收益明细、资产明细中的至少一种;根据所述增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数;根据每个并发数所对应的增量数据以及所述拉链表的主键和信息变化键,对所述拉链表进行处理。本申请的方法,解决了现有的系统在低成本和高效率的满足用户的需求方面有所欠缺的问题。
Description
技术领域
本申请涉及数据处理,尤其涉及一种大数据拉链表处理方法、装置、设备及存储介质。
背景技术
伴随着金融系统集成化和专业化的提高,用户对金融系统提供的数据服务的要求范围和广度也越来越高。
金融系统中的数据日变动数量以亿为单位,按照传统实现方法,每个产品系统每日计算出客户的日终持有情况,再进行汇总,每日的数据量达到上百亿,消耗了大量的存储资源,提高了数据的使用成本,同时也降低了系统的稳定性,且需要维护的数据量以每日客户数量成倍增长,维护难度不断上升。实际上金融系统中的数据只是部分发生变化,且不同数据的变化频率不同,例如不同数据分别以日、月以及年为周期变化。
现有的系统没有考虑金融系统中的数据特点,在低成本和高效率的满足用户的需求方面有所欠缺。
发明内容
本申请提供一种大数据拉链表处理方法、装置、设备及存储介质,用以解决现有的系统没有考虑金融系统中的数据特点,在低成本和高效率的满足用户的需求方面有所欠缺的问题。
一方面,本申请提供一种大数据拉链表处理方法,包括:
获取拉链表的增量数据,所述拉链表的主键包括客户标识和产品标识,所述拉链表的信息变化键包括消费明细、收益明细、资产明细中的至少一种;
根据所述增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数;
根据每个并发数所对应的增量数据以及所述拉链表的主键和信息变化键,对所述拉链表进行处理。
可选地,所述根据所述增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数,包括:
根据所述增量数据所占的存储空间和每个并发线程所对应的增量数据的处理量,获取用于处理拉链表的基于Spark框架的并发数;其中,每个并发线程对应的处理量相同。
可选地,所述根据每个并发数所对应的增量数据以及所述拉链表的主键和信息变化键,对所述拉链表进行处理,包括:
针对每个并发线程所对应的增量数据,以所述主键进行前缀匹配,获取信息变化键下相对于开链数据发生信息变化的目标数据;
对所述目标数据对应的开链数据进行闭链操作,根据所述目标数据生成新的开链数据,并将所述新的开链数据存储在HBase数据库中。
可选地,所述获取拉链表的增量数据之前,所述方法还包括:
构建所述拉链表,所述拉链表还包括开始时间和结束时间,其中,所述结束时间设置为预设时间,用于指示最新数据,所述开始闭链时间设置为数据发生变化的时间。
可选地,所述将所述新的开链数据存储在HBase数据库中,所述方法还包括:
通过bulkload方式将所述新的开链数据存储至所述HBase数据库中。
可选地,所述通过bulkload方式将所述新的开链数据存储至所述HBase数据库中,包括:
根据所述HBase数据库的region分布,通过所述新的开链数据生成Hfile文件;
将所述Hfile文件注册到所述HBase数据库。
可选地,所述方法还包括:
根据所述拉链表中同一主键的开链日期字段,从下至上获取多条表单数据;
根据所述多条表单数据,进行历史趋势统计。
另一方面,本申请提供一种大数据拉链表处理装置,包括:
获取模块,用于获取拉链表的增量数据,所述拉链表的主键包括客户标识和产品标识,所述拉链表的信息变化键包括消费明细、收益明细、资产明细中的至少一种;
计算模块,用于根据所述增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数;
处理模块,根据每个并发数所对应的增量数据以及所述拉链表的主键和信息变化键,对所述拉链表进行处理。
一种可能的实现方式中,计算模块还具体用于:
根据所述增量数据所占的存储空间和每个并发线程所对应的增量数据的处理量,获取用于处理拉链表的基于Spark框架的并发数;其中,每个并发线程对应的处理量相同。
一种可能的实现方式中,处理模块还具体用于:
针对每个并发线程所对应的增量数据,以所述主键进行前缀匹配,获取信息变化键下相对于开链数据发生信息变化的目标数据;
对所述目标数据对应的开链数据进行闭链操作,根据所述目标数据生成新的开链数据,并将所述新的开链数据存储在HBase数据库中。
一种可能的实现方式中,获取模块还具体用于:
构建所述拉链表,所述拉链表还包括开始时间和结束时间,其中,所述结束时间设置为预设时间,用于指示最新数据,所述开始时间设置为数据发生变化的时间。
一种可能的实现方式中,处理模块还具体用于:
通过bulkload方式将所述新的开链数据存储至所述HBase数据库中。
一种可能的实现方式中,处理模块还具体用于:
根据所述HBase数据库的region分布,通过所述新的开链数据生成Hfile文件;
将所述Hfile文件注册到所述HBase数据库。
一种可能的实现方式中,获取模块还具体用于:
根据所述拉链表中同一主键的开链日期字段,从下至上获取多条表单数据;
根据所述多条表单数据,进行历史趋势统计。
本申请的第三方面,提供了一种电子设备,包括:
处理器和存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,使得电子设备执行第一方面中任一项的方法。
本申请的第四方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面任一项的硬件外设的驱动程序的确定方法。
本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面任一项所述的方法。
本实施例提供了一种大数据拉链表处理方法、装置、设备及存储介质,该方法通过获取拉链表的增量数据,根据增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数;根据每个并发数所对应的增量数据以及拉链表的主键和信息变化键,对拉链表进行处理。该方法通过使用拉链表解决了金融系统中大量数据的存储与处理,通过计算基于Spark框架的并发数加快了大数据的拉链表的处理过程。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请提供的大数据拉链表处理方法的具体的应用场景图;
图2为本申请实施例提供的大数据拉链表处理方法流程图一;
图3为本申请实施例提供的大数据拉链表处理方法流程图二;
图4为本申请实施例提供的一种大数据拉链表处理装置的结构示意图;
图5为本申请实施例提供的大数据拉链表处理设备的硬件结构图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1为本申请提供的大数据拉链表处理方法的具体的应用场景图。如图1所示,该应用场景包括:金融系统101、数据A、数据B、数据C以及数据库102。示例性的,数据A、数据B以及数据C分别代表金融系统三个不同日期产生的数据,将数据A、数据B以及数据C不加处理的存入数据库102,则会占据大量储存空间,同时也占用IO口资源,且大量数据的维护需要更多的工作量。
本申请提供了一种大数据拉链表处理方法,通过使用拉链表处理金融系统中的大数据,同时在处理增量数据的时候通过计算基于Spark框架的并发数提高数据处理的效率,节省了储存空间和IO口资源,降低大量数据的维护所需的工作量。
本申请提供的大数据拉链表处理方法,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的大数据拉链表处理方法流程图一。如图2所示,本实施例的方法,包括:
S201、获取拉链表的增量数据,拉链表的主键包括客户标识和产品标识,拉链表的信息变化键包括消费明细、收益明细、资产明细中的至少一种;
拉链表是维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便地还原出拉链时间点的客户记录。
本实施例中,拉链表是根据金融系统的数据创建的。金融系统根据业务需求,通过不同渠道向客户提供多种数据的等收益趋势图,汇总客户在金融系统各个产品和系统的数据变化趋势,按照不同维度展示。目前金融系统提供服务的方式,是根据业务日期,每日计算每个产品明细的最新数据,再对所有产品进行汇总计算,导致每日新增数十亿的增量数据,进而导致系统的计算资源、存储资源不足,提高了金融系统的负担。在金融系统中,通过使用拉链表,每日仅根据少量变动记录,对历史数据进行闭链,对最新数据进行开链。仅存储变化日期的数据,开链日期到闭链日期间的数据是一个静态数据,不占用金融系统的存储空间。
在拉链表中,主键指的是一个列或多列的组合,其值能唯一地标识表中的每一行,通过它可强制表的实体完整性。主键主要是用于其他表的外键关联,以及本记录的修改与删除。主键在搜索时作为索引提高了数据库的操作速度。
本实施例中,拉链表的主键包括客户标识和产品标识,通过客户标识和产品标识定位数据,且以客户标识为主,每个客户标识下的产品标识与该客户标识具有相同前缀。客户标识是指每个客户唯一拥有的一串字符或者数字,用于客户编码。产品标识是指金融系统中的产品唯一拥有的一串字符或者数字,此处产品包含了产品和系统,产品包括存单等,系统包括存款系统、购贷系统以及房改系统等。
在拉链表中,信息变化键通常选择会发生变化的字段且变化缓慢的变量,不能选择每天都发生变化的无对比意义字段,例如日期等。本实施例中,为了涵盖的范围更加全面,拉链表的信息变化键包括消费明细、收益明细、资产明细中的至少一种。
本实施例中,增量数据是金融系统中,各个产品系统每日发生变化的流水数据。对于部分数据,客户的持有份额是低频变化,净值表是每日变化,且净值数据小。可选地,本实施例中,可以针对份额表中的份额做拉链存储。
在一种可能的实现方式中,获取拉链表的增量数据之前,构建拉链表,拉链表还包括开始时间和结束时间,其中,结束时间设置为预设时间,用于指示最新数据,开始时间设置为数据发生变化的时间;
拉链表通常还会包括:开始时间和结束时间。通过主键与历史数据进行对比,判断当前数据与历史数据是否发生变化,如果发生变化或者新增则进行相应的开链、闭链操作。结束时间设置为预设时间,通常设置为最大时间29991231,开始时间设置为数据发生变化的时间,即可以为业务时间。
S202、根据增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数;
Spark框架是专为大规模数据处理而设计的快速通用的计算引擎。Spark框架采用类HadoopMapReduce的通用并行框架,中间输出结果可以保存在内存中,从而不再需要读写Hadoop分布式文件系统。其中,MapReduce是面向大数据并行处理的计算模型、框架和平台。拉链表的基于Spark框架的并发数(并发度)是指金融系统同时能处理的增量数据请求数量,同样反映了金融系统的负载能力。
本实施例中,金融系统采用Spark框架,为了提高增量数据的处理速度,同时考虑到金融系统中增量数据较多的特点,需要对增量数据与原拉链表的索引过程进行并发处理。根据增量数量所占的存储空间,进行增量数据的文件的划分,为后续工作做好准备。
S203、根据每个并发数所对应的增量数据以及拉链表的主键和信息变化键,对拉链表进行处理。
本实施例中,首先以主键为索引查询拉链表中的开链数据,即结束时间为预设时间的数据,再将增量数据与之进行对比,筛选出拉链表中需要进行闭链的数据,根据信息变化键进行闭链操作。
本实施例提供了一种大数据拉链表处理方法,该方法通过获取拉链表的增量数据,根据增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数;根据每个并发数所对应的增量数据以及拉链表的主键和信息变化键,对拉链表进行处理。该方法通过使用拉链表解决了金融系统中大量数据的存储与处理,通过计算基于Spark框架的并发数加快了大数据的拉链表的处理过程。
图3为本申请实施例提供的大数据拉链表处理方法流程图二。如图3所示,本实施例在图2所示实施例的基础上,对大数据拉链表处理方法进行详细说明。该方法包括:
S301、根据增量数据所占的存储空间和每个并发线程所对应的增量数据的处理量,获取用于处理拉链表的基于Spark框架的并发数;其中,每个并发线程对应的处理量相同;
本实施例中,拉链表的基于Spark框架的并发数由两个因素决定:增量数据所占的存储空间和每个并发线程所对应的增量数据的处理量。即可以首先规定每个并发线程所对应的增量数据的处理量,再用增量数据所占的存储空间与每个并发线程所对应的增量数据的处理量相比,即可以得到并发数。也可以预先规定增量数据所占的存储空间对应不同并发数,即将增量数据所占的存储空间作为分段函数的自变量,并发数作为分段函数的因变量,通过分段函数确定并发数。
本领域的技术人员可以理解,拉链表的基于Spark框架的并发数可以同时考虑其他因素,如数据库的硬件配置等因素,计算方法也不限于以上两种方法。同时,每个并发线程对应的处理量相同也不是充分条件。
S302、针对每个并发线程所对应的增量数据,以主键进行前缀匹配,获取信息变化键下相对于开链数据发生信息变化的目标数据;
本实施例中,每个客户都有一个客户标识,每个客户名下的产品对应单个产品标识,且产品标识的前缀与客户标识的前缀相同。在以主键进行前缀匹配时,根据结束时间获取开链数据。举例来说,表1是一个拉链表,如表1所示,客户A的客户标识为010001,客户A名下有三个产品,产品A的产品标识为010010,产品B的产品标识为010020,产品C的产品标识为010030,即客户A的客户标识与产品标识前缀都为01,在对增量数据进行处理时,以01进行前缀匹配,在结束时间为预设时间即29991231的数据中,寻找客户A的消费明细、收益明细以及资产明细的变化数据,在表1中,客户标识、产品A以及产品B是开链数据,所以在这三条数据中寻找增量数据里发生信息变化的数据,即目标数据。
表1
S303、对目标数据对应的开链数据进行闭链操作,根据目标数据生成新的开链数据;
本实施例中,在增量数据中确定了目标数据的同时,也确定了在拉链表中的开链数据。此时开链数据已经不是最新数据了,因此需要进行闭链操作,即把开链数据的结束时间修改为业务日期。同时需要新建一个文件用于存放新的开链数据,这里的开链数据是增量数据里的目标数据,同时需要将该开链数据的开始时间设置为营业时间,结束时间设置为预设时间29991231。
S304、根据HBase数据库的region分布,通过新的开链数据生成Hfile文件;
HBase数据库是为了解决大规模半结构化、非结构化复杂数据的存储问题,而诞生的一种非关系型数据库(NoSQL)。HBase数据库是一个可以进行随机访问的存取和检索数据的存储平台,存储结构化和半结构化的数据,因此一般的网站可以将网页内容和日志信息都存在HBase数据库里。
在HBase数据库的逻辑存储结构中,包含了表、行键、列族以及时间戳。HBase数据库中的数据以表的形式存储。在HBase表里,每一行代表一个数据对象,每一行都以行键来进行唯一标识,行键可以是任意字符串。HBase中的列族是一些列的集合,列族中所有列成员有着相同的前缀,列族的名字必须是可显示的字符串。在逻辑上HBase表按照面向列存储,在物理储存中,HBase表有Region分区的概念,把每个数据都合并到一个Region分区,并按区储存。
本实施例中,HBase表的行键是客户标识和产品标识,在物理储存中,HBase表按照Region分区储存。因此根据HBase数据库的Region分布,生成Hfile文件。Hfile文件是HBase存储数据的文件组织形式。
S305、将Hfile文件注册到HBase数据库;
在实际生产环境中,有这样一种场景:用户数据位于Hadoop分布式文件系统中,业务需要定期将这部分海量数据导入HBase数据库,以执行随机查询更新操作。这种场景如果调用写入API进行处理,极有可能会给RegionServer带来较大的写入压力,包括:影响集群稳定性;消耗大量CPU资源、带宽资源、内存资源以及IO资源,与其他业务产生资源竞争;在某些场景下,导致集群阻塞。鉴于存在上述问题,HBase数据库提供了另一种将数据写入HBase集群的方法:bulkload技术。bulkload首先使用MapReduce将待写入集群数据转换为Hfile文件,再直接将这些Hfile文件加载到在线集群中。
本实施例中,采用bulkload技术,将Hfile文件注册到HBase数据库。在经过对目标数据对应的开链数据进行闭链操作,根据目标数据生成新的开链数据,并通过Hfile文件将新的开链数据写入HBase数据库之后,数据库中变化后的拉链表如表2所示,其中闭链数据为结束时间为20220907和20220908对应的数据,开链数据为结束时间为29991231对应的数据,这里20220908是本次业务时间。
表2
S306、根据拉链表中同一主键的开链日期字段,从下至上获取多条表单数据;
本实施例中,开链日期实际上是字符,且为相同的字符,因此在获取某个客户的某个产品或者系统的历史数据时,要从下至上获取表单数据,才是按照时间由近到远的顺序的数据。
S307、根据多条表单数据,进行历史趋势统计。
本实施例中,在获取多条表单数据之后,进行单个客户的某个产品或者系统的数据进行历史趋势统计时,可以只统计结束时间为预设时间的数据,也可以统计结束时间依次递归的数据,并不只限于开链数据。
本实施例提供了一种大数据拉链表处理方法,该方法通过增量数据所占的存储空间和每个并发线程所对应的增量数据的处理量,获取用于处理拉链表的基于Spark框架的并发数;针对每个并发线程所对应的增量数据,以主键进行前缀匹配,获取信息变化键下相对于开链数据发生信息变化的目标数据;对目标数据对应的开链数据进行闭链操作,根据目标数据生成新的开链数据;根据HBase数据库的region分布,通过开链数据生成Hfile文件;将Hfile文件注册到HBase数据库;根据拉链表中同一主键的开链日期字段,从下至上获取多条表单数据;根据多条表单数据,进行历史趋势统计。该方法通过计算基于Spark框架的并发数提升了增量数据的处理效率,通过使用Hfile文件简化了数据存储的流程,减轻数据库压力,根据开链日期字段进行历史趋势统计,简单快捷的对金融系统的大数据进行分类,同时提高了历史趋势统计的效率。
图4为本申请实施例提供的一种大数据拉链表处理装置的结构示意图。本实施例的装置可以为软件和/或硬件的形式。如图4所示,本申请实施例提供的一种大数据拉链表处理装置400,包括获取模块401、计算模块402以及处理模块403,
获取模块401,用于获取拉链表的增量数据,拉链表的主键包括客户标识和产品标识,拉链表的信息变化键包括消费明细、收益明细、资产明细中的至少一种;
计算模块402,用于根据增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数;
处理模块403,用于根据每个并发数所对应的增量数据以及拉链表的主键和信息变化键,对拉链表进行处理。
一种可能的实现方式中,计算模块还具体用于:
根据增量数据所占的存储空间和每个并发线程所对应的增量数据的处理量,获取用于处理拉链表的基于Spark框架的并发数;其中,每个并发线程对应的处理量相同。
一种可能的实现方式中,处理模块还具体用于:
针对每个并发线程所对应的增量数据,以主键进行前缀匹配,获取信息变化键下相对于开链数据发生信息变化的目标数据;
对目标数据对应的开链数据进行闭链操作,根据目标数据生成新的开链数据,并将新的开链数据存储在HBase数据库中。
一种可能的实现方式中,获取模块还具体用于:
构建拉链表,拉链表还包括开始时间和结束时间,其中,结束时间设置为预设时间,用于指示最新数据,开始闭链时间设置为数据发生变化的时间。
一种可能的实现方式中,处理模块还具体用于:
通过bulkload方式将新的开链数据存储至HBase数据库中。
一种可能的实现方式中,处理模块还具体用于:
根据HBase数据库的region分布,通过新的开链数据生成Hfile文件;
将Hfile文件注册到HBase数据库。
一种可能的实现方式中,获取模块还具体用于:
根据拉链表中同一主键的开链日期字段,从下至上获取多条表单数据;
根据多条表单数据,进行历史趋势统计。
本实施例提供的大数据拉链表处理装置,可用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图5为本申请实施例提供的大数据拉链表处理设备的硬件结构图。如图5所示,该大数据拉链表处理设备500包括:
处理器501和存储器502;
存储器存储计算机执行指令;
处理器执行存储器502存储的计算机执行指令,使得电子设备执行如上述的大数据拉链表处理方法。
应理解,上述处理器501可以是中央处理单元(英文:CentralProcessingUnit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignalProcessor,简称:DSP)、专用集成电路(英文:ApplicationSpecificIntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器502可能包含高速随机存取存储器(英文:RandomAccessMemory,简称:RAM),也可能还包括非易失性存储器(英文:Non-volatilememory,简称:NVM),例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
本申请实施例相应还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现大数据拉链表处理方法。
本申请实施例相应还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现大数据拉链表处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
本申请的技术方案中,所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (11)
1.一种大数据拉链表处理方法,其特征在于,包括:
获取拉链表的增量数据,所述拉链表的主键包括客户标识和产品标识,所述拉链表的信息变化键包括消费明细、收益明细、资产明细中的至少一种;
根据所述增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数;
根据每个并发数所对应的增量数据以及所述拉链表的主键和信息变化键,对所述拉链表进行处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数,包括:
根据所述增量数据所占的存储空间和每个并发线程所对应的增量数据的处理量,获取用于处理拉链表的基于Spark框架的并发数;其中,每个并发线程对应的处理量相同。
3.根据权利要求1所述的方法,其特征在于,所述根据每个并发数所对应的增量数据以及所述拉链表的主键和信息变化键,对所述拉链表进行处理,包括:
针对每个并发线程所对应的增量数据,以所述主键进行前缀匹配,获取信息变化键下相对于开链数据发生信息变化的目标数据;
对所述目标数据对应的开链数据进行闭链操作,根据所述目标数据生成新的开链数据,并将所述新的开链数据存储在HBase数据库中。
4.根据权利要求1所述的方法,其特征在于,所述获取拉链表的增量数据之前,所述方法还包括:
构建所述拉链表,所述拉链表还包括开始时间和结束时间,其中,所述结束时间设置为预设时间,用于指示最新数据,所述开始时间设置为数据发生变化的时间。
5.根据权利要求3所述的方法,其特征在于,所述将所述新的开链数据存储在HBase数据库中,所述方法还包括:
通过bulkload方式将所述新的开链数据存储至所述HBase数据库中。
6.根据权利要求5所述的方法,其特征在于,所述通过bulkload方式将所述新的开链数据存储至所述HBase数据库中,包括:
根据所述HBase数据库的region分布,通过所述新的开链数据生成Hfile文件;
将所述Hfile文件注册到所述HBase数据库。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述拉链表中同一主键的开链日期字段,从下至上获取多条表单数据;
根据所述多条表单数据,进行历史趋势统计。
8.一种大数据拉链表处理设备,其特征在于,包括:
获取模块,用于获取拉链表的增量数据,所述拉链表的主键包括客户标识和产品标识,所述拉链表的信息变化键包括消费明细、收益明细、资产明细中的至少一种;
计算模块,用于根据所述增量数据所占的存储空间,获取用于处理拉链表的基于Spark框架的并发数;
处理模块,根据每个并发数所对应的增量数据以及所述拉链表的主键和信息变化键,对所述拉链表进行处理。
9.一种电子设备,包括:处理器和存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的一种大数据拉链表处理方法。
11.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211123895.9A CN115422198A (zh) | 2022-09-15 | 2022-09-15 | 大数据拉链表处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211123895.9A CN115422198A (zh) | 2022-09-15 | 2022-09-15 | 大数据拉链表处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115422198A true CN115422198A (zh) | 2022-12-02 |
Family
ID=84203670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211123895.9A Pending CN115422198A (zh) | 2022-09-15 | 2022-09-15 | 大数据拉链表处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115422198A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012178072A1 (en) * | 2011-06-23 | 2012-12-27 | Alibaba Group Holding Limited | Extracting incremental data |
CN114218335A (zh) * | 2021-12-16 | 2022-03-22 | 中国建设银行股份有限公司 | 数据处理方法及设备 |
CN114860727A (zh) * | 2022-04-29 | 2022-08-05 | 上海哔哩哔哩科技有限公司 | 拉链表更新方法及装置 |
-
2022
- 2022-09-15 CN CN202211123895.9A patent/CN115422198A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012178072A1 (en) * | 2011-06-23 | 2012-12-27 | Alibaba Group Holding Limited | Extracting incremental data |
CN114218335A (zh) * | 2021-12-16 | 2022-03-22 | 中国建设银行股份有限公司 | 数据处理方法及设备 |
CN114860727A (zh) * | 2022-04-29 | 2022-08-05 | 上海哔哩哔哩科技有限公司 | 拉链表更新方法及装置 |
Non-Patent Citations (1)
Title |
---|
王涛;: "使用JSON模型优化数据拉链表", 金融电子化, no. 03, 15 March 2016 (2016-03-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11379755B2 (en) | Feature processing tradeoff management | |
US10055426B2 (en) | System and method transforming source data into output data in big data environments | |
Silva et al. | SQL: From traditional databases to big data | |
US10339465B2 (en) | Optimized decision tree based models | |
US11100420B2 (en) | Input processing for machine learning | |
CN108536761A (zh) | 报表数据查询方法及服务器 | |
US20150379429A1 (en) | Interactive interfaces for machine learning model evaluations | |
US7774318B2 (en) | Method and system for fast deletion of database information | |
US20150379425A1 (en) | Consistent filtering of machine learning data | |
Bog et al. | A mixed transaction processing and operational reporting benchmark | |
CN112434015A (zh) | 数据存储的方法、装置、电子设备及介质 | |
CN111179068A (zh) | 一种企业履约信用级别的确定方法、装置及存储介质 | |
US11947613B2 (en) | System and method for efficiently querying data using temporal granularities | |
CN113821573A (zh) | 海量数据快速检索服务构建方法、系统、终端及存储介质 | |
WO2023197865A1 (zh) | 一种信息存储方法及装置 | |
CN115422198A (zh) | 大数据拉链表处理方法、装置、设备及存储介质 | |
US9092472B1 (en) | Data merge based on logical segregation | |
Jiadi et al. | Research on Data Center Operation and Maintenance Management Based on Big Data | |
US10628452B2 (en) | Providing multidimensional attribute value information | |
CN114741434B (zh) | 一种海量es搜索数据的预统计方法及系统 | |
CN115544096B (zh) | 数据查询方法、装置、计算机设备及存储介质 | |
JP5252009B2 (ja) | データ集計装置およびデータ集計プログラム | |
JP5252008B2 (ja) | データ集計装置およびデータ集計プログラム | |
CN117573687B (zh) | 一种基于ClickHouse数据库的业务表单反写/读取方法及系统 | |
CN112402955B (zh) | 游戏日志记录方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |