CN116579866B - 一种基于Spark和Hadoop的数据对账方法及系统 - Google Patents

一种基于Spark和Hadoop的数据对账方法及系统 Download PDF

Info

Publication number
CN116579866B
CN116579866B CN202310550587.2A CN202310550587A CN116579866B CN 116579866 B CN116579866 B CN 116579866B CN 202310550587 A CN202310550587 A CN 202310550587A CN 116579866 B CN116579866 B CN 116579866B
Authority
CN
China
Prior art keywords
reconciliation
data
checking
spark
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310550587.2A
Other languages
English (en)
Other versions
CN116579866A (zh
Inventor
梁英林
孔令超
林国友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gongqing City Zhongtaolian Supply Chain Service Co ltd
Lin Zhoujia Home Network Technology Co ltd
Linzhou Lilijia Supply Chain Service Co ltd
Foshan Zhongtaolian Supply Chain Service Co Ltd
Tibet Zhongtaolian Supply Chain Service Co Ltd
Original Assignee
Gongqing City Zhongtaolian Supply Chain Service Co ltd
Lin Zhoujia Home Network Technology Co ltd
Linzhou Lilijia Supply Chain Service Co ltd
Foshan Zhongtaolian Supply Chain Service Co Ltd
Tibet Zhongtaolian Supply Chain Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gongqing City Zhongtaolian Supply Chain Service Co ltd, Lin Zhoujia Home Network Technology Co ltd, Linzhou Lilijia Supply Chain Service Co ltd, Foshan Zhongtaolian Supply Chain Service Co Ltd, Tibet Zhongtaolian Supply Chain Service Co Ltd filed Critical Gongqing City Zhongtaolian Supply Chain Service Co ltd
Priority to CN202310550587.2A priority Critical patent/CN116579866B/zh
Publication of CN116579866A publication Critical patent/CN116579866A/zh
Application granted granted Critical
Publication of CN116579866B publication Critical patent/CN116579866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及数据对账技术领域,尤其涉及一种基于Spark和Hadoop的数据对账方法及系统,所述数据对账系统与业务系统通信连接;所述数据对账系统包括相互通信连接的对账前端、数据中台、对账后台和调度服务器;所述方法包括:S1、录入相关的初始数据表和对账模板到对账前端中,对相关的初始数据表和对账模板进行校验,将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;S2、抽取业务系统中相关的对账数据表到数据中台的Hive数据库;S3、对账后台将初始数据表和对账数据表进行数据对账,根据对账模板生成带有对账结果的对账文件;S4、将对账文件存储至数据中台,调度服务器向对账前端通知下载信息。本发明能快速进行对账校验,且得到准确的校验结果。

Description

一种基于Spark和Hadoop的数据对账方法及系统
技术领域
本发明涉及数据对账技术领域,尤其涉及一种基于Spark和Hadoop的数据对账方法及系统。
背景技术
随着金融业的发展,金融场景在不断的丰富中,资金交易的类型在不断增加,对资金交易的安全把控也越来越严格,凡是涉及到资金的交易都应该做对账以确保资金安全,如每个月底,财务员都会上传个人整理的Excle格式的明细记账表或者是汇总记账表,导入总公司的业务系统进行对账校验。因此,对账的需求在不断增加。
现有的对账中,如图1所示,财务员通过业务系统的对账前端上传记账表,再使用Java读取上传的记账表,并与业务系统的数据库MySql进行对比校验,虽然能够得到校验结果,但会有如下的问题:
1.当上传的记账表数据特别多的时候,使得校验时间特别漫长,且校验程序容易中途挂掉,导致对账检验不准确和不完整。
2.由于是在业务系统的原有数据库进行校验,当上传的记账表数据特别多的时候,极大影响了整个系统的运行。
发明内容
本发明的目的在于提出一种基于Spark和Hadoop的数据对账方法及系统,能快速进行对账校验,且得到准确的校验结果。
为达此目的,本发明采用以下技术方案:
一种基于Spark和Hadoop的数据对账方法,应用于一种基于Spark和Hadoop的数据对账系统,所述数据对账系统与业务系统通信连接;
所述数据对账系统包括相互通信连接的对账前端、数据中台、对账后台和调度服务器;
所述数据中台包括Hadoop平台和Hive数据库;
所述对账后台包括Spark程序;
所述调度服务器用于对所述系统中的工作流运行进行管理;
所述方法包括:
S1、录入相关的初始数据表和对账模板到对账前端中,对相关的初始数据表和对账模板进行校验,将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;
S2、抽取业务系统中相关的对账数据表到数据中台的Hive数据库;
S3、对账后台将初始数据表和对账数据表进行数据对账,根据对账模板生成带有对账结果的对账文件,具体包括:
S31、使用Spark-Excel框架对初始数据表进行解析,得到SparkSql的第一临时表;
S32、使用Spark on Hive方式对对账数据表进行映射,得到SparkSql的第二临时表;
S33、根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;
S34、将第一临时表和第二临时表中的配置字段以及相应的对账结果导入对账模板,生成对账文件;
S4、将对账文件存储至数据中台,调度服务器向对账前端通知下载信息。
优选的,所述调度服务器为DolphinScheduler。
优选的,所述初始数据表包括明细表和汇总表,所述对应的对账模板包括明细表对账模板和汇总表对账模板;
所述根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;具体包括以下步骤:
(1)当初始数据表为明细表时,对第一临时表中的配置字段和第二临时表的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其中所述配置字段包括财务员编号、贸易单号、日期、贸易类型、申请方、采购方、金额和服务费;
(2)当初始数据表为汇总表时,对第二临时表进行配置字段的汇总,再与对第一临时表中的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其中所述配置字段包括财务员编号、日期、贸易类型和金额。
一种基于Spark和Hadoop的数据对账系统,采用如上述所述的一种基于Spark和Hadoop的数据对账方法;所述数据对账系统与业务系统通信连接;
所述数据对账系统包括相互通信连接的对账前端、数据中台、对账后台和调度服务器;
所述数据中台包括Hadoop平台和Hive数据库;
所述对账后台包括Spark程序;
所述调度服务器用于对所述系统中的工作流运行进行管理。
优选的,所述对账前端包括录入模块、校验模块、中转模块和下载模块;
所述录入模块用于录入相关的初始数据表和对账模板到对账前端中;
所述校验模块用于对相关的初始数据表和对账模板进行校验;
所述中转模块用于将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;
所述下载模块用于下载对账文件。
优选的,所述数据中台包括抽取模块;
所述抽取模块包括抽取业务系统中相关的对账数据表到数据中台的Hive数据库。
优选的,所述对账后台包括数据对账模块和数据模板模块;所述数据对账模块包括第一数据对账子模块、第二数据对账子模块和第三数据对账子模块;
所述数据对账模块用于将初始数据表和对账数据表进行数据对账;
所述第一数据对账子模块用于使用Spark-Excel框架对初始数据表进行解析,得到SparkSql的第一临时表;
所述第二数据对账子模块用于使用Spark on Hive方式对对账数据表进行映射,得到SparkSql的第二临时表;
所述第三数据对账子模块用于根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;
所述数据模板模块用于将第一临时表和第二临时表中的配置字段以及相应的对账结果导入对账模板,生成对账文件。
优选的,所述调度服务器包括通知模块;
所述通知模块用于通知对账前端进行下载信息。
上述技术方案中的一个技术方案具有以下有益效果:
(1)通过数据对账系统,实现在对账前端上传数据、在数据中台进行处理、在数据后台进行对账以及调度服务器进行调度协调,剥离了原本的业务系统,减少了业务系统的占用资源,保证业务系统能够正常运行。
(2)通过基于Spark和Hadoop的数据对账方法,根据对账逻辑和配置字段进行对比校验,生成对账结果;使数据对账过程更加稳定和准时,校验的结果更加完整准确。
附图说明
图1是现有技术的数据对账方法的流程示意图;
图2是本发明在一种基于Spark和Hadoop的数据对账方法的流程示意图;
图3是本发明在一种基于Spark和Hadoop的数据对账方法中明细表的表格示意图;
图4是本发明在一种基于Spark和Hadoop的数据对账方法中汇总表的表格示意图;
图5是本发明在一种基于Spark和Hadoop的数据对账方法中明细对账文件的表格示意图;
图6是本发明在一种基于Spark和Hadoop的数据对账方法中总对账文件的表格示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
如图1-4所示,一种基于Spark和Hadoop的数据对账方法,应用于一种基于Spark和Hadoop的数据对账系统,所述数据对账系统与业务系统通信连接;
所述数据对账系统包括相互通信连接的对账前端、数据中台、对账后台和调度服务器;
所述数据中台包括Hadoop平台和Hive数据库,所述对账后台包括Spark程序,所述调度服务器用于对所述系统中的工作流运行进行管理;优选的,所述调度服务器为DolphinScheduler。
所述方法包括:
S1、录入相关的初始数据表和对账模板到对账前端中,对相关的初始数据表和对账模板进行校验,将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;其中所述初始数据表包括明细表和汇总表,所述对应的对账模板包括明细表对账模板和汇总表对账模板;
S2、抽取业务系统中相关的对账数据表到数据中台的Hive数据库;
S3、对账后台将初始数据表和对账数据表进行数据对账,根据对账模板生成带有对账结果的对账文件,具体包括:
S31、使用Spark-Excel框架对初始数据表进行解析,得到SparkSql的第一临时表;
S32、使用Spark on Hive方式对对账数据表进行映射,得到SparkSql的第二临时表;
S33、根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;具体包括:
(1)当初始数据表为明细表时,对第一临时表中的配置字段和第二临时表的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其中所述配置字段包括财务员编号、贸易单号、日期、贸易类型、申请方、采购方、金额和服务费;
(2)当初始数据表为汇总表时,对第二临时表进行配置字段的汇总,再与对第一临时表中的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其中所述配置字段包括财务员编号、日期、贸易类型和金额。
S34、将第一临时表和第二临时表中的配置字段以及相应的对账结果导入对账模板,生成对账文件;
S4、将对账文件存储至数据中台,调度服务器向对账前端通知下载信息。
具体的实施例:
1.使用Spark抽取业务系统中相关的对账数据表到数据中台的Hive。
S1、录入相关的初始数据表和对账模板到对账前端中,对相关的初始数据表和对账模板进行校验,将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;
具体的,财务员在对账前端录入初始数据表和对账模板,目前初始数据表有2大类,包括明细表和汇总表,其中对相关的初始数据表和对账模板进行校验,包括:明细表对账是针对具体贸易单的配置字段进行对比校验;汇总表对账是对重要指标的配置字段进行汇总对比校验;校验后,没有异常情况下,则以系统时间命名并中转至Hadoop平台的目录下。如果有异常则通过调度服务器向对账前端通知存在错误信息。
S2、抽取业务系统中相关的对账数据表到数据中台的Hive数据库;等到抽取完成后,系统前端会把配置字段作为参数通知调度服务器DolphinScheduler,启动Spark程序。
S3、对账后台将初始数据表和对账数据表进行数据对账,根据对账模板生成带有对账结果的对账文件,具体包括:
S31、使用Spark-Excel的框架读取初始数据表后,解析并生成SparkSql的第一临时表;
S32、Hive数据库的对账数据表则通过Spark on Hive的方式,映射成SparkSql的第二临时表;
使用SparkSql实现主要对账功能;
S33、所述根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;具体包括以下步骤:
(1)当初始数据表为明细表时,对第一临时表中的配置字段和第二临时表的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其中所述配置字段包括财务员编号、贸易单号、日期、贸易类型、申请方、采购方、金额和服务费;
(2)当初始数据表为汇总表时,对第二临时表进行配置字段的汇总,再与对第一临时表中的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其中所述配置字段包括财务员编号、日期、贸易类型和金额。
S34、对账逻辑完成后,按照对账的配置字段或者指标的配置字段,以及生成的校验结果,导入对账模板,生成对账文件;
S4、将对账文件存储至数据中台的Hadoop平台上,调度服务器调用对账前端提供的对账通知结果接口进行通知;财务员通过对账前端的下载结果接口进行下载存在Hadoop平台上已完成的对账文件,其对账后的明细对账文件如图5所示,对账后的总对账文件如图6所示。
具体的,本发明提供一种基于Spark和Hadoop的数据对账方法,其应用于一种基于Spark和Hadoop的数据对账系统,具有以下有益效果:
1.通过数据对账系统,实现在对账前端上传数据、在数据中台进行处理、在数据后台进行对账以及调度服务器进行调度协调,剥离了原本的业务系统,减少了业务系统的占用资源,保证业务系统能够正常运行。
2.通过基于Spark和Hadoop的数据对账方法,根据对账逻辑和配置字段进行对比校验,生成对账结果;使数据对账过程更加稳定和准时,校验的结果更加完整准确。
更进一步的,对本发明中缩略语和关键术语定义进行说明:
实施例2,一种基于Spark和Hadoop的数据对账系统,采用如上述所述的一种基于Spark和Hadoop的数据对账方法;所述数据对账系统与业务系统通信连接;
所述数据中台包括Hadoop平台和Hive数据库;
所述对账后台包括Spark程序;
所述调度服务器用于对所述系统中的工作流运行进行管理。
更进一步的说明,所述对账前端包括录入模块、校验模块、中转模块和下载模块;
所述录入模块用于录入相关的初始数据表和对账模板到对账前端中;
所述校验模块用于对相关的初始数据表和对账模板进行校验;
所述中转模块用于将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;
所述下载模块用于下载对账文件。
更进一步的说明,所述数据中台包括抽取模块;
所述抽取模块包括抽取业务系统中相关的对账数据表到数据中台的Hive数据库。
更进一步的说明,所述对账后台包括数据对账模块和数据模板模块;所述数据对账模块包括第一数据对账子模块、第二数据对账子模块和第三数据对账子模块;
所述数据对账模块用于将初始数据表和对账数据表进行数据对账;
所述第一数据对账子模块用于使用Spark-Excel框架对初始数据表进行解析,得到SparkSql的第一临时表;
所述第二数据对账子模块用于使用Spark on Hive方式对对账数据表进行映射,得到SparkSql的第二临时表;
所述第三数据对账子模块用于根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;
所述数据模板模块用于将第一临时表和第二临时表中的配置字段以及相应的对账结果导入对账模板,生成对账文件。
更进一步的说明,所述调度服务器包括通知模块;
所述通知模块用于通知对账前端进行下载信息。
本发明提供一种基于Spark和Hadoop的数据对账方法,其应用于一种基于Spark和Hadoop的数据对账系统,具有以下有益效果:
1.通过数据对账系统,实现在对账前端上传数据、在数据中台进行处理、在数据后台进行对账以及调度服务器进行调度协调,剥离了原本的业务系统,减少了业务系统的占用资源,保证业务系统能够正常运行。
2.基于Spark和Hadoop,根据对账逻辑和配置字段进行对比校验,生成对账结果;使数据对账过程更加稳定和准时,校验的结果更加完整准确。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种基于Spark和Hadoop的数据对账方法,其特征在于,应用于一种基于Spark和Hadoop的数据对账系统,所述数据对账系统与业务系统通信连接;
所述数据对账系统包括相互通信连接的对账前端、数据中台、对账后台和调度服务器;
所述数据中台包括Hadoop平台和Hive数据库;
所述对账后台包括Spark程序;
所述调度服务器用于对所述系统中的工作流运行进行管理;
所述方法包括:
S1、录入相关的初始数据表和对账模板到对账前端中,对相关的初始数据表和对账模板进行校验,将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;
S2、抽取业务系统中相关的对账数据表到数据中台的Hive数据库;
S3、对账后台将初始数据表和对账数据表进行数据对账,根据对账模板生成带有对账结果的对账文件,具体包括:
S31、使用Spark-Excel框架对初始数据表进行解析,得到SparkSql的第一临时表;
S32、使用SparkonHive方式对对账数据表进行映射,得到SparkSql的第二临时表;
S33、根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;
S34、将第一临时表和第二临时表中的配置字段以及相应的对账结果导入对账模板,生成对账文件;
S4、将对账文件存储至数据中台,调度服务器向对账前端通知下载信息。
2.根据权利要求1所述的一种基于Spark和Hadoop的数据对账方法,其特征在于,所述调度服务器为DolphinScheduler。
3.根据权利要求2所述的一种基于Spark和Hadoop的数据对账方法,其特征在于,所述初始数据表包括明细表和汇总表,对应的对账模板包括明细表对账模板和汇总表对账模板;
所述根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;具体包括以下步骤:
(1)当初始数据表为明细表时,对第一临时表中的配置字段和第二临时表的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其中所述配置字段包括财务员编号、贸易单号、日期、贸易类型、申请方、采购方、金额和服务费;
(2)当初始数据表为汇总表时,对第二临时表进行配置字段的汇总,再与对第一临时表中的配置字段进行对比校验,生成对账结果,所述对账结果包括正确或错误;其中所述配置字段包括财务员编号、日期、贸易类型和金额。
4.一种基于Spark和Hadoop的数据对账系统,其特征在于,采用如权利要求1-3任一项所述的一种基于Spark和Hadoop的数据对账方法;所述数据对账系统与业务系统通信连接;
所述数据对账系统包括相互通信连接的对账前端、数据中台、对账后台和调度服务器;
所述数据中台包括Hadoop平台和Hive数据库;
所述对账后台包括Spark程序;
所述调度服务器用于对所述系统中的工作流运行进行管理。
5.根据权利要求4所述的一种基于Spark和Hadoop的数据对账系统,其特征在于,所述对账前端包括录入模块、校验模块、中转模块和下载模块;
所述录入模块用于录入相关的初始数据表和对账模板到对账前端中;
所述校验模块用于对相关的初始数据表和对账模板进行校验;
所述中转模块用于将校验无误的初始数据表和对账模板中转至数据中台的Hadoop平台;
所述下载模块用于下载对账文件。
6.根据权利要求5所述的一种基于Spark和Hadoop的数据对账系统,其特征在于,所述数据中台包括抽取模块;
所述抽取模块包括抽取业务系统中相关的对账数据表到数据中台的Hive数据库。
7.根据权利要求6所述的一种基于Spark和Hadoop的数据对账系统,其特征在于,所述对账后台包括数据对账模块和数据模板模块;所述数据对账模块包括第一数据对账子模块、第二数据对账子模块和第三数据对账子模块;
所述数据对账模块用于将初始数据表和对账数据表进行数据对账;
所述第一数据对账子模块用于使用Spark-Excel框架对初始数据表进行解析,得到SparkSql的第一临时表;
所述第二数据对账子模块用于使用SparkonHive方式对对账数据表进行映射,得到SparkSql的第二临时表;
所述第三数据对账子模块用于根据对账逻辑和配置字段对第一临时表和第二临时表进行对比校验,生成对账结果;
所述数据模板模块用于将第一临时表和第二临时表中的配置字段以及相应的对账结果导入对账模板,生成对账文件。
8.根据权利要求7所述的一种基于Spark和Hadoop的数据对账系统,其特征在于,所述调度服务器包括通知模块;
所述通知模块用于通知对账前端进行下载信息。
CN202310550587.2A 2023-05-16 2023-05-16 一种基于Spark和Hadoop的数据对账方法及系统 Active CN116579866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310550587.2A CN116579866B (zh) 2023-05-16 2023-05-16 一种基于Spark和Hadoop的数据对账方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310550587.2A CN116579866B (zh) 2023-05-16 2023-05-16 一种基于Spark和Hadoop的数据对账方法及系统

Publications (2)

Publication Number Publication Date
CN116579866A CN116579866A (zh) 2023-08-11
CN116579866B true CN116579866B (zh) 2023-11-03

Family

ID=87540833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310550587.2A Active CN116579866B (zh) 2023-05-16 2023-05-16 一种基于Spark和Hadoop的数据对账方法及系统

Country Status (1)

Country Link
CN (1) CN116579866B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325028A (zh) * 2018-08-22 2019-02-12 平安普惠企业管理有限公司 一种对账文件验证方法及终端设备
CN114185948A (zh) * 2021-12-16 2022-03-15 北京宏天信业信息技术股份有限公司 一种基于数据中台的数据质量监控方法及系统
WO2022267675A1 (zh) * 2021-06-22 2022-12-29 康键信息技术(深圳)有限公司 中间件部署方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065893A1 (en) * 2003-09-19 2005-03-24 The Alliance Group Of Texas System and Method for Commingled Remittance Payment Processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325028A (zh) * 2018-08-22 2019-02-12 平安普惠企业管理有限公司 一种对账文件验证方法及终端设备
WO2022267675A1 (zh) * 2021-06-22 2022-12-29 康键信息技术(深圳)有限公司 中间件部署方法、装置、设备及存储介质
CN114185948A (zh) * 2021-12-16 2022-03-15 北京宏天信业信息技术股份有限公司 一种基于数据中台的数据质量监控方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"大数据+云计算+微服务"在福建省精准扶贫中的应用;胡波;;计算机系统应用(第05期);全文 *

Also Published As

Publication number Publication date
CN116579866A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN110263024B (zh) 数据处理方法、终端设备及计算机存储介质
CN110969408B (zh) 物资结算全流程一体化管理平台生成系统及方法
US7916925B2 (en) System and method for generating magnetic ink character recognition (MICR) testing documents
CN111507686B (zh) 工程设计变更自动预算系统与方法
CN113806400A (zh) 财务数据处理方法、装置、存储介质及电子设备
CN101996380A (zh) 一种查找错账的方法、装置及系统
CN115391758A (zh) 一种自服务业务平台系统
CN112258306B (zh) 账务信息核对的方法、装置、电子设备和存储介质
CN117522612A (zh) 一种基于rpa的通讯费用报销方法、设备及介质
CN116579866B (zh) 一种基于Spark和Hadoop的数据对账方法及系统
CN112508682A (zh) 一种智能系统对账目自动核对的方法
CN110750302B (zh) 一种会计用流水线做账方法
Ma Research on the application of financial intelligence based on artificial intelligence technology
CN110008772B (zh) 一种用于税务管理的发票快速识别与录入的方法和系统
CN109324963B (zh) 自动测试收益结果的方法及终端设备
CN114969127B (zh) 一种自动组合调账交易的调账方法、调账系统及存储介质
CN111353833A (zh) 一种生成报表的方法和设备
CN114742629A (zh) 一种电力市场结算账务数据处理校验方法及系统
CN115034674A (zh) 计费管理方法、系统和电子设备
CN113159789A (zh) 一种跨行转账退汇记账方法和装置
CN112990922A (zh) 批量支付方法、装置、设备及存储介质
CN112132645A (zh) 一种资费配置模板同类元素校验方法及系统
CN112085601A (zh) 年金数据处理方法、装置、介质及电子设备
CN111325599A (zh) 订单数据处理方法、装置、设备及存储介质
CN117876127B (zh) 基于涉税合规操作的智能税务系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant