CN116089508A - 一种基于数据采集与对账的系统及方法 - Google Patents

一种基于数据采集与对账的系统及方法 Download PDF

Info

Publication number
CN116089508A
CN116089508A CN202211515682.0A CN202211515682A CN116089508A CN 116089508 A CN116089508 A CN 116089508A CN 202211515682 A CN202211515682 A CN 202211515682A CN 116089508 A CN116089508 A CN 116089508A
Authority
CN
China
Prior art keywords
data
checking
reconciliation
acquisition
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211515682.0A
Other languages
English (en)
Inventor
陈坤
章莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Caicaibao Internet Service Co ltd
Original Assignee
Guizhou Caicaibao Internet Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Caicaibao Internet Service Co ltd filed Critical Guizhou Caicaibao Internet Service Co ltd
Priority to CN202211515682.0A priority Critical patent/CN116089508A/zh
Publication of CN116089508A publication Critical patent/CN116089508A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据采集、数据仓库、归并排序方法,特别涉及一种基于数据采集与对账的系统,包括:数据采集接口模块,用于接收用户通过人机交互界面制定的配置采集规则;核对模块,用于根据所述配置采集规则对本系统数据和目标系统数据进行核对,所述本系统和所述目标系统为异构数据仓库。本发明还公开了一种基于数据采集与对账系统的方法。本发明在数据仓库中,通过数据管道对各个业务线的业务数据进行ETL抽取,并全部存储到对账系统集群,可以通过计算对数据进行加工处理。在对账系统集群中,通过通用化的设计,简洁的配置,高效率的比对,使得对账环节能够解决大多数业务线的通用的数据对账问题。

Description

一种基于数据采集与对账的系统及方法
技术领域
本发明涉及数据采集、数据仓库、归并排序方法,特别涉及一种基于数据采集与对账的系统及方法。
背景技术
目前的数据对账工作主要依托于人力与物力的堆砌,每天的对账工作需要在多个对账的表单中进行处理,手工工作量繁杂,只能依靠人力,缺乏有效的管理,在多个数据源之间进行处理时很容易造成差错,容错率极低,缺乏复杂情况下的有效应应急处理方式。
系统建设目标是利用自动化手段建立功能齐全、操作实用,并与企业业务现状相适应的数据采集与对账系统,逐步满足各业务数据对账的需要,实现对账数据的传输流畅准确,安全高效,减少人工对账成本,提高业务数据对账的质量,防范风险,保障资金的安全。
基于哈希表(hash-table)数据结构的比对算法表中元素没有排序,对账差异调平时需要元素是有序的,不能高效的进行比对排序。
发明内容
本发明要解决的技术问题是提供一种基于数据采集与对账的系统及方法。
为了解决上述技术问题,本发明的技术方案为:
一种基于数据采集与对账的系统,包括:
数据采集接口模块,用于接收用户通过人机交互界面制定的配置采集规则;
核对模块,用于根据所述配置采集规则对本系统数据和目标系统数据进行核对,所述本系统和所述目标系统为异构数据仓库。
所述核对模块包括:
任务分解单元,用于将数据核对任务分解成至少一个子任务,每一个子任务都与由至少一条指令组成的指令集相关联;
操作单元,用于分别根据每组指令集,通过调用相应的采集指令从业务系统采集原始数据;
报告分析单元,用于根据所述适配规则对所述数据进行动态适配处理,以生成本系统可识别的资源对象,所述本系统可识别的资源对象对应所述本系统的信息表的一部分,所述本系统的信息表的内容为待核对的本系统资源对象;
数据组装单元:用于将每个子任务所对应生成的本系统可识别的资源对象进行组装,以生成待核对的业务系统资源对象,所述待核对的业务系统资源对象对应所述本系统的信息表;
核对单元:用于根据所确定的核对数据项,将待核对的业务系统资源对象与本系统的信息表进行比对,并标注比对结果,然后根据核对规则进行数据同步处理。
一种基于数据采集与对账系统的方法,包括以下步骤:
步骤S1,接入业务系统,采集数据源,配置采集接口规则;
步骤S2,通过步骤S1采集数据,传输至目标表;
步骤S3,通过将不同源的数据采集加工成标准化或易于对账的数据,为对账系统数据对账做准备;
步骤S4,通知对账系统,所需对账的源数据表在哪儿,归属哪个业务线;
步骤S5,待对账数据和对账结果数据均存储在数据仓库表中,记录数据的插入时间以及插入序号;
步骤S6,对账业务数据处理准实时进行,各接入渠道采集源数据,均按日期分区存储,并进行数据分片;
步骤S7,确定业务系统数据源和本系统数据之间的关系;
步骤S8,确定需要进行核对的数据,并在本系统内建立信息表;
步骤S9,定时检查每一个对账作业,判断是否需要进行对账,如果是,则会生成一个对账任务;
步骤S10,针对步骤S9生成的对账任务,分批将对账所需的参数,向步骤S8提交任务进行对账并输出结果。
利用基于哈希表(hash-table)数据结构的比对算法对数据采集结果进行对账。
所述信息表的内容为待核对的本系统资源对象,配置数据核对任务,并配置核对任务的触发类型和处理类型,为所述数据核对任务配置子任务,并将所述子任务与由至少一条指令组成的一组指令集做关联,配置指令的回复数据报文的适配规则,根据所述适配规则从业务系统动态提取数据,并将所提取的数据与所述信息表的信息内容做映射,配置核对规则,所述核对规则确定核对数据项。
所述配置核对规则所需的配置项目为查询字段、对比字段、主键字段、数据源、查询范围、汇总条件、输出表。
所述业务系统数据源和本系统数据之间的关系包括一对一、一对多及多对多的关系。
与现有技术相比,本发明的有益效果为:
1、本发明在数据仓库中,通过数据管道对各个业务线的业务数据进行ETL抽取,并全部存储到对账系统集群,可以通过计算对数据进行加工处理。
2、在对账系统集群中,通过通用化的设计,简洁的配置,高效率的比对,使得对账环节能够解决大多数业务线的通用的数据对账问题。
3、开放对账结果查询接口,业务系统自主的进行调账,对差异数据进行对比调整。
附图说明
图1为本发明的系统结构框图;
图2为本发明的方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明的一种基于数据采集与对账的系统,包括:
数据采集接口模块,用于接收用户通过人机交互界面制定的配置采集规则;
核对模块,用于根据所述配置采集规则对本系统数据和目标系统数据进行核对,所述本系统和所述目标系统为异构数据仓库。
所述核对模块包括:
任务分解单元,用于将数据核对任务分解成至少一个子任务,每一个子任务都与由至少一条指令组成的指令集相关联;
操作单元,用于分别根据每组指令集,通过调用相应的采集指令从业务系统采集原始数据;
报告分析单元,用于根据所述适配规则对所述数据进行动态适配处理,以生成本系统可识别的资源对象,所述本系统可识别的资源对象对应所述本系统的信息表的一部分,所述本系统的信息表的内容为待核对的本系统资源对象;
数据组装单元:用于将每个子任务所对应生成的本系统可识别的资源对象进行组装,以生成待核对的业务系统资源对象,所述待核对的业务系统资源对象对应所述本系统的信息表;
核对单元:用于根据所确定的核对数据项,将待核对的业务系统资源对象与本系统的信息表进行比对,并标注比对结果,然后根据核对规则进行数据同步处理。
如图2所示,一种基于数据采集与对账系统的方法,包括以下步骤:
步骤S1,接入业务系统,采集数据源,配置相关采集接口规则;
步骤S2,通过步骤S1采集数据,传输至目标表;
步骤S3,通过将不同源的数据采集加工成标准化或易于对账的数据,为对账系统数据对账做准备;
步骤S4,通知对账系统,所需对账的源数据表在哪儿,归属哪个业务线;
步骤S5,待对账数据和对账结果数据均存储在数据仓库表中,记录数据的插入时间以及插入序号,可按时间版本查询数据,有效地改善存储管理和查询性能;
步骤S6,对账业务数据处理准实时进行,各接入渠道采集源数据,均按日期分区存储,并进行数据分片;
步骤S7,确定业务系统数据源和本系统数据之间的关系,①一对一:业务系统数据源与本系统数据表之间的数据是一对一的关系,即通过一个或多个字段的组合最多在另一张表中找到一条相应的记录;②一对多:业务系统数据源与本系统数据表中的记录是一对多的关系,即业务系统表的记录可以在本系统表中找到相应的多条记录,场景如订单表与订单明细之间的关系,若为此关系,则将数据分组汇总,转为一对一关系数据;③多对多:业务系统数据源表中的多条记录与本系统表中的多条记录进行比对,如业务系统中的订单明细与结算明细数据进行比对,若为此关系,则将数据分组汇总,转为一对一关系数据。
步骤S8,确定需要进行核对的数据,并在本系统内建立信息表,所述信息表的内容为待核对的本系统资源对象;配置数据核对任务,并配置核对任务的触发类型和处理类型;为所述数据核对任务配置子任务,并将所述子任务与由至少一条指令组成的一组指令集做关联;配置指令的回复数据报文的适配规则,根据所述适配规则从业务系统动态提取数据,并将所提取的数据与所述信息表的信息内容做映射;配置核对规则,所述核对规则确定核对数据项。配置核对规则所需的配置项目如下:
①查询字段:业务系统数据源与本系统数据的查询字段,针对含义相同的字段可以设置相同的别名。
②对比字段:在查询出来的字段中,需要对比的字段。
③主键字段:用于处理业务系统数据源于本系统数据表记录之间的映射关系,如,一对一的情况,通过业务主键进行关联,如订单编号等。
④数据源:需要指定比对的数据源来自哪个库表。
⑤查询范围:数据源查询范围获取Where条件,同时也会在条件上带一个查询的日期范围。
⑥汇总条件:如果是分组汇总对账,则需要配置相应的汇总字段及汇总规则。
⑦输出表:对账结果输出的字段存放在哪个库的哪张表中。
步骤S9,定时检查每一个对账作业,判断是否需要进行对账,如果是,则会生成一个对账任务。
步骤S10,针对S9步骤生成的对账任务,分批将对账所需的参数,向步骤S8提交任务进行对账并输出结果。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (7)

1.一种基于数据采集与对账的系统,其特征在于,包括:
数据采集接口模块,用于接收用户通过人机交互界面制定的配置采集规则;
核对模块,用于根据所述配置采集规则对本系统数据和目标系统数据进行核对,所述本系统和所述目标系统为异构数据仓库。
2.根据权利要求1所述的基于数据采集与对账的系统,其特征在于,
所述核对模块包括:
任务分解单元,用于将数据核对任务分解成至少一个子任务,每一个子任务都与由至少一条指令组成的指令集相关联;
操作单元,用于分别根据每组指令集,通过调用相应的采集指令从业务系统采集原始数据;
报告分析单元,用于根据所述适配规则对所述数据进行动态适配处理,以生成本系统可识别的资源对象,所述本系统可识别的资源对象对应所述本系统的信息表的一部分,所述本系统的信息表的内容为待核对的本系统资源对象;
数据组装单元:用于将每个子任务所对应生成的本系统可识别的资源对象进行组装,以生成待核对的业务系统资源对象,所述待核对的业务系统资源对象对应所述本系统的信息表;
核对单元:用于根据所确定的核对数据项,将待核对的业务系统资源对象与本系统的信息表进行比对,并标注比对结果,然后根据核对规则进行数据同步处理。
3.一种基于数据采集与对账系统的方法,其特征在于:包括以下步骤:
步骤S1,接入业务系统,采集数据源,配置采集接口规则;
步骤S2,通过步骤S1采集数据,传输至目标表;
步骤S3,通过将不同源的数据采集加工成标准化或易于对账的数据,为对账系统数据对账做准备;
步骤S4,通知对账系统,所需对账的源数据表在哪儿,归属哪个业务线;
步骤S5,待对账数据和对账结果数据均存储在数据仓库表中,记录数据的插入时间以及插入序号;
步骤S6,对账业务数据处理准实时进行,各接入渠道采集源数据,均按日期分区存储,并进行数据分片;
步骤S7,确定业务系统数据源和本系统数据之间的关系;
步骤S8,确定需要进行核对的数据,并在本系统内建立信息表;
步骤S9,定时检查每一个对账作业,判断是否需要进行对账,如果是,则会生成一个对账任务;
步骤S10,针对步骤S9生成的对账任务,分批将对账所需的参数,向步骤S8提交任务进行对账并输出结果。
4.根据权利要求3所述的基于数据采集与对账系统的方法,其特征在于:利用基于哈希表(hash-table)数据结构的比对算法对数据采集结果进行对账。
5.根据权利要求3所述的基于数据采集与对账系统的方法,其特征在于:所述信息表的内容为待核对的本系统资源对象,配置数据核对任务,并配置核对任务的触发类型和处理类型,为所述数据核对任务配置子任务,并将所述子任务与由至少一条指令组成的一组指令集做关联,配置指令的回复数据报文的适配规则,根据所述适配规则从业务系统动态提取数据,并将所提取的数据与所述信息表的信息内容做映射,配置核对规则,所述核对规则确定核对数据项。
6.根据权利要求5所述的基于数据采集与对账系统的方法,其特征在于:所述配置核对规则所需的配置项目为查询字段、对比字段、主键字段、数据源、查询范围、汇总条件、输出表。
7.根据权利要求3所述的基于数据采集与对账系统的方法,其特征在于:所述业务系统数据源和本系统数据之间的关系包括一对一、一对多及多对多的关系。
CN202211515682.0A 2022-11-30 2022-11-30 一种基于数据采集与对账的系统及方法 Pending CN116089508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211515682.0A CN116089508A (zh) 2022-11-30 2022-11-30 一种基于数据采集与对账的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211515682.0A CN116089508A (zh) 2022-11-30 2022-11-30 一种基于数据采集与对账的系统及方法

Publications (1)

Publication Number Publication Date
CN116089508A true CN116089508A (zh) 2023-05-09

Family

ID=86201488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211515682.0A Pending CN116089508A (zh) 2022-11-30 2022-11-30 一种基于数据采集与对账的系统及方法

Country Status (1)

Country Link
CN (1) CN116089508A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756247A (zh) * 2023-08-21 2023-09-15 腾讯科技(深圳)有限公司 数据修复方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756247A (zh) * 2023-08-21 2023-09-15 腾讯科技(深圳)有限公司 数据修复方法、装置、计算机设备和存储介质
CN116756247B (zh) * 2023-08-21 2023-11-17 腾讯科技(深圳)有限公司 数据修复方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN111382174B (zh) 多方数据联合查询方法、装置、服务器和存储介质
CN110134674B (zh) 一种货币信贷大数据监测分析系统
CN105574082A (zh) 基于Storm的流处理方法及系统
CN107958080A (zh) 一种基于ElasticSearch的大数据报表处理方法
CN103246745A (zh) 一种基于数据仓库的数据处理装置及方法
CN116089508A (zh) 一种基于数据采集与对账的系统及方法
CN111400288A (zh) 数据质量检查方法及系统
CN115495544A (zh) 一种非结构化测绘报告数据解析方法及系统
CN110362560B (zh) 一种无业务主键数据在存储数据库时去重的方法
CN107066522B (zh) 数据库的访问方法和装置
CN114218318B (zh) 一种用于电力大数据的数据处理系统及方法
CN103678423A (zh) 数据文件导入系统、装置及方法
CN111694811A (zh) 一种批量数据入库方法及装置
CN114500543A (zh) 一种基于分布式的弹性边缘采集系统及其应用方法
CN112688802B (zh) 一种基于api网关的高效能交换中间件
CN111125045B (zh) 一种轻量级etl处理平台
CN111143651A (zh) 一种新媒体一体化运营管理用数据采集分析系统
CN112711683A (zh) 数据比对方法、装置及计算机设备
CN108304293A (zh) 一种基于大数据技术的软件系统监控方法
CN101098495A (zh) 一种提高智能业务在线统计任务性能的系统及方法
CN113239039B (zh) 动态数据的存储方法、查询方法、管理方法及管理系统
CN115344633A (zh) 数据处理方法、装置、设备和存储介质
CN105187490A (zh) 一种物联网数据的中转处理方法
CN114022279A (zh) 一种业务数据纠错方法、装置、设备及可读存储介质
CN112632132A (zh) 一种异常导入数据的处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination