CN115145948A - 一种分布式架构下海量数据不一致的发现与处置方法 - Google Patents

一种分布式架构下海量数据不一致的发现与处置方法 Download PDF

Info

Publication number
CN115145948A
CN115145948A CN202210794296.3A CN202210794296A CN115145948A CN 115145948 A CN115145948 A CN 115145948A CN 202210794296 A CN202210794296 A CN 202210794296A CN 115145948 A CN115145948 A CN 115145948A
Authority
CN
China
Prior art keywords
data
sql
work order
verification
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210794296.3A
Other languages
English (en)
Inventor
崔瑞瑾
邱梅
唐小燕
廉奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cathay Pacific Property Insurance Co ltd
Original Assignee
Cathay Pacific Property Insurance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cathay Pacific Property Insurance Co ltd filed Critical Cathay Pacific Property Insurance Co ltd
Priority to CN202210794296.3A priority Critical patent/CN115145948A/zh
Publication of CN115145948A publication Critical patent/CN115145948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种分布式架构下海量数据不一致的发现与处置方法,包括以下步骤:各业务系统通过阿里大数据开发平台将系统数据集成至离线数据平台;根据具体的核对需求编写SQL校验规则录入至离线核对平台;配置该规则对应的告警任务,设置执行时间、执行频率、工单通知方式及通知人信息;在设定的执行时间,告警任务将连接数据仓库数据源,通过SQL执行引擎执行SQL规则;若执行结果差异数大于0,将自动创建工单并通过设置的通知方式通知到责任人;责任人收到工单提醒后进行差异排查。本发明克服了现有技术的不足,能够基于大数据离线数据仓库的技术解决方案,与数据仓库结合能够达到最佳实施效果。

Description

一种分布式架构下海量数据不一致的发现与处置方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种分布式架构下海量数据不一致的发现与处置方法。
背景技术
近年来,互联网保险逐渐崭露头角,在所有互联网金融的子行业中,成为最具发展前景的细分子行业。互联网保险具有高频化、碎片化的特性。以退运险为例,保险核心业务系统每天需处理百万、千万级交易量,随着交易量的提升,系统逐步向分布式架构演进,海量业务交易运转在分布式架构下,若不能及时发现系统间关键业务数据错漏重等数据质量问题,将给保司带来巨大的经济损失和监管风险。
目前主要是由各个业务系统自建守护任务,在业务低峰期通过运行系统间的核对接口进行定时检查,发现问题触发告警通知,技术 owner收到告警提醒后定位修复问题。但在分布式架构下,保险核心业务系统有几十个子系统,各个业务系统自建守护任务,需要系统的技术人员针对上下游系统特性设计不同的接口调度任务进行核验,需要在核对上投入大量资源;并且守护任务在进行接口检查时,当需检查的数据量级达到百万千万级时,会在业务数据库上进行大量并发查询操作,对系统实时关键业务造成性能影响。
发明内容
针对现有技术的不足,本发明提供了一种分布式架构下海量数据不一致的发现与处置方法,克服了现有技术的不足,能够基于大数据离线数据仓库的技术解决方案,与数据仓库结合能够达到最佳实施效果。
为实现以上目的,本发明通过以下技术方案予以实现:
一种分布式架构下海量数据不一致的发现与处置方法,包括以下步骤:
步骤S1:各业务系统通过阿里大数据开发平台将系统数据集成至 maxcomputer离线数据平台;
步骤S2:根据具体的核对需求编写SQL校验规则录入至离线核对平台,形成核对规则集合;
步骤S3:在配置完成SQL规则后,配置该规则对应的告警任务,设置执行时间、执行频率、工单通知方式及通知人信息;
步骤S4:告警任务配置成功后,在设定的执行时间,告警任务将连接数据仓库数据源,通过SQL执行引擎执行SQL规则;
步骤S5:告警任务执行完成后,若执行结果差异数大于0,将自动创建工单并通过设置的通知方式通知到责任人;
步骤S6:责任人收到工单提醒后进行差异排查,若是误报,标记差异为忽略并关闭工单;若不是误报,修复系统bug,任务再次运行后差异消除后关闭工单。
优选地,所述步骤S1中,阿里大数据开发平台通过读取数据库的二进制日志将业务数据库的表和数据按时效要求同步至数据仓库,对业务系统无任何侵入操作。
本发明提供了一种分布式架构下海量数据不一致的发现与处置方法。具备以下有益效果:当分布式架构下各业务系统数据出现不一致问题时,通过定时执行各业务系统布署的核对脚本会发现问题并通知业务系统负责人,同时会创建相应待处理工单以保证问题处置闭环。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对现有技术描述中所需要使用的附图作简单地介绍。
图1本发明的步骤流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
实施例一
如图1所示,一种分布式架构下海量数据不一致的发现与处置方法,包括以下步骤:
步骤S1:各业务系统通过阿里大数据开发平台DataWorks将系统数据集成至maxcomputer离线数据平台;DateWorks通过读取数据库的二进制日志(binlog)将业务数据库的表和数据按时效要求同步至数据仓库,对业务系统无任何侵入操作;
步骤S2:技术人员根据具体的核对需求编写SQL校验规则并录入至离线核对平台,形成核对规则集合;
步骤S3:在配置完成SQL规则后,配置该规则对应的告警任务,设置执行时间、执行频率、工单通知方式及通知人信息;
步骤S4:告警任务配置成功后,在设定的执行时间,告警任务将连接数据仓库数据源,通过SQL执行引擎执行SQL规则;
步骤S5:告警任务执行完成后,若执行结果差异数大于0,将自动创建工单并通过设置的通知方式通知到责任人;
步骤S6:责任人收到工单提醒后进行差异排查,若是误报,标记差异为忽略并关闭工单;若不是误报,修复系统bug,任务再次运行后差异消除后关闭工单。
通过上述步骤,当分布式架构下各业务系统数据出现不一致问题时(引发该问题的原因包括但不限于业务系统bug,消息中间件故障,数据被篡改等等),通过定时执行各业务系统布署的核对脚本会发现问题并通知业务系统负责人,同时会创建相应待处理工单以保证问题处置闭环。
实施例二
举例说明:当理赔案件核赔通过后,需要通过支付中心打款给用户,在分布式架构下,理赔系统和支付系统为独立的两个系统,为了确保理赔系统的核赔金额和支付中心打款至用户的金额是一致的,需要对理赔系统的理算书信息表和支付中心的打款流水表进行数据一致性核对;
(1):先将涉及到的业务表通过dataworks同步任务集成至 maxcomputer离线数据平台,t_clm_payment(理赔系统理算信息表名) 集成至maxcomputer后表名为ods_f_clm_payment,t_fin_pay_flow (支付系统支付流水表名)集成至maxcompter后表名为 ods_f_fin_pay_flow;
(2):技术人员根据具体的核对需求编写SQL校验规则并录入至离线核对平台,核对理赔系统理算信息表与支付中心打款流水表数据量、支付金额、支付币种、支付账号、支付账号名是否一致,规则名称命名为“理赔系统理算支付表与支付中心打款流水信息一致性校验”;
在本实施例汇总,编写SQL校验规则如下:
Figure BDA0003735040600000041
Figure BDA0003735040600000051
(3)创建告警任务,把将“理赔系统理算支付表与支付中心打款流水信息一致性校验”规则添加至告警任务,任务设置为每天9:00运行一次,告警订阅为通过邮件发送给责任人;
(4)离线核对平台每天9:00将执行一次本规则,若执行结果数据行数大于0,将自动创建一张待处理工单并邮件通知责任人;
(5)责任人调查分析告警原因后,如果确认是bug,将进行bug 修复,待下一次执行任务后确认差异是否消除,若消除则关闭工单;如果确认是误报,将核对差异标记为忽略,关闭工单。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (2)

1.一种分布式架构下海量数据不一致的发现与处置方法,其特征在于,包括以下步骤:
步骤S1:各业务系统通过阿里大数据开发平台将系统数据集成至maxcomputer离线数据平台;
步骤S2:根据具体的核对需求编写SQL校验规则录入至离线核对平台,形成核对规则集合;
步骤S3:在配置完成SQL规则后,配置该规则对应的告警任务,设置执行时间、执行频率、工单通知方式及通知人信息;
步骤S4:告警任务配置成功后,在设定的执行时间,告警任务将连接数据仓库数据源,通过SQL执行引擎执行SQL规则;
步骤S5:告警任务执行完成后,若执行结果差异数大于0,将自动创建工单并通过设置的通知方式通知到责任人;
步骤S6:责任人收到工单提醒后进行差异排查,若是误报,标记差异为忽略并关闭工单;若不是误报,修复系统bug,任务再次运行后差异消除后关闭工单。
2.根据权利要求1所述的一种分布式架构下海量数据不一致的发现与处置方法,其特征在于:所述步骤S1中,阿里大数据开发平台通过读取数据库的二进制日志将业务数据库的表和数据按时效要求同步至数据仓库,对业务系统无任何侵入操作。
CN202210794296.3A 2022-07-07 2022-07-07 一种分布式架构下海量数据不一致的发现与处置方法 Pending CN115145948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210794296.3A CN115145948A (zh) 2022-07-07 2022-07-07 一种分布式架构下海量数据不一致的发现与处置方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210794296.3A CN115145948A (zh) 2022-07-07 2022-07-07 一种分布式架构下海量数据不一致的发现与处置方法

Publications (1)

Publication Number Publication Date
CN115145948A true CN115145948A (zh) 2022-10-04

Family

ID=83411648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210794296.3A Pending CN115145948A (zh) 2022-07-07 2022-07-07 一种分布式架构下海量数据不一致的发现与处置方法

Country Status (1)

Country Link
CN (1) CN115145948A (zh)

Similar Documents

Publication Publication Date Title
CN110287052B (zh) 一种异常任务的根因任务确定方法及装置
CN106845781B (zh) 用于业务测试的场景及流程的生成系统和方法
CN107644077A (zh) 数据一致性监控方法、计算机设备和存储介质
CN111127200A (zh) 反洗钱可疑交易监测方法及装置
CN113227971A (zh) 实时应用错误识别和缓解
CN111400011B (zh) 一种实时任务调度方法、系统、设备及可读存储介质
JP2013522790A (ja) アバップソースコードのコード検査遂行システム
CN115329016A (zh) 一种金融资产交易数据处理方法、系统及可读介质
CN103440460A (zh) 一种应用系统变更验证方法及验证系统
CN114238414A (zh) 一种反洗钱可疑交易数据的监测方法及装置
CN115145948A (zh) 一种分布式架构下海量数据不一致的发现与处置方法
CN116680261A (zh) 数据报送方法、系统以及装置
CN116069628A (zh) 一种智能处置的软件自动化回归测试方法、系统及设备
CN115080449A (zh) 测试方法、装置、设备、介质和程序产品
Xing Financial Big Data Reconciliation Method
CN111708802B (zh) 网络请求防重处理方法及装置
CN115660842A (zh) 账务核对方法、装置、设备及存储介质
Nishizaki et al. Real-time model checking for regulatory compliance
CN113793213A (zh) 一种异步信贷风控断点续作的决策方式的实现方法及装置
Xie et al. Design and implementation of bank financial business automation testing framework based on QTP
CN112130838A (zh) 交易数据处理方法及装置
Zhao et al. An empirical study of the influence of software trustworthy attributes to software trustworthiness
CN107492031B (zh) 一种基于函数契约旁路分析的准实时金融系统对账方法
CN111461864A (zh) 交易处理方法及装置
CN111130955A (zh) 基于互联网信贷系统的分布式链路监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination