CN107870982B - 数据处理方法、系统和计算机可读存储介质 - Google Patents

数据处理方法、系统和计算机可读存储介质 Download PDF

Info

Publication number
CN107870982B
CN107870982B CN201710927798.8A CN201710927798A CN107870982B CN 107870982 B CN107870982 B CN 107870982B CN 201710927798 A CN201710927798 A CN 201710927798A CN 107870982 B CN107870982 B CN 107870982B
Authority
CN
China
Prior art keywords
data
node
data processing
message middleware
distributed storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710927798.8A
Other languages
English (en)
Other versions
CN107870982A (zh
Inventor
卢道和
李勇
杨军
陈晓峰
钱碧伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201710927798.8A priority Critical patent/CN107870982B/zh
Publication of CN107870982A publication Critical patent/CN107870982A/zh
Application granted granted Critical
Publication of CN107870982B publication Critical patent/CN107870982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法,应用于数据处理系统,所述数据处理系统包括消息中间件节点、分布式存储节点、管理节点和查询接口节点,所述方法包括以下步骤:由管理节点通过消息中间件节点接收业务系统基于预设通信接口同步的数据;由所述管理节点读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点,以供查询接口节点根据终端发送的数据查询请求,在所述分布式存储节点中查询数据。本发明还公开了一种数据处理系统和计算机可读存储介质。本发明由于数据集中存储,便于后续简便快速的查询到数据。

Description

数据处理方法、系统和计算机可读存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种数据处理方法、系统和计算机可读存储介质。
背景技术
现有的交易数据处理,一般是将数据进行预分区处理,依据数据的生成时间,将数据存储到不同的区域,例如,将生成时间较长的数据存储在第一区域,将生成时间较短的数据存储到第二区域。这种情况下,当需要查询数据时,就需要从不同的区域中进行查找,由于数据的查找要从不同的区域中进行查找,花费时间必然较长,并且查询操作也较为繁琐。因此,现在的数据处理方式,由于无法集中存储数据,导致后续的数据查询较为繁琐。
发明内容
本发明的主要目的在于提供一种数据处理方法、系统和计算机可读存储介质,旨在解决现有的数据处理方式,数据无法集中存储,导致数据查询较为繁琐的技术问题。
为实现上述目的,本发明提供一种数据处理方法,应用于数据处理系统,所述数据处理系统包括消息中间件节点和分布式存储节点,所述数据处理系统还包括管理节点和查询接口节点,所述数据处理方法包括以下步骤:
由管理节点通过消息中间件节点接收业务系统基于预设通信接口同步的数据;
由所述管理节点读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点,以供查询接口节点根据终端发送的数据查询请求,在所述分布式存储节点中查询数据。
可选地,所述由所述管理节点读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点的步骤包括:
由所述管理节点读取消息中间件节点传输的数据,并记录读取的数据对应的消息位置;
将读取的数据通过预设的数据模型,存储至分布式存储节点。
可选地,所述数据处理系统还包括数据库节点和数据库日志解析节点,所述数据处理方法还包括:
由数据库日志解析节点在数据库节点中提取日志数据进行解析,并将解析后的日志数据按照预设的数据模型进行处理;
通过所述数据库日志解析节点将处理后的数据与分布式存储节点中的数据进行比较,以确定是否存在差异的数据;
若存在差异的数据,由所述数据库日志解析节点将差异的数据同步至分布式存储节点中。
可选地,所述数据处理系统还包括离线数据抽取节点、分布式文件节点和离线统计对账节点,所述数据处理方法还包括:
由离线统计对账节点定时在分布式文件节点中取得距离当前时间点预设时长内的数据,其中,分布式文件节点中的数据由离线数据抽取节点定时在业务系统中抽取并存储至所述分布式文件节点;
由所述离线统计对账节点将取得的数据与分布式存储节点中的数据进行比较,以确定取得的数据与分布式存储节点的数据中是否存在差异的数据;
若存在差异的数据,通过所述离线统计对账节点将差异的数据同步至分布式存储节点中。
可选地,所述数据处理系统还包括时间表节点,所述数据处理方法包括:
通过时间表节点调用预存的脚本文件,以从所述消息中间件节点中拷贝数据;
通过所述时间表节点将拷贝的数据与分布式文件节点中的数据进行比较,以确定消息中间件节点是否故障,其中,在拷贝的数据与所述分布式文件节点中的数据不匹配时,确定所述消息中间件节点故障;
若所述消息中间件节点故障,启动所述消息中间件节点对应的备份消息中间件节点以执行数据处理操作。
此外,为实现上述目的,本发明还提供一种数据处理系统,所述数据处理系统包括消息中间件节点和分布式存储节点,其特征在于,所述数据处理系统还管理节点和查询接口节点:
管理节点,用于通过消息中间件节点接收业务系统基于预设通信接口同步的数据;
所述管理节点,还用于读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点;
查询接口节点,用于根据终端发送的数据查询请求,在所述分布式存储节点中查询数据。
可选地,所述管理节点,还用于读取消息中间件节点传输的数据,并记录读取的数据对应的消息位置;
将读取的数据通过预设的数据模型,存储至分布式存储节点。
可选地,所述数据处理系统还包括数据库节点和取得日志解析节点;
数据库节点,用于接收所述业务系统同步的数据,并存储接收到的数据;
数据库日志解析节点,用于在数据库节点中提取日志数据进行解析,并将解析后的日志数据按照预设的数据模型进行处理;
所述数据库日志解析节点,还用于将处理后的数据与分布式存储节点中的数据进行比较,以确定是否存在差异的数据;
所述数据库日志解析节点,还用于若存在差异的数据,将差异的数据同步至分布式存储节点中。
可选地,所述数据处理系统还包括离线数据抽取节点、分布式文件节点和离线统计对账节点;
离线数据抽取节点,用于定时在所述业务系统中抽取距离当前时间点预设时长内的数据,并将抽取的数据存储至分布式文件节点中;
离线统计对账节点,用于在分布式文件节点中取得距离当前时间点预设时长内的数据,并将取得的数据与分布式存储节点中的数据进行比较,以确定取得的数据与分布式存储节点的数据中是否存在差异的数据;
所述离线统计对账节点,还用于若存在差异的数据,将差异的数据同步至分布式存储节点中。
可选地,所述数据处理系统还包括时间表节点;
时间表节点,用于调用预存的脚本文件,以从所述消息中间件节点中拷贝数据;
所述时间表节点,还用于通过所述时间表节点将拷贝的数据与所述分布式文件节点中的数据进行比较,以确定所述消息中间件节点是否故障,其中,在拷贝的数据与所述分布式文件节点中的数据不匹配时,确定所述消息中间件节点故障;
若所述消息中间件节点故障,启动所述消息中间件节点对应的备份消息中间件节点以执行数据处理操作。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序应用于数据处理系统,所述数据处理程序被处理器执行时实现如上文所述的数据处理方法的步骤。
本发明提出的数据处理方法,应用于数据处理系统,所述数据处理系统包括消息中间件节点和分布式存储节点,还包括管理节点和查询接口节点,该方法先由管理节点通过消息中间件节点接收业务系统基于预设通信接口同步的数据,再由所述管理节点读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点,以供查询接口节点根据终端发送的数据查询请求,在所述分布式存储节点中查询数据。实现了业务系统产生的各种数据,都通过消息中间件节点传输至管理节点,再由管理节点传输至分布式存储节点进行存储,使得数据集中进行存储,后续要查询数据时,由查询接口节点直接在该分布式存储节点中进行查询即可。通过数据库日志解析节点和离线统计对账节点对分布式存储节点中的数据进行补充,实现了数据存储的可靠性,本发明由于数据集中存储,便于后续简便快速的查询到数据。
附图说明
图1是本发明数据处理系统的硬件架构图;
图2为本发明数据处理方法第一实施例的流程示意图;
图3是图2中步骤S20的细化流程示意图;
图4为本发明数据处理方法第二实施例的流程示意图;
图5为本发明数据处理方法第三实施例的流程示意图;
图6为本发明数据处理方法第四实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的解决方案主要是:先由管理节点通过消息中间件节点接收业务系统基于预设通信接口同步的数据,再由所述管理节点读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点,以供查询接口节点根据终端发送的数据查询请求,在所述分布式存储节点中查询数据。以解决现有的数据处理方式,无法集中存储,导致数据查询较为繁琐的问题。
本发明的专业术语介绍:
Hadoop:是一个分布式系统基础架构,能够让用户架构和使用的分布式计算平台,用户可以在Hadoop上开发和运行处理海量数据的应用程序。
HDFS:分布式文件节点(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储节点,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。属于Hadoop生态圈。用于海量数据的存储与查询。
Kafka:一款开源的消息中间件,用于海量离线数据消息的存储、发布、订阅,本文用消息中间件节点表示。
BDP:(Big Data Platform,简称大数据平台)。
DB:(DataBase,数据库节点)
需要说明的是,现有的数据处理方式,还存在以下几点缺陷:
无法查询到任何时间区间的数据;
无法对数据进行缺失补漏。
基于现有技术存在的问题,本发明搭建一个数据处理系统,该数据处理系统可以支持海量数据的集中存储,支持多条链路校验同步的交易数据,通过主链路存储数据,通过辅链路对存储的数据做缺失补充。
本发明实施中的数据处理系统,除了上述提及的分布式文件节点、分布式存储节点、消息中间件节点和数据库节点,还新增以下各个节点:
Binlong:(二进制日志,下文用数据库日志解析节点表示)。
TH-KCM(Trade History kafka Consume management,下文用管理节点表示)。
TH-QS:(Trade History Query Server,历史交易信息查询服务,下文用查询接口节点表示)。
TSS:统一批量作业调度系统。
TH-AAS:历史交易信息离线统计及对账服务,下文用离线统计对账节点表示。
BDP-Schedule:下文用时间表节点表示。
本发明实施例中,先介绍该数据处理系统中各个节点之间的连接关系:参照图1,图1为本发明实施例中数据处理系统的硬件架构图。
该数据处理系统中包括消息中间件节点10、管理节点20、分布式存储节点30与和查询接口节点40。
具体地:消息中间件10节点通过预设通信接口与外界的业务系统通信连接,管理节点20与消息中间件节点10通信连接,分布式存储节点30与管理节点20通信连接,查询接口节点40与分布式存储节点30通信连接。消息中间件节点10、管理节点20和分布式存储节点30构成了该数据处理系统01的主链路,该主链路用于数据的存储。
需要说明的是,主链路中的数据处理过程,延时最短时间实现,可选延时毫秒级别。
该数据处理系统01中还包括数据库节点50和数据库日志解析节点60。
具体地:数据库节点50与外界的业务系统通信连接,数据库日志解析节点60与数据库节点50通信连接,数据库日志解析节点60还与分布式存储节点30通信连接。数据库节点50、数据库日志解析节点60和分布式存储节点30构成了该数据处理系统01的一条辅链路,该辅链路用于数据的缺失补充。
数据库日志解析节点60所在的辅链路中的数据缺失补充过程,数据延时次之,可选延时分钟级别。
该数据处理系统01中还包括离线数据抽取节点70、分布式文件节点80和离线统计对账节点90。
具体地:离线数据抽取节点70与外界的业务系统通信连接,分布式文件节点80与离线数据抽取节点70通信连接,离线统计对账节点90与分布式文件节点80通信连接,离线统计对账节点90还与分布式存储节点30通信连接。离线数据抽取节点70、分布式文件节点80和离线统计对账节点90构成了该数据处理系统01的另一条辅链路,该辅链路用于数据的缺失补充。
离线数据抽取节点70所在的辅链路中的数据缺失补充过程,数据延时最长,可选延时一天实现。
该数据处理系统01中还包括时间表节点100,时间表节点100与消息中间件10节点通信连接,并与分布式文件节点80通信连接,该时间表节点100用于检测消息中间件节点是否发生故障。
基于上述数据处理系统的硬件结构,提出本发明数据处理方法各个实施例。
参照图2,图2为本发明数据处理方法第一实施例的流程示意图。
在本实施例中,所述数据处理方法应用于数据处理系统,所述数据处理系统包括消息中间件节点、分布式存储节点,还包括管理节点和查询接口节点,所述数据处理方法包括以下步骤:
步骤S10,由管理节点通过消息中间件节点接收业务系统基于预设通信接口同步的数据;
步骤S20,由所述管理节点读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点,以供查询接口节点根据终端发送的数据查询请求,在所述分布式存储节点中查询数据。
在本实施例中,所述数据处理系统可选为图1所述的数据处理系统,所述数据处理系统包括消息中间件节点,管理节点和分布式存储节点和查询接口节点。本实施例中,在所述步骤S10之前,所述方法还包括:
业务系统通过数据处理系统提供的通信接口,将产生的数据同步至消息中间件节点。所述通信接口为API(Application Programming Interface,应用程序编程接口)。
本发明实施例中,所述业务系统的个数不做限定,例如,包括存款核心和信用卡系统两个业务系统。需要说明的是,业务系统通过通信接口将数据同步至消息中间件节点时,采用异步同步的方式进行同步。
当消息中间件节点通过所述通信接口接收到业务系统传输的数据时,将接收到的数据再传输至管理节点,由管理节点读取该消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点。
以下是本实施例中逐步实现数据处理的各个步骤:
步骤S10,由管理节点通过消息中间件节点接收业务系统基于预设通信接口同步的数据;
在本实施例中,消息中间件节点通过预设的通信接口接收到业务系统同步的数据后,即可将接收到的数据传输至通信连接的管理节点中。
步骤S20,由所述管理节点读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点,以供查询接口节点根据终端发送的数据查询请求,在所述分布式存储节点中查询数据。
管理节点读取消息中间件节点传输的数据,可选将读取的数据直接存储至分布式存储节点中。
进一步地,为了提高数据处理的准确性,参照图3,所述步骤S20包括:
步骤S21,由所述管理节点读取消息中间件节点传输的数据,并记录读取的数据对应的消息位置;
步骤S22,将读取的数据通过预设的数据模型,存储至分布式存储节点。
所述管理节点先读取消息中间件节点传输的数据,然后先记录读取的数据对应的位置信息,该位置信息用于后续进行数据查找时,可回退到消息中间件节点的具体位置中。即,管理节点后续要查找数据的来源时,可根据记录的该消息位置,到消息中间件节点中查找数据。
在记录读取的数据对应的消息位置之后,所述管理节点将读取的数据通过预设的数据模型存储至分布式存储节点中。本实施例中,所述数据模型包括但不限定:账户标识+交易日期+明细序号。即,管理节点在读取到数据之后,按照账号标识+交易日期+明细序号的方式,将数据存储到分布式存储节点中,使得存储到分布式存储节点中的数据是按照账号标识+交易日期+明细序号的方式排序存储的。
需要说明的是,对于现有的大部分交易数据,都需要查询最近的数据,根据银行交易明细数据按照时间逆序查询这一特点,本实施例中,可选对交易日期和明细序号按照倒序的方式进行查询。对于其他特殊查询,如流水查询等,可以建立Hbase索引表,通过索引表来查询。
可以理解,通过所述管理节点记录读取的数据对应的消息位置,以便后续快速在消息中间件节点中查找到数据,由管理节点将读取的数据通过预设的数据模型,存储至分布式存储节点,便于后续根据数据模型的方式在分布式存储节点中查找数据,提高数据查找的效率。
在本实施例中,终端可选为PC端、手机终端等等,终端的个数不做限定,可以包括多个。终端发送数据查询请求时,是通过终端中的应用程序发送的。当终端通过所述查询接口节点发送数据查询请求至分布式存储节点时,分布式存储节点提取该数据查询请求对应的数据,并将该数据通过所述查询接口反馈至所述终端,以实现数据的查询。其中,所述查询接口可选是多样化的查询接口,可以查询某个账户的数据、过滤多个字段、倒序顺序查询、金额范围查询,或者在预设时间范围查询等等。
本实施例中,该数据处理系统设置有查询接口,以便终端通过该查询接口,在分布式存储节点中查询数据,实现了数据处理系统中的分布式存储节点统一存储数据的情况下,可以由多个终端通过该查询接口在分布式存储节点中统一查询数据。
本实施例提出的数据处理方法,应用于数据处理系统,所述数据处理系统包括消息中间件节点和分布式存储节点,还包括管理节点和查询接口节点,该方法先由管理节点通过消息中间件节点接收业务系统基于预设通信接口同步的数据,再由所述管理节点读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点,以供查询接口节点根据终端发送的数据查询请求,在所述分布式存储节点中查询数据。实现了业务系统产生的各种数据,都通过消息中间件节点传输至管理节点,再由管理节点传输至分布式存储节点进行存储,使得数据集中进行存储,后续要查询数据时,由查询接口节点直接在该分布式存储节点中进行查询即可。通过数据库日志解析节点和离线统计对账节点对分布式存储节点中的数据进行补充,实现了数据存储的可靠性,本发明由于数据集中存储,便于后续简便快速的查询到数据。
进一步地,参照图4,基于第一实施例提出本发明数据处理方法的第二实施例。
数据处理方法的第二实施例与数据处理方法的第一实施例的区别在于,所述数据处理系统还包括数据库节点和数据库日志解析节点,所述数据处理方法还包括:
步骤S30,由数据库日志解析节点在数据库节点中提取日志数据进行解析,并将解析后的日志数据按照预设的数据模型进行处理;
步骤S40,通过所述数据库日志解析节点将处理后的数据与分布式存储节点中的数据进行比较,以确定是否存在差异的数据;
步骤S50,若存在差异的数据,由所述数据库日志解析节点将差异的数据同步至分布式存储节点中。
在本实施例中,业务系统将数据同步至消息中间件节点之后,还可将数据同步至数据库节点中进行存储。数据库节点接收到所述业务系统同步的数据时,存储接收到的数据,该存储的时间根据具体需要进行设置,此处不做限定,可以理解,在存储时间达到时,自动删除存储的数据。当数据库节点存储数据之后,数据库日志解析节点在数据库节点中提取数据进行解析,并将解析后的数据按照预设的数据模型进行处理。本实施例中,所述数据模型即上文所述的数据模型,具体的处理方式与上文一致,此处不做赘述。
当数据库日志解析节点对数据处理之后,将处理后的数据与分布式存储节点中存储的数据进行比较,以确定处理后的数据与分布式存储节点的数据中存在差异的数据。在本实施例中,数据库日志解析节点将处理后的数据与分布式存储节点中存储的数据进行比较,若检测到处理后的数据与分布式存储节点的数据之间存在差异的数据,说明之前存储数据至分布式存储节点时出现数据丢失,此时就将该差异的数据同步至分布式存储节点中,以实现数据分布式存储节点中的数据补缺。
在本实施例中,通过数据库节点和数据库日志解析节点实现数据的缺失补缺,提高数据处理的准确性。
进一步地,参照图5,基于第一实施例提出本发明数据处理方法的第三实施例。
数据处理方法的第三实施例与数据处理方法的第一至第二实施例的区别在于,所述数据处理系统还包括离线数据抽取节点、分布式文件节点和离线统计对账节点,所述数据处理方法还包括:
步骤S60,由离线统计对账节点定时在分布式文件节点中取得距离当前时间点预设时长内的数据,其中,分布式文件节点中的数据由离线数据抽取节点定时在业务系统中抽取并存储至所述分布式文件节点;
步骤S70,由所述离线统计对账节点将取得的数据与分布式存储节点中的数据进行比较,以确定取得的数据与分布式存储节点的数据中是否存在差异的数据;
步骤S80,若存在差异的数据,通过所述离线统计对账节点将差异的数据同步至分布式存储节点中。
在本实施例中,离线数据抽取节点定时在所述业务系统中抽取距离当前时间点预设时长内的数据,两个定时的时间点之间的时长与预设时长保持一致,可选是每隔12小时,或者每隔24小时抽取数据,本实施例中,优选每隔24小时抽取数据,当离线数据抽取节点每隔24小时在所述业务系统中抽取数据时,是抽取距离当前时间点24小时内的数据。在抽取到数据之后,将抽取的数据存储至分布式文件节点中。
然后,离线统计对账节点在分布式文件节点中取得距离当前时间点预设时长内的数据,即24小时内的数据,在本实施例中,所述离线统计对账节点取得数据是通过TSS机制取得的,取得数据之后,将取得的数据与分布式存储节点中的数据进行比较,以确定取得的数据与分布式存储节点的数据中是否存在差异的数据,若检测到存在差异的数据,将差异的数据同步至分布式存储节点中。
在本实施例中,通过离线数据抽取节点、分布式文件节点和离线统计对账节点,对分布式存储节点中的数据进行缺失补充,进一步提高数据处理的准确性。
应当理解的是,离线统计对账节点修复数据,是离线数据抽取节点使用BDP大数据平台,每天定时从业务系统中抽取数据,保存在BDP-Hadoop中,离线统计对账节点使用TSS进行调度,将数据进行清洗计算,并对hadoop跟hbase中数据差异进行比较,将差异数据同步到BDP-HBase中,完成数据修复。需要说明的是,经过离线对比过的数据,将不再允许修改。
进一步地,参照图6,基于第三实施例提出本发明数据处理方法的第四实施例。
数据处理方法的第四实施例与数据处理方法的第三实施例的区别在于,所述数据处理系统还包括时间表节点,所述步骤S80之后,所述方法还包括:
步骤S90,通过时间表节点调用预存的脚本文件,以从所述消息中间件节点中拷贝数据;
步骤S100,通过所述时间表节点将拷贝的数据与分布式文件节点中的数据进行比较,以确定消息中间件节点是否故障,其中,在拷贝的数据与所述分布式文件节点中的数据不匹配时,确定所述消息中间件节点故障;
步骤S110,若所述消息中间件节点故障,启动所述消息中间件节点对应的备份消息中间件节点以执行数据处理操作。
在本实施例中,离线统计对账节点确定取得的数据与分布式存储节点的数据中存在差异的数据之后,为了判断导致数据差异的原因是否为消息中间件节点。由时间表节点调用预存的脚本文件,以从所述消息中间件节点中拷贝数据,然后将拷贝的数据与所述分布式文件节点中的数据进行比较,以确定所述消息中间件节点是否故障,其中,在拷贝的数据与所述分布式文件节点中的数据不匹配时,即拷贝的数据与所述分布式文件节点中的数据不一致时,确定所述消息中间件节点故障。在确定消息中间件故障的情况下,启动所述消息中间件节点对应的备份消息中间件节点,由该备份消息中间件节点执行后续的数据处理操作,即,拉起备份消息中间件节点替换故障的消息中间件节点执行后续的数据处理过程,防止业务系统重新产生的数据要存储至分布式存储节点时,由于故障的消息中间件节点导致数据存储失败,或者数据存储过程中发生数据丢失。
在本实施例中,通过时间表节点验证消息中间件节点,以及时发现数据丢失的具体原因,以便及时切换至备份消息中间件节点中,提高数据处理的安全性。
进一步地,基于第一至第四实施例提出本发明数据处理方法的第五实施例。
数据处理方法的第五实施例与数据处理方法的第一至第四实施例的区别在于,所述数据处理系统的各个节点都存在备份节点,数据处理系统的各个节点执行数据处理操作时,各个节点会将数据同步至对应的备份节点中,以在节点发生故障时,由备份节点提供服务。
在本实施例中,数据处理系统中的各个节点,即消息中间件节点、管理节点、分布式存储节点、查询接口节点、数据库节点、数据库日志解析节点、离线数据抽取节点、分布式文件节点中、离线统计对账节点、时间表节点等都设置有备份节点。需要说明的是,各个节点位于不同的终端设备中,各个备份节点同样设置在不同的备份终端设备中。在各个节点执行数据处理操作时,各个节点会将数据同步至对应的备份节点中,若有任一个节点发生故障时,都由备份节点提供服务。
在本实施例中,对各个节点设置备份节点,以便节点故障时,备份节点提供服务,数据不丢失,高可用,提高数据处理的安全性和准确性。
综上,本发明提出的数据处理方法,将交易数据集合到一个位置集中存储,并提供可靠的查询接口查询交易数据,支持多个终端查询数据,满足高并发,响应快的特征,并能查询任何时间区间的历史交易数据。
本发明进一步提供一种数据处理系统。
所述数据处理系统包括通过预设通信接口与业务系统通信连接的消息中间件节点、与所述消息中间件节点通信连接的管理节点、与所述管理节点通信连接的分布式存储节点,以及与分布式存储节点通信连接的查询接口节点;
管理节点,用于通过消息中间件节点接收业务系统基于预设通信接口同步的数据;
所述管理节点,还用于读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点;
查询接口节点,用于根据终端发送的数据查询请求,在所述分布式存储节点中查询数据。
其中,所述管理节点,还用于读取消息中间件节点传输的数据,并记录读取的数据对应的消息位置;
将读取的数据通过预设的数据模型,存储至分布式存储节点。
管理节点和查询接口节点的具体操作在上文已经详述,此处不再赘述。
本实施例的数据处理系统,包括消息中间件、管理节点和分布式存储节点;消息中间件先通过预设的通信接口接收业务系统同步的数据,并将接收到的数据传输至管理节点,然后由管理节点读取消息中间件传输的数据,并将读取的数据处理至分布式存储节点,实现了业务产生的各种数据,都通过消息中间件传输至管理节点,再由管理节点传输至分布式存储节点进行存储,使得数据集中进行存储,后续要查询数据时,直接在该分布式存储节点中进行查询即可。通过数据库日志解析节点和离线统计对账节点对分布式存储节点中的数据进行补充,实现了数据存储的可靠性,本实施例由于数据集中存储,便于后续简便快速的查询到数据。
进一步地,基于第一实施例提出本发明数据处理系统的第二实施例,数据处理系统的第二实施例与数据处理系统的第一实施例的区别在于,
所述数据处理系统还包括与所述业务系统通信连接的数据库节点,以及与所述数据库节点通信连接的数据库日志解析节点;
数据库节点,用于接收所述业务系统同步的数据,并存储接收到的数据;
数据库日志解析节点,用于在数据库节点中提取日志数据进行解析,并将解析后的日志数据按照预设的数据模型进行处理;
所述数据库日志解析节点,还用于将处理后的数据与分布式存储节点中的数据进行比较,以确定是否存在差异的数据;
所述数据库日志解析节点,还用于若存在差异的数据,将差异的数据同步至分布式存储节点中。
数据库节点和数据库日志解析节点的具体操作在上文已经详述,此处不再赘述。
在本实施例中,通过数据库节点和数据库日志解析节点实现数据的缺失补缺,提高数据处理的准确性。
进一步地,基于第一实施例提出本发明数据处理系统的第三实施例,数据处理系统的第三实施例与数据处理系统的第一或第二实施例的区别在于,
所述数据处理系统还包括与所述业务系统通信连接的离线数据抽取节点、与所述离线数据抽取节点通信连接的分布式文件节点,以及与分布式文件节点通信连接的离线统计对账节点;
离线数据抽取节点,用于定时在所述业务系统中抽取距离当前时间点预设时长内的数据,并将抽取的数据存储至分布式文件节点中;
离线统计对账节点,用于在分布式文件节点中取得距离当前时间点预设时长内的数据,并将取得的数据与分布式存储节点中的数据进行比较,以确定取得的数据与分布式存储节点的数据中是否存在差异的数据;
所述离线统计对账节点,还用于若存在差异的数据,将差异的数据同步至分布式存储节点中。
离线数据抽取节点和离线统计对账节点的具体操作在上文已经详述,此处不再赘述。
在本实施例中,通过离线数据抽取节点、分布式文件节点和离线统计对账节点,对分布式存储节点中的数据进行缺失补充,进一步提高数据处理的准确性。
进一步地,基于第三实施例提出本发明数据处理系统的第四实施例,数据处理系统的第四实施例与数据处理系统的第三实施例的区别在于,
所述数据处理系统还包括与消息中间件节点通信连接的时间表节点;
时间表节点,用于调用预存的脚本文件,以从所述消息中间件节点中拷贝数据;
所述时间表节点,还用于通过所述时间表节点将拷贝的数据与所述分布式文件节点中的数据进行比较,以确定所述消息中间件节点是否故障,其中,在拷贝的数据与所述分布式文件节点中的数据不匹配时,确定所述消息中间件节点故障;
若所述消息中间件节点故障,启动所述消息中间件节点对应的备份消息中间件节点以执行数据处理操作。
时间表节点的具体操作在上文已经详述,此处不再赘述。
在本实施例中,通过时间表节点验证消息中间件节点,以及时发现数据丢失的具体原因,以便及时切换至备份消息中间件节点中,提高数据处理的安全性。
本发明进一步提供一种计算机可读存储介质。
所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序应用于上文所述的数据处理系统,所述数据处理程序被处理器执行时实现如上文所述的数据处理方法的步骤。
具体的操作过程上文已经详述,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种数据处理方法,应用于数据处理系统,所述数据处理系统包括消息中间件节点和分布式存储节点,其特征在于,所述数据处理系统还包括管理节点和查询接口节点,所述数据处理方法包括以下步骤:
由管理节点通过消息中间件节点接收业务系统基于预设通信接口同步的数据;
由所述管理节点读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点,以供查询接口节点根据终端发送的数据查询请求,在所述分布式存储节点中查询数据;
所述数据处理系统还包括数据库节点和数据库日志解析节点,所述数据处理方法还包括:
由数据库日志解析节点在数据库节点中提取日志数据进行解析,并将解析后的日志数据按照预设的数据模型进行处理;
通过所述数据库日志解析节点将处理后的数据与分布式存储节点中的数据进行比较,以确定是否存在差异的数据;
若存在差异的数据,由所述数据库日志解析节点将差异的数据同步至分布式存储节点中。
2.如权利要求1所述的数据处理方法,其特征在于,所述由所述管理节点读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点的步骤包括:
由所述管理节点读取消息中间件节点传输的数据,并记录读取的数据对应的消息位置;
将读取的数据通过预设的数据模型,存储至分布式存储节点。
3.如权利要求1至2任一项所述的数据处理方法,其特征在于,所述数据处理系统还包括离线数据抽取节点、分布式文件节点和离线统计对账节点,所述数据处理方法还包括:
由离线统计对账节点定时在分布式文件节点中取得距离当前时间点预设时长内的数据,其中,分布式文件节点中的数据由离线数据抽取节点定时在业务系统中抽取并存储至所述分布式文件节点;
由所述离线统计对账节点将取得的数据与分布式存储节点中的数据进行比较,以确定取得的数据与分布式存储节点的数据中是否存在差异的数据;
若存在差异的数据,通过所述离线统计对账节点将差异的数据同步至分布式存储节点中。
4.如权利要求3所述的数据处理方法,其特征在于,所述数据处理系统还包括时间表节点,所述数据处理方法包括:
通过时间表节点调用预存的脚本文件,以从所述消息中间件节点中拷贝数据;
通过所述时间表节点将拷贝的数据与分布式文件节点中的数据进行比较,以确定消息中间件节点是否故障,其中,在拷贝的数据与所述分布式文件节点中的数据不匹配时,确定所述消息中间件节点故障;
若所述消息中间件节点故障,启动所述消息中间件节点对应的备份消息中间件节点以执行数据处理操作。
5.一种数据处理系统,所述数据处理系统包括消息中间件节点和分布式存储节点,其特征在于,所述数据处理系统还管理节点和查询接口节点:
管理节点,用于通过消息中间件节点接收业务系统基于预设通信接口同步的数据;
所述管理节点,还用于读取消息中间件节点传输的数据,并将读取的数据存储至分布式存储节点;
查询接口节点,用于根据终端发送的数据查询请求,在所述分布式存储节点中查询数据;
所述数据处理系统还包括数据库节点和数据库日志解析节点;
数据库节点,用于接收所述业务系统同步的数据,并存储接收到的数据;
数据库日志解析节点,用于在数据库节点中提取日志数据进行解析,并将解析后的日志数据按照预设的数据模型进行处理;
所述数据库日志解析节点,还用于将处理后的数据与分布式存储节点中的数据进行比较,以确定是否存在差异的数据;
所述数据库日志解析节点,还用于若存在差异的数据,将差异的数据同步至分布式存储节点中。
6.如权利要求5所述的数据处理系统,其特征在于,所述管理节点,还用于读取消息中间件节点传输的数据,并记录读取的数据对应的消息位置;
将读取的数据通过预设的数据模型,存储至分布式存储节点。
7.如权利要求5-6任一项所述的数据处理系统,其特征在于,所述数据处理系统还包括离线数据抽取节点、分布式文件节点和离线统计对账节点;
离线数据抽取节点,用于定时在所述业务系统中抽取距离当前时间点预设时长内的数据,并将抽取的数据存储至分布式文件节点中;
离线统计对账节点,用于在分布式文件节点中取得距离当前时间点预设时长内的数据,并将取得的数据与分布式存储节点中的数据进行比较,以确定取得的数据与分布式存储节点的数据中是否存在差异的数据;
所述离线统计对账节点,还用于若存在差异的数据,将差异的数据同步至分布式存储节点中。
8.如权利要求7所述的数据处理系统,其特征在于,所述数据处理系统还包括时间表节点;
时间表节点,用于调用预存的脚本文件,以从所述消息中间件节点中拷贝数据;
所述时间表节点,还用于通过所述时间表节点将拷贝的数据与所述分布式文件节点中的数据进行比较,以确定所述消息中间件节点是否故障,其中,在拷贝的数据与所述分布式文件节点中的数据不匹配时,确定所述消息中间件节点故障;
若所述消息中间件节点故障,启动所述消息中间件节点对应的备份消息中间件节点以执行数据处理操作。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序应用于数据处理系统,所述数据处理程序被处理器执行时实现如权利要求1至4任一项所述的数据处理方法的步骤。
CN201710927798.8A 2017-10-02 2017-10-02 数据处理方法、系统和计算机可读存储介质 Active CN107870982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710927798.8A CN107870982B (zh) 2017-10-02 2017-10-02 数据处理方法、系统和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710927798.8A CN107870982B (zh) 2017-10-02 2017-10-02 数据处理方法、系统和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN107870982A CN107870982A (zh) 2018-04-03
CN107870982B true CN107870982B (zh) 2021-04-23

Family

ID=61752765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710927798.8A Active CN107870982B (zh) 2017-10-02 2017-10-02 数据处理方法、系统和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107870982B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245152A (zh) * 2018-09-27 2019-09-17 爱信诺征信有限公司 数据处理方法及其装置
CN110489394B (zh) * 2019-07-23 2023-07-21 中国平安人寿保险股份有限公司 中间数据处理方法及设备
CN110415095A (zh) * 2019-07-24 2019-11-05 深圳乐信软件技术有限公司 一种对账方法、装置、终端及存储介质
CN114244899B (zh) * 2021-12-02 2024-05-17 上海微盟企业发展有限公司 一种消息传递方法、装置及可读存储介质
CN114489866B (zh) * 2022-04-18 2022-07-12 武汉中科通达高新技术股份有限公司 数据管理方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143112B2 (en) * 2003-09-10 2006-11-28 Hitachi, Ltd. Method and apparatus for data integration
CN103971230A (zh) * 2014-05-28 2014-08-06 拓维信息系统股份有限公司 一种电子商务统一支付系统
CN104951306A (zh) * 2015-06-17 2015-09-30 深圳市腾讯计算机系统有限公司 基于实时计算框架的数据处理方法和系统
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统
CN105577776A (zh) * 2015-12-17 2016-05-11 上海爱数信息技术股份有限公司 基于数据仲裁者副本的分布式存储系统及方法
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN106815338A (zh) * 2016-12-25 2017-06-09 北京中海投资管理有限公司 一种大数据的实时存储、处理和查询系统
CN107038162A (zh) * 2016-02-03 2017-08-11 滴滴(中国)科技有限公司 基于数据库日志的实时数据查询方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102186123B (zh) * 2011-04-29 2014-01-22 东北大学 一种wdm光网络中的基于子树的多播共享多层保护方法
US9424274B2 (en) * 2013-06-03 2016-08-23 Zettaset, Inc. Management of intermediate data spills during the shuffle phase of a map-reduce job
CN105824868B (zh) * 2015-12-24 2019-05-17 广东亿迅科技有限公司 一种分布式数据库数据处理方法和分布式数据库系统
CN105959151B (zh) * 2016-06-22 2019-05-07 中国工商银行股份有限公司 一种高可用的流式处理系统及方法
CN106506274B (zh) * 2016-11-08 2020-12-15 东北大学秦皇岛分校 一种可动态扩展的高效单包溯源方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143112B2 (en) * 2003-09-10 2006-11-28 Hitachi, Ltd. Method and apparatus for data integration
CN103971230A (zh) * 2014-05-28 2014-08-06 拓维信息系统股份有限公司 一种电子商务统一支付系统
CN104951306A (zh) * 2015-06-17 2015-09-30 深圳市腾讯计算机系统有限公司 基于实时计算框架的数据处理方法和系统
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统
CN105577776A (zh) * 2015-12-17 2016-05-11 上海爱数信息技术股份有限公司 基于数据仲裁者副本的分布式存储系统及方法
CN105677836A (zh) * 2016-01-05 2016-06-15 北京汇商融通信息技术有限公司 一种同时支持离线数据和实时在线数据的大数据处理解决系统
CN107038162A (zh) * 2016-02-03 2017-08-11 滴滴(中国)科技有限公司 基于数据库日志的实时数据查询方法和系统
CN106815338A (zh) * 2016-12-25 2017-06-09 北京中海投资管理有限公司 一种大数据的实时存储、处理和查询系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
电子银行分布式数据交换关键技术研究与实现;张岩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100415;I138-280 *

Also Published As

Publication number Publication date
CN107870982A (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
CN107870982B (zh) 数据处理方法、系统和计算机可读存储介质
CN108228814B (zh) 数据同步方法及装置
CN106713487B (zh) 数据的同步方法和装置
CN106685691B (zh) 物联网系统中终端设备的高效更新配置方法
CN104809202A (zh) 一种数据库同步的方法和装置
CN104809201A (zh) 一种数据库同步的方法和装置
CN107220142B (zh) 执行数据恢复操作的方法及装置
US6374262B1 (en) Relational database synchronization method and a recording medium storing a program therefore
CN104809200A (zh) 一种数据库同步的方法和装置
CN111078504A (zh) 一种分布式调用链跟踪方法、装置、计算机设备及存储介质
EP4064152A1 (en) Data synchronization method and device for databases, and storage medium
CN101996214A (zh) 用于处理数据库操作请求的方法和装置
CN104809199A (zh) 一种数据库同步的方法和装置
US20120278429A1 (en) Cluster system, synchronization controlling method, server, and synchronization controlling program
CN111225012A (zh) 事务处理方法、装置和设备
CN110543512B (zh) 一种信息同步方法,装置及系统
CN114416868B (zh) 一种数据同步方法、装置、设备及存储介质
CN117130730A (zh) 面向联邦Kubernetes集群的元数据管理方法
CN102594874A (zh) 一种同步处理方法和装置
CN112749172A (zh) 一种缓存与数据库之间的数据同步方法及系统
CN113934797B (zh) 一种银行业超大数据同步方法和系统
CN116186082A (zh) 基于分布式的数据汇总方法、第一服务器和电子设备
CN113326325A (zh) 一种数据库主从服务断开的检测方法及装置
CN112053150A (zh) 一种数据处理方法、装置及存储介质
CN111885206A (zh) 一种支持多电商平台并向指定环境推送数据的云平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant