CN110727700A - 多源流式数据整合成事务型流数据的方法及系统 - Google Patents

多源流式数据整合成事务型流数据的方法及系统 Download PDF

Info

Publication number
CN110727700A
CN110727700A CN201911006491.XA CN201911006491A CN110727700A CN 110727700 A CN110727700 A CN 110727700A CN 201911006491 A CN201911006491 A CN 201911006491A CN 110727700 A CN110727700 A CN 110727700A
Authority
CN
China
Prior art keywords
data
streaming data
consumption
theme
streaming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911006491.XA
Other languages
English (en)
Inventor
解涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Citic Bank Corp Ltd
Original Assignee
China Citic Bank Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Citic Bank Corp Ltd filed Critical China Citic Bank Corp Ltd
Priority to CN201911006491.XA priority Critical patent/CN110727700A/zh
Publication of CN110727700A publication Critical patent/CN110727700A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多源流式数据整合成事务型流数据的方法及系统,目的是为了解决将离散的事件流数据做整合,以得到完整业务含义的事件流,减轻流数据处理时的压力的问题。本发明提供一种多源流式数据整合成事务型流数据的方法,包括:步骤1,实时订阅第一主题数据;步骤2,实时订阅第二主题数据;步骤3,根据所述第一主题数据或所述第二主题数据的消费先后关系,将先消费得到的数据先写入缓存,等待后一主题数据消费得到之后,读取之前缓存的数据,将先后消费得到的数据拼接为一个整体;以及步骤4,将所述步骤3中拼接后的数据作为第三主题数据储存。

Description

多源流式数据整合成事务型流数据的方法及系统
技术领域
本发明涉及金融行业实时营销领域,涉及离散流数据整合技术,尤其涉及一种多源流式数据整合成事务型流数据的计算系统。
背景技术
当前金融大数据的实时计算系统,主要解决行业内的将离散的事件流数据进行整合的问题,从而得到完整业务事件流,减轻数据处理压力。在技术层面涉及流数据平台,缓存单元以及逻辑处理单元。流数据存储组件如kafka、activeMQ、rabbitMQ等;数据处理单元包括spark、storm或者flink等;在缓存数据库方面有redis、memcache。
Kafka:是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。
Spark Streaming:是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。
Redis:是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。kafka中一般每个主题中的数据是一个个的事件行为数据,多个主题之间的数据在技术上是独立的。目前金融大数据的实时计算系统,能实时订阅单个kafka的主题数据,基于这些事件数据做复杂的规则运算。
但是如果要实现多个主题数据的组合式运算,目前的系统一般都很难友好地支持。基于此种情况,本专利设计并搭建了能实现多主题数据整合、组成事务型流数据的系统。
但是,如果要实现多个主题数据的组合式运算,目前的系统一般都很难友好地支持。基于此种情况,本专利设计并搭建了能实现多主题数据整合、组成事务型流数据的系统。
发明内容
本发明的目的就是为了解决将离散的事件流数据做整合,以得到完整业务含义的事件流,减轻流数据处理时的压力的问题。能实现秒级的多主题事件关联,实现事务型事件流的整合。
为了解决上述技术问题,本发明提供一种多源流式数据整合成事务型流数据的方法,包括:步骤1,实时订阅第一主题数据;步骤2,实时订阅第二主题数据;步骤3,根据所述第一主题数据或所述第二主题数据的消费先后关系,将先消费得到的数据先写入缓存,等待后一主题数据消费得到之后,读取之前缓存的数据,将先后消费得到的数据根据具体业务场景加工处理,所述加工处理包括清洗、计算、衍生,从而将数据拼接为一个整体;以及步骤4,将所述步骤3中拼接后的数据作为第三主题数据储存。
优选地,所述第一主题数据或者所述第二主题数据通过业务场景实时采集得到,具有数据特项不全面、数据值不完全准确、数据值格式不完全合法、多主题数据间有业务联系但数据顺序不确定等特点。
优选地,给先写入缓存的数据设定失效期。
本发明还提供一种多源流式数据整合成事务型流数据的系统,包括:流数据组件,其用来储存第一主题数据和第二主题数据;缓存组件,所述缓存组件将所述第一主题数据或所述第二主题数据中先消费得到的数据写入缓存;以及逻辑处理单元,等待后一主题数据消费得到之后,所述逻辑处理单元用来读取所述缓存组件缓存的数据并将先后消费得到的数据拼接为一个整体作为第三主题数据储存。
优选地,所述第三主题数据储存在所述流数据组件中。
优选地,所述流数据组件为Kafka流数据处理平台。
优选地,所述缓存组件为Redis存储系统。
优选地,逻辑处理单元采用Spark、Flink、Storm流计算引擎。
本发明相对于现有技术的有益效果:使用本技术可以将分散在多个topic的事务性流数据整合到一个,减少了业务系统的复杂性;数据间相互等待的逻辑从业务系统剥离出来,降低了业务系统对上游的耦合度;业务系统在获取事务型流数据时,处理时间更短,增加了系统性能和效率。
附图说明
图1为本多源流式数据整合成事务型流数据的方法的示意图。
图2为本多源流式数据整合成事务型流数据的系统的逻辑图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明实施例提供一种多源流式数据整合成事务型流数据的方法,包括如下步骤:
步骤S1,实时订阅第一主题数据;
步骤S2,实时订阅第二主题数据;
步骤S3,根据所述第一主题数据或所述第二主题数据的消费先后关系,将先消费得到的数据先写入缓存;
等待后一主题数据消费得到之后,读取之前缓存的数据,将先后消费得到的数据加工处理为一个整体。加工处理包括:数据项的清洗、一个或多个数据项的混合运算、数据项衍生、多条数据的拼接等。
步骤S4,将所述拼接后的数据作为第三主题数据储存。
上述方案中,参见图1,步骤1S和步骤2S是分别实时订阅两个topic数据,需要说明的是,本实施例的系统和方法,可以对多个主题的数据进行整合,多个主题的整合方法以此类推。步骤3S是将先消费到的数据先写入缓存,待后一个topic数据也消费到之后,读取之前缓存的数据,做加工处理。步骤4S是将做好整合拼接的数据,重新发布回kafka形成另一个topic数据。如此即实现了由topicA +topicB得到topicC的过程。同理,多个topic的拼接和两个topic的拼接原理一样。
作为一种具体的实施方式,所述第一主题数据或者所述第二主题数据通过采集业务场景得到。进一步地,给先写入缓存的数据设定失效期。
实施例2
如图2所示,本发明还提供一种多源流式数据整合成事务型流数据的系统,包括流数据组件、缓存组件以及逻辑处理单元,其中,流数据组件用来储存第一主题数据和第二主题数据,需要说明的是,本实施例的系统和方法,可以对多个主题的数据进行整合,多个主题的整合方法以此类推。缓存组件根据所述第一主题数据或所述第二主题数据的消费先后关系用来将先消费得到的数据先写入缓存,等待后一主题数据消费得到之后,所述逻辑处理单元用来读取所述缓存组件缓存的数据并将先后消费得到的数据拼接为一个整体作为第三主题数据储存。
优选地,所述第三主题数据储存在所述流数据组件中。
优选地,所述流数据组件为Kafka流数据处理平台。流数据组件可选择Kafka流数据处理平台,kafka平台中数据是分主题分区存储的,每个主题存储业务含义相关或数据结构相近的数据。
优选地,所述缓存组件为Redis存储系统。
优选地,所述逻辑处理单元采用Spark计算引擎。
上述方案中,kafka可使用activeMQ、rabbitMQ等消息队列替代;对于计算框架,spark可使用storm或者flink等流数据处理技术替代;作为缓存组件的缓存数据库,redis可由memcache数据库替代。本发明可应用于金融行业的实时营销。在实时营销场景下,有时需要事件组合营销。比如,用户点击注册、登录、签到之后,由礼券平台送给用户一个礼品。但是各个事件是分散在不同的系统中,事件数据也是放在不同的topic。此时使用本技术后,礼券平台只需要消费衍生后的新topic,而不用关心各个子事件,即可实现业务场景。这样降低了礼券平台的复杂度,更容易的实现了业务需求。
本发明的目的就是为了解决将离散的事件流数据做整合,以得到完整业务含义的事件流,减轻流数据处理时的压力的问题,能实现秒级的topic事件关联,实现事务型事件流的整合。数据间相互等待的逻辑从业务系统剥离出来,降低了业务系统对上游的耦合度;业务系统在获取事务型流数据时,处理时间更短,增加了系统性能和效率。
综上,本实施例的多源流式数据整合成事务型流数据的系统和方法,由kafka消费得到的多个topic数据,但各个事件分散于不同的系统当中,事件数据也存放在不同的topic,而通过运用本技术,由其先后连续性构成一个完整的事务,形成新的topic,不必再关注各个子事件,从而将分散在多个topic的事务性流数据整合到一个,减少了业务系统的复杂性。

Claims (8)

1.一种多源流式数据整合成事务型流数据的方法,其特征在于,包括:
步骤1,实时订阅第一主题数据;
步骤2,实时订阅第二主题数据;
步骤3,根据所述第一主题数据或所述第二主题数据的消费先后关系,将先消费得到的数据先写入缓存,等待后一主题数据消费得到之后,读取之前缓存的数据,将先后消费得到的数据根据具体业务场景加工处理,所述加工处理包括清洗、计算、衍生,从而将数据拼接为一个整体;以及
步骤4,将所述步骤3中拼接后的数据作为第三主题数据储存。
2.如权利要求1所述的多源流式数据整合成事务型流数据的方法,其特征在于,所述第一主题数据或者所述第二主题数据通过业务场景的采集得到。
3.如权利要求1所述的多源流式数据整合成事务型流数据的方法,其特征在于,给先写入缓存的数据设定失效期。
4.一种多源流式数据整合成事务型流数据的系统,其特征在于,包括:
流数据组件,其用来储存第一主题数据和第二主题数据;
缓存组件,所述缓存组件将所述第一主题数据或所述第二主题数据中先消费得到的数据写入缓存;
以及逻辑处理单元,等待后一主题数据消费得到之后,所述逻辑处理单元用来读取所述缓存组件缓存的数据并将先后消费得到的数据拼接为一个整体作为第三主题数据储存。
5.如权利要求4所述的多源流式数据整合成事务型流数据的系统,其特征在于,所述第三主题数据储存在所述流数据组件中。
6.如权利要求4所述的多源流式数据整合成事务型流数据的系统,其特征在于,所述流数据组件为Kafka流数据处理平台。
7.如权利要求4所述的多源流式数据整合成事务型流数据的系统,其特征在于,所述缓存组件为Redis存储系统。
8.如权利要求4所述的多源流式数据整合成事务型流数据的系统,其特征在于,所述逻辑处理单元采用Spark、Flink、Storm流计算引擎。
CN201911006491.XA 2019-10-22 2019-10-22 多源流式数据整合成事务型流数据的方法及系统 Pending CN110727700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911006491.XA CN110727700A (zh) 2019-10-22 2019-10-22 多源流式数据整合成事务型流数据的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911006491.XA CN110727700A (zh) 2019-10-22 2019-10-22 多源流式数据整合成事务型流数据的方法及系统

Publications (1)

Publication Number Publication Date
CN110727700A true CN110727700A (zh) 2020-01-24

Family

ID=69222715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911006491.XA Pending CN110727700A (zh) 2019-10-22 2019-10-22 多源流式数据整合成事务型流数据的方法及系统

Country Status (1)

Country Link
CN (1) CN110727700A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696044A (zh) * 2020-06-16 2020-09-22 清华大学 一种大场景动态视觉观测方法及装置
CN112667686A (zh) * 2020-12-30 2021-04-16 中国农业银行股份有限公司 一种实时流数据拼接方法及装置
WO2024030734A1 (en) * 2022-08-04 2024-02-08 Swaq, Inc. Gift messaging applications
CN112667686B (zh) * 2020-12-30 2024-07-05 中国农业银行股份有限公司 一种实时流数据拼接方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968386A (zh) * 2011-05-18 2013-03-13 佳能株式会社 数据供给设备、缓存设备及数据供给方法
US20170264619A1 (en) * 2016-03-11 2017-09-14 Netskope, Inc. Middle ware security layer for cloud computing services
CN109684352A (zh) * 2018-12-29 2019-04-26 江苏满运软件科技有限公司 数据分析系统、方法、存储介质及电子设备
US20190258733A1 (en) * 2018-02-19 2019-08-22 Red Hat, Inc. Methods and devices for joining multiple events in data streaming analytics systems
CN110245158A (zh) * 2019-06-10 2019-09-17 上海理想信息产业(集团)有限公司 一种基于Flink流计算技术的多源异构数据实时处理系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968386A (zh) * 2011-05-18 2013-03-13 佳能株式会社 数据供给设备、缓存设备及数据供给方法
US20170264619A1 (en) * 2016-03-11 2017-09-14 Netskope, Inc. Middle ware security layer for cloud computing services
US20190258733A1 (en) * 2018-02-19 2019-08-22 Red Hat, Inc. Methods and devices for joining multiple events in data streaming analytics systems
CN109684352A (zh) * 2018-12-29 2019-04-26 江苏满运软件科技有限公司 数据分析系统、方法、存储介质及电子设备
CN110245158A (zh) * 2019-06-10 2019-09-17 上海理想信息产业(集团)有限公司 一种基于Flink流计算技术的多源异构数据实时处理系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
欧建林: "基于hadoop的商业银行大数据平台研究与实现", 《中国金融电脑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696044A (zh) * 2020-06-16 2020-09-22 清华大学 一种大场景动态视觉观测方法及装置
CN111696044B (zh) * 2020-06-16 2022-06-10 清华大学 一种大场景动态视觉观测方法及装置
CN112667686A (zh) * 2020-12-30 2021-04-16 中国农业银行股份有限公司 一种实时流数据拼接方法及装置
CN112667686B (zh) * 2020-12-30 2024-07-05 中国农业银行股份有限公司 一种实时流数据拼接方法及装置
WO2024030734A1 (en) * 2022-08-04 2024-02-08 Swaq, Inc. Gift messaging applications

Similar Documents

Publication Publication Date Title
US10956684B2 (en) Topic kernelization for real-time conversation data
WO2016206600A1 (zh) 一种信息流数据的处理方法和装置
CN109034993A (zh) 对账方法、设备、系统及计算机可读存储介质
US10204385B2 (en) Distance-based social message pruning
CN109308170B (zh) 一种数据处理方法及装置
US9418241B2 (en) Unified platform for big data processing
US9396448B2 (en) Distributed and open schema interactions management system and method
CN110502583A (zh) 分布式数据同步方法、装置、设备及可读存储介质
CN113094434A (zh) 数据库同步方法、系统、装置、电子设备及介质
CN110389989B (zh) 一种数据处理方法、装置及设备
US20170286377A1 (en) Narrative generation using pattern recognition
CN110727700A (zh) 多源流式数据整合成事务型流数据的方法及系统
CN110955640A (zh) 跨系统数据文件的处理方法、装置、服务器和存储介质
CN112613964A (zh) 一种对账方法、装置、设备及存储介质
CN111163149B (zh) 一种基于区块链的智能合约平台方法
CN113256355B (zh) 一种积分权益实时确定方法、装置、介质、设备和系统
CN110688383A (zh) 数据采集方法及系统
US11256713B2 (en) Virtual transaction queues for database replication
CN113326150A (zh) 一种联机小批量消息处理方法和装置
US9910737B2 (en) Implementing change data capture by interpreting published events as a database recovery log
CN106599222A (zh) 一种流式并行处理日志的方法和设备
CN112948410A (zh) 数据处理方法、装置、设备及介质
CN111967767A (zh) 一种业务风险识别方法、装置、设备及介质
CN117435367B (zh) 用户行为处理方法、装置、设备、存储介质和程序产品
CN115455088B (zh) 数据统计方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200124

RJ01 Rejection of invention patent application after publication