CN111382150A - 一种基于Flink的实时计算方法及系统 - Google Patents

一种基于Flink的实时计算方法及系统 Download PDF

Info

Publication number
CN111382150A
CN111382150A CN202010197103.7A CN202010197103A CN111382150A CN 111382150 A CN111382150 A CN 111382150A CN 202010197103 A CN202010197103 A CN 202010197103A CN 111382150 A CN111382150 A CN 111382150A
Authority
CN
China
Prior art keywords
data
real
time
calculation result
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010197103.7A
Other languages
English (en)
Other versions
CN111382150B (zh
Inventor
陈峥豪
毛冰沁
韦良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of Communications Co Ltd
Original Assignee
Bank of Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of Communications Co Ltd filed Critical Bank of Communications Co Ltd
Priority to CN202010197103.7A priority Critical patent/CN111382150B/zh
Publication of CN111382150A publication Critical patent/CN111382150A/zh
Application granted granted Critical
Publication of CN111382150B publication Critical patent/CN111382150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于Flink的实时计算方法及系统,该方法包括如下步骤:(1)实时数据的获取:获取用于计算的数据源至接入层,触发实时计算;(2)实时数据的清洗和分析处理:采用实时流计算引擎Flink对获取的数据源进行实时的数据清洗和计算,聚合计算结果;(3)实时计算结果持久化:对计算结果进行持久化并完成数据分发。与现有技术相比,本发明方法及系统能够建立高吞吐量、低延迟、高性能的实时计算,满足对业务数据改变的实时地监控和响应,为实时采集客户行为、实时营销计算、实时风险监测等不同场景提供有效服务。

Description

一种基于Flink的实时计算方法及系统
技术领域
本发明涉及一种实时计算方法及系统,尤其是涉及一种基于Flink的实时计算方法及系统。
背景技术
面向服务的架构(SOA)将企业内部拆分为不同的独立系统,每个系统分别使用各自独立的数据库,这种模式解决了业务系统扩展的问题,但是业务交易数据过于分散在不同的系统中,很难将数据进行集中化管理,对于企业内部进行数据分析或者数据挖掘之类的应用,则需要从不同数据库中进行数据抽取,将数据从数据库中周期性地同步到数据仓库中,然后在数据仓库中进行数据的抽取、转换、加载(ETL),从而构建成不同的数据集市和应用,提供给业务系统使用。
大数据技术的兴起让企业能够更加灵活高效地使用自己的业务数据,从数据中抽取出更多重要的价值,并将数据分析和挖掘出来的结果应用在企业的抉择、营销、管理等应用领域。但是对于一些时间要求比较高的应用,例如实时预警、实时报表统计,则对实时计算提出了较高的要求。
现有实时计算,在实时预警应用中通过定时扫描范围时间内变化的数据,结合行内客户、客户经理信息,推送大额动等账信息到客户经理。实时预警应用单机运行,吞吐量较小,有一定压力。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于Flink的实时计算方法及系统。
本发明的目的可以通过以下技术方案来实现:
一种基于Flink的实时计算方法,该方法包括如下步骤:
(1)实时数据的获取:获取用于计算的数据源至接入层,触发实时计算;
(2)实时数据的清洗和分析处理:采用实时流计算引擎Flink对获取的数据源进行实时的数据清洗和计算,聚合计算结果;
(3)实时计算结果持久化:对计算结果进行持久化并完成数据分发。
步骤(1)实时数据的获取包括两种方式:
一、通过数据准实时复制工具和数据交换平台从各源系统获取数据源,进行数据持久化落地到实时明细数据层,再采用微批量的方式从持久层取出实时数据放入接入层;
二、通过KAFKA消息队列的方式获取数据源至接入层的KAFKA消息队列中。
步骤(3)计算结果首先会存入统一的实时汇总数据层进行持久化,实时汇总数据层落地到Hadoop的Hbase上,然后再按不同的应用场景进行数据分发。
按不同的应用场景进行数据分发具体包括:
(a)计算结果数据集与原生数据相比没有数量级上的变化且需要提供实时查询,则该计算结果数据集保存到HBASE并向外提供数据服务;
(b)计算结果数据集与原生数据相比在数量上有明显的增大且有准实时数据要求,则把计算结果数据集保存到Hadoop上的HDFS上,再通过Hadoop的离线计算与其他非埋点数据进行关联,最后提供数据服务;
(c)计算结果数据集与原生数据相比在数量上有明显的减少,则将计算结果数据集写入关系型数据库中,然后提供数据服务;
(d)计算结果数据集与原生数据相比在数量上有显著的减少、计算结果数据集更新较快且数据服务访问量频繁,则将计算结果数据集保存到缓存数据库中,然后提供数据服务;
(e)计算结果数据集具有实时预警推送需求,则通过KAFKA消息队列向应用系统推送预警信息。
一种基于Flink的实时计算系统,该系统包括:
实时数据获取模块:该模块获取用于计算的数据源至接入层,触发实时计算;
实时数据清洗和分析处理模块:该模块采用实时流计算引擎Flink对获取的数据源进行实时的数据清洗和计算,聚合计算结果;
实时计算结果持久化模块:该模块对计算结果进行持久化并完成数据分发。
所述的实时数据获取模块包括:
第一实时数据获取子模块:该子模块通过数据准实时复制工具和数据交换平台从各源系统获取数据源,进行数据持久化落地到实时明细数据层,再采用微批量的方式从持久层取出实时数据放入接入层;
第二实时数据获取子模块:该子模块通过KAFKA消息队列的方式获取数据源至接入层的KAFKA消息队列中。
所述的实时计算结果持久化模块包括:
持久化操作子模块:该子模块将计算结果存入统一的实时汇总数据层进行持久化,实时汇总数据层落地到Hadoop的Hbase上;
分发子模块:该子模块用于将计算结果按不同的应用场景进行数据分发。
所述的分发子模块包括:
第一分发子模块:该子模块用于对计算结果数据集与原生数据相比没有数量级上的变化且需要提供实时查询的计算结果进行分发,该子模块将相应的计算结果数据集保存到HBASE并向外提供数据服务;
第二分发子模块:该子模块用于对计算结果数据集与原生数据相比在数量上有明显的增大且有准实时数据要求的计算结果进行分发,该子模块将相应的计算结果数据集保存到Hadoop上的HDFS上,再通过Hadoop的离线计算与其他非埋点数据进行关联,最后提供数据服务;
第三分发子模块:该子模块用于对计算结果数据集与原生数据相比在数量上有明显的减少的计算结果进行分发,该子模块将相应的计算结果数据集写入关系型数据库中,然后提供数据服务;
第四分发子模块:该子模块用于对计算结果数据集与原生数据相比在数量上有显著的减少、计算结果数据集更新较快且数据服务访问量频繁的计算结果进行分发,该子模块将相应的计算结果数据集保存到缓存数据库中,然后提供数据服务;
第五分发子模块:该子模块用于对计算结果数据集具有实时预警推送需求的计算结果进行分发,该子模块将相应的计算结果数据集通过KAFKA消息队列向应用系统推送。
与现有技术相比,本发明具有如下优点:
本发明基于KAFKA和FLINK的流计算架构,将准实时数据通过应用放入KAFKA集群,再由Flink集群进行事件解析,规则计算与数据持久化。最后将结果消费返回给KAFKA后,统一由查询前置对外提供在线计算服务。建立高吞吐量、低延迟、高性能的实时计算,满足对业务数据改变的实时地监控和响应,为实时采集客户行为,实时营销计算,实时风险监测等不同场景提供服务。
附图说明
图1为本发明基于Flink的实时计算方法的流程框图;
图2为本发明基于Flink的实时计算系统的结构框图;
图3为本实施例采用基于Flink的实时计算方法进行实时计算的实例图。
图中,1为实时数据获取模块,2为实时数据清洗和分析处理模块,3为实时计算结果持久化模块,11为第一实时数据获取子模块,12为第二实时数据获取子模块,31为持久化操作子模块,32为分发子模块。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
如图1所示,一种基于Flink的实时计算方法,该方法包括如下步骤:
S1:实时数据的获取:获取用于计算的数据源至接入层,触发实时计算;
S2:实时数据的清洗和分析处理:采用实时流计算引擎Flink对获取的数据源进行实时的数据清洗和计算,聚合计算结果;
S3:实时计算结果持久化:对计算结果进行持久化并完成数据分发。
步骤S1实时数据的获取包括两种方式:
一、通过数据准实时复制工具和数据交换平台从各源系统获取数据源,进行数据持久化落地到实时明细数据层,再采用微批量的方式从持久层取出实时数据放入接入层,其中,数据准实时复制工具包括IBMCDC(IBM InfoSphere Change Data Capture)以及交通银行行内自主研发的JUMPCDC、CBASECDC等,其中,IBMCDC用于捕获着正在发生的数据库更改并根据InfoSphere CDC Management Console GUI应用程序中配置的表映射将这些更改传递到目标数据库、消息队列、或ETL解决方案;JUMPCDC为行内自主研发的抓取数据变化的准实时数据同步工具,该工具基于db2的事务redo日志,经过解析转化成标准的SQL语句,最后以odbc的方式落实到目标库;CBASECDC为行内自主研发的针对CBASE数据库抓取数据变化的准实时数据同步工具。
二、通过KAFKA消息队列的方式获取数据源至接入层的KAFKA消息队列中,是一个分布式消息队列。KAFKA具有高性能、持久化、多副本备份、横向扩展能力,生产者向队列中写消息,消费者从队列里取消息进行业务逻辑处理。在架构设计中起到解耦、削峰、异步处理的作用。
步骤S2采用实时流计算引擎Flink对获取的数据源进行实时的数据清洗和计算,Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。
步骤S3计算结果首先会存入统一的实时汇总数据层进行持久化,实时汇总数据层落地到Hadoop的Hbase上,然后再按不同的应用场景进行数据分发,这里HBase作为一种基于Hadoop平台、Google的BigTable开源实现的分布式数据库,具有高可靠性、高性能、面向列、可伸缩的特性,支持原生海量数据分布式存储、支持随机及范围查询、支持高吞吐及低时延等特性。本发明按不同的应用场景进行数据分发具体包括:
(a)计算结果数据集与原生数据相比没有数量级上的变化且需要提供实时查询,则该计算结果数据集保存到HBASE并向外提供数据服务;
(b)计算结果数据集与原生数据相比在数量上有明显的增大且有准实时数据要求,则把计算结果数据集保存到Hadoop上的HDFS上,再通过Hadoop的离线计算与其他非埋点数据进行关联,最后提供数据服务;
(c)计算结果数据集与原生数据相比在数量上有明显的减少,则将计算结果数据集写入关系型数据库中,然后提供数据服务;
(d)计算结果数据集与原生数据相比在数量上有显著的减少、计算结果数据集更新较快且数据服务访问量频繁,则将计算结果数据集保存到缓存数据库中,然后提供数据服务;
(e)计算结果数据集具有实时预警推送需求,则通过KAFKA消息队列向应用系统推送预警信息。
如图2所示,一种基于Flink的实时计算系统,该系统包括:
实时数据获取模块1:该模块获取用于计算的数据源至接入层,触发实时计算;
实时数据清洗和分析处理模块2:该模块采用实时流计算引擎Flink对获取的数据源进行实时的数据清洗和计算,聚合计算结果;
实时计算结果持久化模块3:该模块对计算结果进行持久化并完成数据分发。
实时数据获取模块1包括:
第一实时数据获取子模块11:该子模块通过数据准实时复制工具和数据交换平台从各源系统获取数据源,进行数据持久化落地到实时明细数据层,再采用微批量的方式从持久层取出实时数据放入接入层;
第二实时数据获取子模块12:该子模块通过KAFKA消息队列的方式获取数据源至接入层的KAFKA消息队列中。
实时计算结果持久化模块3包括:
持久化操作子模块31:该子模块将计算结果存入统一的实时汇总数据层进行持久化,实时汇总数据层落地到Hadoop的Hbase上;
分发子模块32:该子模块用于将计算结果按不同的应用场景进行数据分发。
分发子模块32包括:
第一分发子模块:该子模块用于对计算结果数据集与原生数据相比没有数量级上的变化且需要提供实时查询的计算结果进行分发,该子模块将相应的计算结果数据集保存到HBASE并向外提供数据服务;
第二分发子模块:该子模块用于对计算结果数据集与原生数据相比在数量上有明显的增大且有准实时数据要求的计算结果进行分发,该子模块将相应的计算结果数据集保存到Hadoop上的HDFS上,再通过Hadoop的离线计算与其他非埋点数据进行关联,最后提供数据服务;
第三分发子模块:该子模块用于对计算结果数据集与原生数据相比在数量上有明显的减少的计算结果进行分发,该子模块将相应的计算结果数据集写入关系型数据库中,然后提供数据服务;
第四分发子模块:该子模块用于对计算结果数据集与原生数据相比在数量上有显著的减少、计算结果数据集更新较快且数据服务访问量频繁的计算结果进行分发,该子模块将相应的计算结果数据集保存到缓存数据库中,然后提供数据服务;
第五分发子模块:该子模块用于对计算结果数据集具有实时预警推送需求的计算结果进行分发,该子模块将相应的计算结果数据集通过KAFKA消息队列向应用系统推送。
图3为本实施例采用基于Flink的实时计算方法进行实时计算的实例图,本实施例通过IBM-CDC实时同步主机系统数据,通过行内自主研发的JUMPCDC、CBASECDC实时同步开放系统数据,通过KAFKA消息队列接收手机银行、个人网银日志等数据。其数据基础来源包括金融传票流水、理财销售交易流水信息、基金代销交易类申请表、网银日志表、用户个性参数表、移动设备标识采集表、登录日志表等。本发明基于KAFKA和FLINK的流计算架构,将准实时数据通过应用放入KAFKA集群,再由Flink集群进行事件解析,规则计算与数据持久化。最后将结果消费返回给KAFKA后,统一由查询前置对外提供在线计算服务。建立高吞吐量、低延迟、高性能的实时计算,满足对业务数据改变的实时地监控和响应,为实时采集客户行为,实时营销计算,实时风险监测等不同场景提供服务。如下是本实施中几种不同的场景的计算逻辑以及输出结果示意:
场景1:普惠对公客户资金变动提醒,通过实时计算实现对普惠对公客户资产余额大额变动提醒,客户资产大额变动推送营销任务给客户经理,客户经理点击营销任务查看,实现对普惠对公客户的维护营运。
输出:普惠对公客户资产余额大额变动信息,包含转入转出资金变动。
逻辑:
大额资产转入:
(1)若该客户为半年内资产余额(资产余额暂定为年日均存款)<20万的,某日入金(累计)超过100万,且前一月每日日均(转入)交易少于等于3笔(用于排除资金归集账户);
(2)若该客户为半年内资产余额>20万的,分两类情况:
A.客户前一月每日日均(转入)交易超过1笔,则不做任何提醒。
B.若客户前一月每日日均(转入)交易少于等于1笔,且该资产转入超过其目前总资产(调整为半年内资产余额)30%的且当日累计转入金额>10万,同上推送。
大额资产转出:
(3)大额资产(年日均存款)转出为非企业控制人(包括实际控制人、法人代表、企业所有者)的账户:
A.对于100万以上资产(取半年内资产余额)的客户,当日转出金额超过其资产30%以上,则做上述推送。
B.对于100万以下资产(取半年内资产余额)的客户,当日转出金额超过其资产80%以上且当日累计转出金额>30万,则做上述推送。
(4)对于转出的企业控制人账户:若转出对象为同控制人的他行账户,当日转出金额超过30%以上且当日累计转出金额>30万,则生成提醒任务。
场景2:银行卡异地交易,通过实时计算实现对个金各项业务活动的风险监测、预警识别、处置防控等风险流程化操作,有效防范个金业务潜在风险,主动降低风险损失、规避客户纠纷,持续促进和保障个金业务稳健发展。
输出:风险监测异常的银行卡异地交易。
逻辑:同一银行卡120分钟内发生的两地查询、取现、消费交易(包含境内外)。
场景3:银行卡集中交易,通过实时计算实现对个金各项业务活动的风险监测、预警识别、处置防控等风险流程化操作,有效防范个金业务潜在风险,主动降低风险损失、规避客户纠纷,持续促进和保障个金业务稳健发展。
输出:风险监测异常的银行卡集中交易。
逻辑:在30分钟内,5张及以上借记卡在同一商户终端集中使用的。
场景4:银行卡失败交易笔数超限,通过实时计算实现对个金各项业务活动的风险监测、预警识别、处置防控等风险流程化操作,有效防范个金业务潜在风险,主动降低风险损失、规避客户纠纷,持续促进和保障个金业务稳健发展。
输出:风险监测异常的失败交易笔数超限交易。
逻辑:在60分钟内,借记卡交易失败笔数超过3笔。
场景5:非绑定设备上异常转账,通过实时计算实现对个金各项业务活动的风险监测、预警识别、处置防控等风险流程化操作,有效防范个金业务潜在风险,主动降低风险损失、规避客户纠纷,持续促进和保障个金业务稳健发展。
输出:风险监测异常的非绑定设备上异常转账交易。
逻辑:异地在非绑定设备上或首次绑定的设备上向非本人转账金额大于10000元(动态密码认证),转账后卡内余额小于100元。
场景6:特殊年龄段客户异常动账,通过实时计算实现对个金各项业务活动的风险监测、预警识别、处置防控等风险流程化操作,有效防范个金业务潜在风险,主动降低风险损失、规避客户纠纷,持续促进和保障个金业务稳健发展。
输出:风险监测异常的特殊年龄段客户异常动账交易。
逻辑:特殊年龄段(18岁以下或65以上)特殊时间段(0点到5点)且大额(2万元以上)动账交易。
场景7:同一账户多个IP异常转账,通过实时计算实现对个金各项业务活动的风险监测、预警识别、处置防控等风险流程化操作,有效防范个金业务潜在风险,主动降低风险损失、规避客户纠纷,持续促进和保障个金业务稳健发展。
输出:风险监测异常的同一账户多个IP异常转账交易。
逻辑:同一核心账户短时间内(半小时内)出现多个IP(2个IP以上)动账交易。
场景8:同一IP多个客户异常动账,通过实时计算实现对个金各项业务活动的风险监测、预警识别、处置防控等风险流程化操作,有效防范个金业务潜在风险,主动降低风险损失、规避客户纠纷,持续促进和保障个金业务稳健发展。
输出:风险监测异常的同一IP多个客户异常动账交易。
逻辑:短时间内(5分钟内)同一IP动账类交易客户个数达到3个。
场景9:同一核心客户号取消短信通知异常转账,通过实时计算实现对个金各项业务活动的风险监测、预警识别、处置防控等风险流程化操作,有效防范个金业务潜在风险,主动降低风险损失、规避客户纠纷,持续促进和保障个金业务稳健发展。
输出:风险监测异常的同一核心客户号取消短信通知异常转账交易。
逻辑:同一核心客户号取消短信通知后半小时内向非本人转账金额大于10000元(短信密码验证)。上述取消短信通知是指客户取消用卡无忧和大额出账短信通知功能。
场景10:新用户异常转账,通过实时计算实现对个金各项业务活动的风险监测、预警识别、处置防控等风险流程化操作,有效防范个金业务潜在风险,主动降低风险损失、规避客户纠纷,持续促进和保障个金业务稳健发展。
输出:风险监测异常的新用户异常转账交易。
逻辑:新用户开通网上银行或手机银行后(动态密码认证),在异地10分钟内向非本人转账金额大于10000元,转账后卡内余额小于100元。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (8)

1.一种基于Flink的实时计算方法,其特征在于,该方法包括如下步骤:
(1)实时数据的获取:获取用于计算的数据源至接入层,触发实时计算;
(2)实时数据的清洗和分析处理:采用实时流计算引擎Flink对获取的数据源进行实时的数据清洗和计算,聚合计算结果;
(3)实时计算结果持久化:对计算结果进行持久化并完成数据分发。
2.根据权利要求1所述的一种基于Flink的实时计算方法,其特征在于,步骤(1)实时数据的获取包括两种方式:
一、通过数据准实时复制工具和数据交换平台从各源系统获取数据源,进行数据持久化落地到实时明细数据层,再采用微批量的方式从持久层取出实时数据放入接入层;
二、通过KAFKA消息队列的方式获取数据源至接入层的KAFKA消息队列中。
3.根据权利要求1所述的一种基于Flink的实时计算方法,其特征在于,步骤(3)计算结果首先会存入统一的实时汇总数据层进行持久化,实时汇总数据层落地到Hadoop的Hbase上,然后再按不同的应用场景进行数据分发。
4.根据权利要求3所述的一种基于Flink的实时计算方法,其特征在于,按不同的应用场景进行数据分发具体包括:
(a)计算结果数据集与原生数据相比没有数量级上的变化且需要提供实时查询,则该计算结果数据集保存到HBASE并向外提供数据服务;
(b)计算结果数据集与原生数据相比在数量上有明显的增大且有准实时数据要求,则把计算结果数据集保存到Hadoop上的HDFS上,再通过Hadoop的离线计算与其他非埋点数据进行关联,最后提供数据服务;
(c)计算结果数据集与原生数据相比在数量上有明显的减少,则将计算结果数据集写入关系型数据库中,然后提供数据服务;
(d)计算结果数据集与原生数据相比在数量上有显著的减少、计算结果数据集更新较快且数据服务访问量频繁,则将计算结果数据集保存到缓存数据库中,然后提供数据服务;
(e)计算结果数据集具有实时预警推送需求,则通过KAFKA消息队列向应用系统推送预警信息。
5.一种基于Flink的实时计算系统,其特征在于,该系统包括:
实时数据获取模块(1):该模块获取用于计算的数据源至接入层,触发实时计算;
实时数据清洗和分析处理模块(2):该模块采用实时流计算引擎Flink对获取的数据源进行实时的数据清洗和计算,聚合计算结果;
实时计算结果持久化模块(3):该模块对计算结果进行持久化并完成数据分发。
6.根据权利要求5所述的一种基于Flink的实时计算系统,其特征在于,所述的实时数据获取模块(1)包括:
第一实时数据获取子模块(11):该子模块通过数据准实时复制工具和数据交换平台从各源系统获取数据源,进行数据持久化落地到实时明细数据层,再采用微批量的方式从持久层取出实时数据放入接入层;
第二实时数据获取子模块(12):该子模块通过KAFKA消息队列的方式获取数据源至接入层的KAFKA消息队列中。
7.根据权利要求5所述的一种基于Flink的实时计算系统,其特征在于,所述的实时计算结果持久化模块(3)包括:
持久化操作子模块(31):该子模块将计算结果存入统一的实时汇总数据层进行持久化,实时汇总数据层落地到Hadoop的Hbase上;
分发子模块(32):该子模块用于将计算结果按不同的应用场景进行数据分发。
8.根据权利要求7所述的一种基于Flink的实时计算系统,其特征在于,所述的分发子模块(32)包括:
第一分发子模块:该子模块用于对计算结果数据集与原生数据相比没有数量级上的变化且需要提供实时查询的计算结果进行分发,该子模块将相应的计算结果数据集保存到HBASE并向外提供数据服务;
第二分发子模块:该子模块用于对计算结果数据集与原生数据相比在数量上有明显的增大且有准实时数据要求的计算结果进行分发,该子模块将相应的计算结果数据集保存到Hadoop上的HDFS上,再通过Hadoop的离线计算与其他非埋点数据进行关联,最后提供数据服务;
第三分发子模块:该子模块用于对计算结果数据集与原生数据相比在数量上有明显的减少的计算结果进行分发,该子模块将相应的计算结果数据集写入关系型数据库中,然后提供数据服务;
第四分发子模块:该子模块用于对计算结果数据集与原生数据相比在数量上有显著的减少、计算结果数据集更新较快且数据服务访问量频繁的计算结果进行分发,该子模块将相应的计算结果数据集保存到缓存数据库中,然后提供数据服务;
第五分发子模块:该子模块用于对计算结果数据集具有实时预警推送需求的计算结果进行分发,该子模块将相应的计算结果数据集通过KAFKA消息队列向应用系统推送。
CN202010197103.7A 2020-03-19 2020-03-19 一种基于Flink的实时计算方法及系统 Active CN111382150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010197103.7A CN111382150B (zh) 2020-03-19 2020-03-19 一种基于Flink的实时计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010197103.7A CN111382150B (zh) 2020-03-19 2020-03-19 一种基于Flink的实时计算方法及系统

Publications (2)

Publication Number Publication Date
CN111382150A true CN111382150A (zh) 2020-07-07
CN111382150B CN111382150B (zh) 2023-08-18

Family

ID=71215400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010197103.7A Active CN111382150B (zh) 2020-03-19 2020-03-19 一种基于Flink的实时计算方法及系统

Country Status (1)

Country Link
CN (1) CN111382150B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930812A (zh) * 2020-07-20 2020-11-13 银盛支付服务股份有限公司 基于flink的实时聚合报表方法、电子设备及可读存储介质
CN112150248A (zh) * 2020-09-30 2020-12-29 欧冶云商股份有限公司 一种基于批流融合的挂货量统计方法、系统、装置
CN112258309A (zh) * 2020-09-11 2021-01-22 上海汇付数据服务有限公司 风控决策方法及装置
CN112416982A (zh) * 2021-01-25 2021-02-26 北京轻松筹信息技术有限公司 一种实时用户特征的计算方法及装置
CN112487315A (zh) * 2020-12-17 2021-03-12 中国农业银行股份有限公司 一种数据处理方法和装置
CN112527799A (zh) * 2020-12-17 2021-03-19 杭州玳数科技有限公司 一种基于flink实现分布式实时同步SqlServer数据库的方法
CN113256355A (zh) * 2021-07-14 2021-08-13 北京宇信科技集团股份有限公司 一种积分权益实时确定方法、装置、介质、设备和系统
CN113518365A (zh) * 2021-04-29 2021-10-19 北京红山信息科技研究院有限公司 一种数据关联方法、装置、服务器及存储介质
CN114153823A (zh) * 2022-02-09 2022-03-08 北京华品博睿网络技术有限公司 一种分布式计算作业日志数据处理方法和系统
CN114610765A (zh) * 2022-03-14 2022-06-10 平安国际智慧城市科技股份有限公司 流计算方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
WO2018234741A1 (en) * 2017-06-23 2018-12-27 Qio Technologies Ltd SYSTEMS AND METHODS FOR INTELLIGENCE OF INDUSTRIAL ASSETS BY DISTRIBUTED SYSTEMIC ANTICIPATION
CN109697567A (zh) * 2018-12-27 2019-04-30 上海农村商业银行股份有限公司 一种大数据实时风险预警方法及系统
CN109951463A (zh) * 2019-03-07 2019-06-28 成都古河云科技有限公司 一种基于流计算和新型列式存储的物联网大数据分析方法
CA3050220A1 (en) * 2018-07-19 2020-01-19 Bank Of Montreal Systems and methods for data storage and processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
WO2018234741A1 (en) * 2017-06-23 2018-12-27 Qio Technologies Ltd SYSTEMS AND METHODS FOR INTELLIGENCE OF INDUSTRIAL ASSETS BY DISTRIBUTED SYSTEMIC ANTICIPATION
CA3050220A1 (en) * 2018-07-19 2020-01-19 Bank Of Montreal Systems and methods for data storage and processing
CN109697567A (zh) * 2018-12-27 2019-04-30 上海农村商业银行股份有限公司 一种大数据实时风险预警方法及系统
CN109951463A (zh) * 2019-03-07 2019-06-28 成都古河云科技有限公司 一种基于流计算和新型列式存储的物联网大数据分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴庭天;田蜜;陈宗铸;雷金睿;陈小花;李苑菱;黄绪壮;: "基于Hadoop的森林资源信息平台研究" *
狄程;杨中国;韩燕波;刘晨;: "面向流数据的实时处理及服务化系统" *
郭嘉;: "税务平台的健康监测分析系统设计与实现" *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930812A (zh) * 2020-07-20 2020-11-13 银盛支付服务股份有限公司 基于flink的实时聚合报表方法、电子设备及可读存储介质
CN111930812B (zh) * 2020-07-20 2024-05-03 银盛支付服务股份有限公司 基于flink的实时聚合报表方法、电子设备及可读存储介质
CN112258309A (zh) * 2020-09-11 2021-01-22 上海汇付数据服务有限公司 风控决策方法及装置
CN112150248A (zh) * 2020-09-30 2020-12-29 欧冶云商股份有限公司 一种基于批流融合的挂货量统计方法、系统、装置
CN112487315A (zh) * 2020-12-17 2021-03-12 中国农业银行股份有限公司 一种数据处理方法和装置
CN112527799A (zh) * 2020-12-17 2021-03-19 杭州玳数科技有限公司 一种基于flink实现分布式实时同步SqlServer数据库的方法
CN112527799B (zh) * 2020-12-17 2022-09-13 杭州玳数科技有限公司 一种基于flink实现分布式实时同步SqlServer数据库的方法
CN112416982B (zh) * 2021-01-25 2021-09-21 北京轻松筹信息技术有限公司 一种实时用户特征的计算方法及装置
CN112416982A (zh) * 2021-01-25 2021-02-26 北京轻松筹信息技术有限公司 一种实时用户特征的计算方法及装置
CN113518365A (zh) * 2021-04-29 2021-10-19 北京红山信息科技研究院有限公司 一种数据关联方法、装置、服务器及存储介质
CN113518365B (zh) * 2021-04-29 2023-11-17 北京红山信息科技研究院有限公司 一种数据关联方法、装置、服务器及存储介质
CN113256355B (zh) * 2021-07-14 2021-09-17 北京宇信科技集团股份有限公司 一种积分权益实时确定方法、装置、介质、设备和系统
CN113256355A (zh) * 2021-07-14 2021-08-13 北京宇信科技集团股份有限公司 一种积分权益实时确定方法、装置、介质、设备和系统
CN114153823A (zh) * 2022-02-09 2022-03-08 北京华品博睿网络技术有限公司 一种分布式计算作业日志数据处理方法和系统
CN114153823B (zh) * 2022-02-09 2022-05-17 北京华品博睿网络技术有限公司 一种分布式计算作业日志数据处理方法和系统
CN114610765A (zh) * 2022-03-14 2022-06-10 平安国际智慧城市科技股份有限公司 流计算方法、装置、设备及存储介质
CN114610765B (zh) * 2022-03-14 2024-05-03 平安国际智慧城市科技股份有限公司 流计算方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111382150B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111382150B (zh) 一种基于Flink的实时计算方法及系统
US11575746B2 (en) System and method for real-time cloud data synchronization using a database binary log
US11030027B2 (en) System for technology anomaly detection, triage and response using solution data modeling
CN109690524A (zh) 分布式事件处理系统中的数据序列化
CN112236761B (zh) 数据立方体的动态增量更新
CN104657497A (zh) 一种基于分布式计算的海量用电信息并行计算系统及方法
CN112131305A (zh) 账户处理系统
CN104899278A (zh) 一种Hbase数据库数据操作日志的生成方法及装置
CN111708897A (zh) 目标信息确定方法、装置和设备
CN111666144A (zh) 批处理任务执行方法、系统以及机房部署系统
CN118069712A (zh) 数据生命周期管理方法、装置、电子设备及存储介质
US20190347596A1 (en) System for decommissioning information technology assets using solution data modelling
CN104317660B (zh) 一种银行参数管理系统
CN107678856B (zh) 一种处理业务实体中增量信息的方法及装置
CN110008284A (zh) 基于数据页预加载及回滚的数据库数据同步方法及设备
CN112527839A (zh) 多源数据处理方法、系统、设备及存储介质
CN116483822B (zh) 业务数据预警方法、装置、计算机设备、存储介质
CN112181972A (zh) 基于大数据的数据治理方法、装置和计算机设备
CN111708808A (zh) 分布式业务系统及其业务汇总查询方法、装置和设备
CN116467352A (zh) 一种交易查询系统
US20130103454A1 (en) Method and system for assessing compliance risk of financial institutions
CN114155076A (zh) 一种业务数据与财务数据的核对方法、装置和设备
CN112434036A (zh) 一种账户管理系统数据的处理方法
US20190347592A1 (en) System for mitigating exposure associated with identified impacts of technological system changes based on solution data modelling
CN115017875B (zh) 企业信息处理方法、装置、系统、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant