CN109725899B

CN109725899B - 数据流式处理方法及装置

Info

Publication number: CN109725899B
Application number: CN201910007419.2A
Authority: CN
Inventors: 黄河峰
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2022-03-22
Anticipated expiration: 2039-01-04
Also published as: CN109725899A

Abstract

本发明公开了一种数据流式处理方法及装置，该方法包括：获取待处理数据的配置文件，其中，配置文件中至少包含待处理数据的计算指标；根据配置文件和预先构建的通用计算逻辑算子，生成待处理数据的计算任务模型，其中，计算任务模型包括一个或多个通用计算逻辑算子；根据计算任务模型，对实时获取的待处理数据进行指标计算。本发明可以降低开发人员的编码工作量、提高开发效率。

Description

数据流式处理方法及装置

技术领域

本发明涉及信息领域，尤其涉及一种数据流式处理方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着信息技术的快速发展，人们对数据业务的实时性要求也越来越高，这就需要对数据进行实时计算。在大数据环境下，将源源不断产生的数据进行实时收集、实时计算并快速得到计算结果的计算平台称为流式计算引擎。目前，市场上比较流行的流式计算引擎有Storm、Spark streaming、Flink等。其中，Storm作为一个免费开源、分布式、高容错的流式计算引擎，被广泛应用于各个领域(例如，在线实时分析、在线机器学习、分布式远程调用等)。

Storm分布式计算结构称为Topology(计算任务)，由Spout和Bolt组成，其中，Spout是一个Topology中产生源数据流的组件；Bolt是在一个Topology中接收数据然后执行处理的组件。Storm作为流式计算引擎，定义了一套自己的编程模型，开发人员如果要实现一个流式计算任务，需要按照Storm定义的API编写大量spout和bolt代码，才能完成一个Topology(计算任务)，这种方式使得开发人员的编码工作量很大，开发效率不高。

发明内容

本发明实施例提供一种数据流式处理方法，用以解决现有基于Storm框架的数据流式计算方案，需要开发人员编写大量代码，导致系统开发效率低的技术问题，该方法包括：获取待处理数据的配置文件，其中，配置文件中至少包含待处理数据的计算指标；根据配置文件和预先构建的通用计算逻辑算子，生成待处理数据的计算任务模型，其中，计算任务模型包括一个或多个通用计算逻辑算子；根据计算任务模型，对实时获取的待处理数据进行计算处理；其中，根据所述计算任务模型，对实时获取的待处理数据进行指标计算，包括：解析实时获取的待处理数据；将解析结果数据映射至所述计算任务模型的变量中。

本发明实施例还提供一种数据流式处理装置，用以解决现有基于Storm框架的数据流式计算方案，需要开发人员编写大量代码，导致系统开发效率低的技术问题，该装置包括：配置文件获取模块，用于获取待处理数据的配置文件，其中，配置文件中至少包含待处理数据的计算指标；计算任务模型生成模块，用于根据配置文件和预先构建的通用计算逻辑算子，生成待处理数据的计算任务模型，其中，计算任务模型包括一个或多个通用计算逻辑算子；数据处理模块，用于根据计算任务模型，对实时获取的待处理数据进行计算处理；其中，数据处理模块，具体用于解析实时获取的待处理数据；将解析结果数据映射至所述计算任务模型的变量中。

本发明实施例中，通过预先构建通用的计算逻辑算子，在获取到包含待处理数据计算指标的配置文件后，根据配置文件和预先构建的通用计算逻辑算子，生成待处理数据的计算任务模型，然后基于该计算任务模型对实时获取的待处理数据进行计算处理。通过本发明实施例，提供了一种配置化的流式计算处理平台，降低了开发人员的编码工作量，提高了系统开发效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种数据流式处理方法流程图；

图2为本发明实施例中提供的一种网络金融事中风险控制场景下数据流式处理方法流程图；

图3为本发明实施例中提供的一种配置化流计算平台示意图；

图4为本发明实施例中提供的一种登录数据的流式计算拓扑示意图；

图5为本发明实施例中提供的一种数据流式处理装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本发明实施例中提供了一种数据流式处理方法，图1为本发明实施例中提供的一种数据流式处理方法流程图，如图1所示，该方法包括如下步骤：

S101，获取待处理数据的配置文件，其中，配置文件中至少包含待处理数据的计算指标；

S102，根据配置文件和预先构建的通用计算逻辑算子，生成待处理数据的计算任务模型，其中，计算任务模型包括一个或多个通用计算逻辑算子；

S103，根据计算任务模型，对实时获取的待处理数据进行指标计算。

需要说明的是，上述待处理数据可以是任意一种实时获取并需要实时计算的数据；上述配置文件可以是开发人员根据业务场景编写的脚本文件，该配置文件中包含了待处理数据的计算指标(包括但不限于计数、求和、状态记录和流水记录等)。本发明实施例通过预先构建通用计算逻辑算子，可以自动根据待处理数据的配置文件，生成该待处理数据的计算任务模型，以便通过生成的计算任务模型对实时获取的待处理数据进行指标计算。

由于在一个特定的业务场景下，计算任务往往具有相似性和重复性(例如，对于一个金融交易风控系统，会有很多计数、累加、流水记录、状态记录的计算任务)。因而，本发明实施例基于Storm开源框架，结合一定的业务场景，抽取通用计算任务，封装公共机制，建立一个配置化的流式计算平台，不再需要手工编码计算指标的Bolt，可以达到降低编码工作量，提高开发效率的目的。

可选地，通用计算逻辑算子可以包括但不限于如下至少一种：计数器、求和器、状态记录和流水记录，计数器用于计数，求和器用于求和，状态记录用于记录数据的最新状态(例如，累计登录失败次数)，流水记录用于记录数据的详情(可以表征用户连续的一系列动作，例如，用户最近几天的转账详情信息)。

在一种可选的实施例中，上述S103可以具体包括：解析实时获取的待处理数据；将解析结果数据映射至计算任务模型的变量中。

进一步地，在根据计算任务模型，对实时获取的待处理数据进行指标计算之后，上述方法还可以包括：将待处理数据的计算结果，实时存储到高速缓存中；同时，将待处理数据的计算结果，按照批量异步方式存储到数据库中。

由于高速缓存中的数据存在丢失的风险，由此，本发明实施例提供的数据流式处理方法，还可以包括：在高速缓存中的数据丢失的情况下，根据数据库中存储的数据恢复高速缓存中的数据。

作为一种可选的实施方式，为了满足复杂的业务需求，上述配置文件还可以包含待处理数据的过滤条件，过滤条件通过如下任意一种或多种逻辑运算组合或嵌套构成的表达式实现：与运算、或运算、非运算、比较运算、取值范围运算。

在介绍本发明实施例之前，首先对Storm的基本原理进行简单介绍：

Storm集群由一个主节点和多个工作节点组成，通过Zookeeper集群进行协调。其中，主节点运行了一个名为“Nimbus”的守护进程，用于分配代码、布置任务及故障检测；每个工作节点都运行了一个名为“Supervisor”的守护进程，用于监听工作，开始并终止工作进程。由于Nimbus和Supervisor都能快速失败，而且是无状态的，这样一来它们就变得十分健壮，两者的协调工作是由Zookeeper来完成的。

Storm的核心组件包括：Nimbus、Supervisor、Worker、Task、Topology、Spout、Bolt和Tuple，其中，Nimbus负责资源分配和任务调度；Worker为运行具体处理组件逻辑的工作进程，每个工作进程中有多个任务Task；Task用于表示一个Spout/Bolt处理；Topology为Storm的计算拓扑，由于各个组件间的消息流动形成逻辑上的一个拓扑结构；Spout为Topology中产生源数据流的组件；Bolt为Topology中接收数据并执行处理的组件；Tuple为一次消息传递的基本单元。

下面以网络金融事中风险控制的业务场景为例，来详细说明本发明实施例。

随着互联网金融的发展，网银、手机银行的交易量日益增长，同时外部环境的安全形势越来越严峻，电信诈骗，钓鱼网站等层出不穷，为了保护客户资金，保证交易安全，需要对金融交易进行事中风险分析和控制，对高危交易进行识别和阻断。

在网络金融事中风险控制的业务场景中，计算任务常是：对联机的交易数据(例如，转账或者支付的交易信息，包括不限于：转出账号、转账金额、转入账号、收款人、币种等)、用户数据、设备数据、定位数据等各种数据进行加工和处理，形成统计指标，为规则引擎的决策提供数据依据和支撑。

图2为本发明实施例中提供的一种网络金融事中风险控制场景下数据流式处理方法流程图，如图2所示，渠道系统指网银、手机银行、POS、ATM等面向客户直接提供服务的各种前端系统。从渠道系统实时接收的数据包括但不限于登录、转账、支付、高风险设置类交易。消息总线是一个分布式消息队列(例如，Kakfa)。基于storm平台的流式计算引擎，对实时获取的数据进行实时处理，处理流程为：流计算订阅kafka中的消息主题，对消息进行实时处理，生成对应的业务统计指标，写入高速缓存(Redis)中，供规则引擎使用；同时将统计指标写入数据库(Mongo)作为持久化备份。其主要计算逻辑为：求和、计数、流水和状态记录。计算指标为：①客户行为统计指标(例如，每日客户登录失败次数、每月转账成功交易的收款人次数)；②地理位置统计信息(例如，客户最近登录的城市有序集合)；③设备信息统计(例如，客户操作过的设备集合)。

针对网络金融事中风险控制场景，本发明实施例基于Storm平台，设计了一种配置化流计算平台，如图3所示，该配置化流计算平台包括四大模块和机制。针对通过的计算逻辑，本发明实施例提供的配置化流计算平台抽象出四种计算逻辑：计数器、累加器、状态记录和流水记录(list，hash，sortedset)。这些算子基本可以覆盖90％的业务场景，大大降低了手工编码的工作，提高了开发效率。

本发明实施例建立通用模板解析的CommonTemplateBolt，读取配置文件，根据配置文件生产对应的Bolt，同时对联机交易数据进行自动映射和解析。通过表达式语言对交易数据进行解析，保存到对应的变量中。作为一种可选的实施方式，数据映射的实现代码如下：

"_dataMapping":{//数据映射区(变量定义)

"taskId":"${transCommon.clientTaskId}",

"accountNum":"${cardResult.cardNumber}",

"cardExist":"${cardResult.conditionCode}",

"amount":"${cardResult.convertAmount}",

"retailerId":"${cardResult.retailerId}",

"retailerName":"${cardResult.retailerName}",

"transCode":"${cardResult.transCode}",

"transDate":{"_time":"${transCommon.transTime}","_pattern":"yyyyMMdd"},

"transTime":{"_time":"${transCommon.transTime}","_pattern":"yyyyMMddHHmmss"},

"status":"${resultCommon.transStatus}"

}

本发明实施例提供的配置解析机制具有如下特点：

(1)支持多层JSON属性嵌套，表达式如下：

"amount":"${extension.payMonitor.amount}"

(2)支持日期格式化定义，表达式如下：

"transTime":{"_time":"${transCommon.transTime}","_pattern":"yyyyMMddHHmmss"}

(3)支持数组索引

"challengeAuthTools":"${transCommon.challengeAuthTools[0]}"

(4)支持抽取其他redis数据

"_dependencyRedisData":{

"isCardInList":{"_dependency key":"{999:

${cardResult.cardNumber}}:CUSLIST","_type":"exist"},

"isCardInList2":{"_dependency key":"{990:

${cardResult.cardNumber}}:CUSLIST","_type":"exist"}

}

通过上述配置解析机制，不再需要手工写计算指标的Bolt，直接配置脚本(根据业务处理流程配置计算逻辑，以及计算结果的存储方式等)就可以实现。

本发明实施例提供的配置化流计算平台，还可以提供了一系列与或非、比较、判断的过滤器机制，可以支持以下逻辑运算：①与、或、非；②比较运算(大于、小于、等于、大于等于、小于等于)；③范围(包含枚举值的一个或者多个)；④支持以上的组合和嵌套逻辑。通过表达式配置业务规则，来实现根据业务需求的复杂维度进行指标计算。对统计指标进行累计或者不累计。作为一种可选的实施方式，过滤器的表达式为：

上述过滤器代表的业务含义为：①交易状态等于SUCCESS；②卡在名单1或者名单2中；③交易码在【"C10006,C10007,C10010,C10012,C10016"】范围内；④刷卡类交易；四个条件之间是“与”的关系，即同时满足才可以。

由于数据库Mongo的写入如果采用逐笔、同步写入，会大大拖慢流计算的处理性能。因此，如图3所示，本发明实施例提供的配置化流计算平台中，将mongo改为批量、异步写入，可以大大提高流计算的处理性能。具体地，可以使用bulkwrite机制，异步批量写入Mongo。其中，Bulkwrite是mongo数据库的一种批量写入的数据模型。批量就是通过暂存一定的数据，达到一定的条件，如100笔或者5分钟。然后进行Mongo写入操作。异步是通过一个消息队列进行实现的。

本发明实施例通过图3中所示的四大通用计算逻辑模块(计数、求和、状态记录、流水记录)和机制(配置解析机制、基于表达式引擎的数据过滤机制、批量异步持久化的数据存储机制和数据恢复机制)，可以自动生成一个计算拓扑。图4为本发明实施例中提供的一种登录数据的流式计算拓扑示意图。如图4所示，每个节点代表一个处理单元或者计算单元，如求和、计数、记录流水和状态等。计算结果分别存入到高速缓存Redis和数据库Mongo中。

本发明实施例中还提供了一种数据流式处理装置，如下面的实施例所述。由于该装置实施例解决问题的原理与种数据流式处理方法相似，因此该装置实施例的实施可以参见方法的实施，重复之处不再赘述。

图5为本发明实施例中提供的一种数据流式处理装置示意图，如图5所示，该装置包括：配置文件获取模块51，用于获取待处理数据的配置文件，其中，配置文件中至少包含待处理数据的计算指标；计算任务模型生成模块52，用于根据配置文件和预先构建的通用计算逻辑算子，生成待处理数据的计算任务模型，其中，计算任务模型包括一个或多个通用计算逻辑算子；数据处理模块53，用于根据计算任务模型，对实时获取的待处理数据进行计算处理。

在一种可选的实施例中，如图5所示，该装置还可以包括：第一数据存储模块54-1，用于将待处理数据的计算结果，实时存储到高速缓存中；第二数据存储模块54-2，用于将待处理数据的计算结果，按照批量异步方式存储到数据库中。

本发明实施例中还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法实施例中任意一种可选的或优选的数据流式处理方法。

本发明实施例中还提供了一种计算机可读存储介质，计算机可读存储介质存储有执行上述方法实施例中任意一种可选的或优选的数据流式处理方法的计算机程序。

综上所述，本发明实施例基于于Storm开源框架，结合特定的业务场景，通过抽取通用计算任务，封装公共机制，建立一个配置化的流式计算平台，可以实现但不限于如下效果：简化大数据流计算的开发模式；降低开发人员的学习成本；支持全配置化开发，降低手工编码工作量；支持复杂业务规则和过滤器。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据流式处理方法，其特征在于，包括：

获取待处理数据的配置文件，其中，所述配置文件中至少包含所述待处理数据的计算指标；

根据所述配置文件和预先构建的通用计算逻辑算子，生成所述待处理数据的计算任务模型，其中，所述计算任务模型包括一个或多个通用计算逻辑算子；

根据所述计算任务模型，对实时获取的待处理数据进行指标计算；

其中，根据所述计算任务模型，对实时获取的待处理数据进行指标计算，包括：

解析实时获取的待处理数据；

将解析结果数据映射至所述计算任务模型的变量中。

2.如权利要求1所述的方法，其特征在于，在根据所述计算任务模型，对实时获取的待处理数据进行指标计算之后，所述方法还包括：

将所述待处理数据的计算结果，实时存储到高速缓存中；

将所述待处理数据的计算结果，按照批量异步方式存储到数据库中。

3.如权利要求2所述的方法，其特征在于，在将所述待处理数据的计算结果，分别存储到高速缓存和数据库中之后，所述方法还包括：

在所述高速缓存中的数据丢失的情况下，根据所述数据库中存储的数据恢复所述高速缓存中的数据。

4.如权利要求1所述的方法，其特征在于，所述配置文件还包含所述待处理数据的过滤条件，所述过滤条件通过如下任意一种或多种逻辑运算组合或嵌套构成的表达式实现：与运算、或运算、非运算、比较运算、取值范围运算。

5.如权利要求1至4任一所述的方法，其特征在于，所述通用计算逻辑算子包括如下至少一种：计数器、求和器、状态记录和流水记录，所述计数器用于计数，所述求和器用于求和，所述状态记录用于记录数据的最新状态，所述流水记录用于记录数据的详情。

6.一种数据流式处理装置，其特征在于，包括：

配置文件获取模块，用于获取待处理数据的配置文件，其中，所述配置文件中至少包含所述待处理数据的计算指标；

计算任务模型生成模块，用于根据所述配置文件和预先构建的通用计算逻辑算子，生成所述待处理数据的计算任务模型，其中，所述计算任务模型包括一个或多个通用计算逻辑算子；

数据处理模块，用于根据所述计算任务模型，对实时获取的待处理数据进行指标计算；

其中，数据处理模块，具体用于解析实时获取的待处理数据；将解析结果数据映射至所述计算任务模型的变量中。

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

第一数据存储模块，用于将所述待处理数据的计算结果，实时存储到高速缓存中；

第二数据存储模块，用于将所述待处理数据的计算结果，按照批量异步方式存储到数据库中。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一所述的数据流式处理方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至5任一所述数据流式处理方法的计算机程序。