CN112395362A

CN112395362A - 一种基于大数据的通用模型动态积分预警方法

Info

Publication number: CN112395362A
Application number: CN202011403841.9A
Authority: CN
Inventors: 刘远祥; 左军; 王仁斌
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-02-23
Anticipated expiration: 2040-12-04
Also published as: CN112395362B

Abstract

本发明涉及一种基于大数据的通用模型动态积分预警方法，其包括以下步骤：S1.数据抽取，将不同数据库结构的源数据库同步至目标数据库clickhouse中；S2.基于画布拖拽配置动态积分模型；S3.下发动态积分模型：将动态积分模型的配置参数下发到生产者kafka分区中，实现分布式负载均衡算法；S4.基于动态积分模型，计算实时动态积分。本发明基于画布拖拽生成动态积分配置模型，满足了动态模型配置的灵活性质，同时可以提高大数据计算模型的时效性质，达到秒级预算结果。

Description

一种基于大数据的通用模型动态积分预警方法

技术领域

本发明涉及大数据处理技术领域，具体地涉及一种基于大数据的通用模型动态积分预警方法。

背景技术

目前传统的积分引擎基于少量历史数据、静态数据，无法动态满足实时数据流分析，无法动态业务性对积分进行影响，无法进行实时流式数据计算分值，大部分的传统积分引擎是批处理的离线方式进行积分计算，无法满足实时分值计算，动态调整分值。

随着大数据技术的发展，现有的传统积分模型都面临着海量数据的分析。如果单纯的依靠关系型数据库进行离线分析，在分析的过程中往往需要耗费大量的时间，分析过程中会存在数据异常，物理中断等情况，造成传统积分模型分析过程中线程中断，可靠性不高，数据分析的准确性不高，时效性不高。传统积分模型动态的去修改积分规则和积分对应的数据源，需要进行人为的代码编写，无法实时动态拖拽配置生成积分规则引擎，需要耗费大量的人力成本进行代码编写、测试、发布，耗时较久。传统积分模型无法直观的进行规则的展示，需要人为的整理积分模型规则，可辨度不高，理解难度较大，无法直观的展示积分模型规则。

发明内容

本发明旨在提供一种基于大数据的通用模型动态积分预警方法，以解决上述问题。为此，本发明采用的具体技术方案如下：

一种基于大数据的通用模型动态积分预警方法，其包括以下步骤：

S1.数据抽取，将不同数据库结构的源数据库同步至目标数据库clickhouse中；

S2.配置动态积分模型，具体过程为：

S21.配置动态积分模型的数据源对应的表名称、对应的字段类型、字段详解和字段中文名称；

S22.基于画布拖拽生成动态积分配置模型：基于画布拖拽选择主数据源结点，基于主数据源连接过滤算子，基于过滤算子连接n个数据源结点，依次基于第i个数据源n_i连接对应的过滤算子节点s_i，基于过滤算子节点s_i连接对应的分值算子节点f_i，基于分值算子节点f_i连接聚合算子节点，最终聚合算子节点连接到输出算子节点，其中，i＝1,2,…,n；

S23.保存动态积分模型：将结点及结点对应的配置参数和各连接线关系保存在MongoDB数据库中；

S3.下发动态积分模型：将动态积分模型的配置参数下发到生产者kafka分区中，实现分布式负载均衡算法；

S4.基于动态积分模型，计算实时动态积分。

进一步地，步骤S1具体为：

S11.构建源数据库连接的配置文件，包含用户名、密码、端口、ip和数据库名称；

S12.构建目标数据库连接的配置文件，包含用户名、密码、端口、ip和数据库名称；

S13.选择源数据库对应表结构与目标数据库表结构字段映射；

S14.选择源数据库增量字段；

S15.生成符合DataX规定的json格式，将源数据库同步至目标数据库clickhouse中。

进一步地，过滤算子支持关系包括：时间过滤、条件过滤和关联字段；分值算子支持关系包括：权重0到+∞、单维度爆表、全维度爆表、最大值和压缩正态分布；聚合算子支持关系包括：是否阻塞结点、聚合组和所有前结点与本聚合算子关联的字段映射。

进一步地，S23中的保持连接线关系具体为：保存数据源与数据过滤结点之间的关系顺序，保存数据过滤结点与下一个数据源之间的顺序关系，保存下一个数据源结点与数据过滤结点之间的关系，保存数据源结点与分值计算结点直接的关系，保存数据源与分值计算结点之间的关系，保存分值计算结点与数据聚合结点之间的关系以及保存数据聚合结点与表输出结点之间的关系。

进一步地，步骤S4具体为：获取动态积分模型的开始结点，也就是主数据源结点，从左到右的顺序依次执行对应的数据过滤算子、分值算子、聚合算子和表输出算子结点，具体如下：

S41、当流程走到数据过滤结点时，找到上级对应的数据源结点，基于时间过滤、条件过滤组装成sql语句对clickhouse中的数据源表进行查询，返回结果集再基于字段映射转换成对应的字段及对应字段的值；当该数据过滤的结点上级是主数据源结点时进行分页，每次轮询去取1000条数据，将每条数据下发并重新生成新模型进行下发运算；

S42、当流程走到分值计算结点时，其流程与S41一样，并增加以下限制条件：

a.基于上述过滤条件查找出总条数，再与权重进行加权：

分值＝∑v_i×w_i

其中v_i代表总条数，w_i代表权重；

b.当选择单维度爆表的情况下，并且计算出来的总条数大于等于配置的最大值，则配置直接展示该这个结点的分值为配置的最大值；

c.当选择全维度爆表的情况下，并且计算出来的总条数大于等于配置的最大值，则配置该模型计算出来的分值为99分；

d.当选择正态分布压缩分值时，分值计算如下：

当原始值等于s1时，则压缩值为t1；

当原始值等于s2时，则压缩值为t2；

当原始值等于s2/s1时，则压缩值为t2/t1；

当原始值大于s2/s1时，则压缩值为t2/s2×原始值；

当原始值小于s2/s1时，则压缩值为t1/s1×原始值；

S43.当流程走到聚合结点时，当选择阻塞结点时，则判断当前结点上所有上级结点是否运行完毕，如果运行完毕则直接进入下一个结点，否则递归找到所有未运行的上级结点运行并记录运行的状态及结点，当所有上级结点运行完毕后直接进入下一个结点；当选择聚合组时，则所有上级结点的生成的结果集基于聚合组key进行分组过滤，满足则进入下一个结点，否则跳出当前循环；

S44.当流程走到表输出结点值时，当选择插入时，则基于字段映射转换规则进行数据入库到指定的结果表中；当选择更新时，则基于更新的字段进行判断是否存在，如果不存在则基于字段映射转换规则进行数据入库到指定的结果表中，如果存在则进行更新操作；

S45.基于上述结果表展示运行后的总分值及对应的结果集。

进一步地，结果表包括以下字段：

总分值Double类型，用于存储总分值；

模型id Long类型，用于保存是哪个积分模型；

创建时间，用于保存生成该积分的时间；

更新时间，用于记录更新该模型的时间；

运行的主数据源对应的业务id；

数据源记录，用于存放每个数据源基于模型生成计算的原始分值，压缩后分值。

本发明采用上述技术方案，具有的有益效果是：本发明基于画布拖拽生成动态积分配置模型，满足了动态模型配置的灵活性质，同时可以提高大数据计算模型的时效性质，达到秒级预算结果。

附图说明

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

图1是本发明的一种基于大数据的通用模型动态积分预警方法的流程图；

图2是本发明方法中的数据抽取的流程图；

图3是基于画布拖拽生成动态积分配置模型的图示。

具体实施方式

现结合附图和具体实施方式对本发明进一步说明。

如图1所示，一种基于大数据的通用模型动态积分预警方法可包括以下步骤：

S1.数据抽取，将不同数据库结构的源数据库同步至目标数据库clickhouse中，如图2所示，具体包括以下过程：

S11.构建源数据库连接的配置文件，包含用户名，密码，端口，ip，数据库名称等配置项；

S12.构建目标数据库连接的配置文件，包含用户名，密码，端口，ip，数据库名称等配置项；

S13.选择源数据库对应表结构与目标数据库表结构字段映射；

S14.选择源数据库增量字段；

S15.生成DataX规定的json格式进行源数据库同步目标数据库clickhouse中；

S2.配置动态积分模型，具体过程为：

S21.配置模型数据源对应的表名称、对应的字段类型、字段详解、字段中文名称；

S22.基于画布拖拽生成动态积分配置模型：基于画布拖拽选择主数据源结点，基于主数据源连接过滤算子，基于过滤算子连接n个数据源结点，依次基于第i个数据源n_i连接对应的过滤算子节点s_i，基于过滤算子节点s_i连接对应的分值算子节点f_i，基于分值算子节点f_i连接聚合算子节点，最终聚合算子节点连接到输出算子节点，其中，i＝1,2,…,n，如图3所示。

算子详解：

过滤算子支持关系如下：

时间过滤

运算符：与、或运算；

支持时间字段、日期字段选择；

操作符：大于，等于，小于，大于等于，小于等于，不等于；

参数，支持输入入yyyyMMddHHmmss，yyyyMMdd，yyyy，MM，dd，HH，mm格式或选择当前时间

条件过滤

支持运算：与、或运算；

支持字段选择；

支持条件筛选：大于，等于，小于，大于等于，小于等于，不等于，包含，开始包含，结尾包含，不包含，长度；

参数：任意字符串，数字等；

关联字段

源数据源与目标数据源关联字段映射关系；

分值算子支持关系如下：

包含过滤算子的时间过滤、条件过滤和关联字段；

权重0到+∞；

单维度爆表；

全维度爆表；

最大值；

压缩正态分布；

聚合算子支持关系如下：

是否阻塞结点，当为阻塞结点时所有上层结点都得计算完毕才可以进入下一个数据源或算子结点或数据过滤结点或表输出结点；

聚合组，基于什么条件聚合在一起的字段；

关联字段

所有前结点与本聚合算子关联的字段映射；

输出算子

支持表结果覆盖更新或插入；

如果是覆盖更新，需要输入依据于更新的哪些字段做为查询参数；

关联字段

源数据源与目标数据源关联字段映射关系；

S23.将动态积分模型的配置参数保存在MongoDB中，具体过程如下：

a.保存结点及结点对应配置参数：保存数据源结点、数据源关联的数据过滤结点(包含：时间过滤参数、条件过滤参数、关联字段参数)，数据源关联的算子结点(包含：时间过滤参数、条件过滤参数、关联字段参数、权重、单维度爆表、全维度爆表、最大值、压缩正态分布)，算子关联的聚合结点(包含：阻塞条件，组关联参数、字段关联参数)、最后表数据输出的结点(包含：选择表操作，关联字段，关联更新字段)；

b.保存连接线关系：保存数据源与数据过滤结点之间的关系顺序、保存数据过滤结点与下一个数据源之间的顺序关系，保存下一个数据源结点与数据过滤结点之间的关系，保存数据源结点与分值计算结点直接的关系，保存数据源与分值计算结点之间的关系，保存分值计算结点与数据聚合结点之间的关系，保存数据聚合结点与表输出结点之间的关系。

S3.下发动态积分模型：将动态积分模型的配置参数下发到生产者kafka分区中，实现分布式负载均衡算法(通过kafka分区策略)；下发可以立即执行一次，也可以定时生效，基于corn执行表达式。

S4.基于动态积分模型，计算实时动态积分。

获取积分模型参数的开始结点，也就是主数据源结点，从左到右的顺序依次执行对应的数据过滤算子、分值算子、聚合算子、表输出算子结点。具体过程如下：

a:当流程走到数据过滤结点时，找到上级对应的数据源结点，基于时间过滤、条件过滤组装成sql语句进行对clickhouse中数据源表查询，返回结果集在基于字段映射转换成对应的字段及对应字段的值。当该数据过滤的结点上级是主数据源结点时，进行分页，每次轮询去取1000条数据，将每条数据下发并重新生成新模型进行下发运算。

b:当流程走到分值计算结点时，与流程a一样，并增加如下限制条件：

基于上述过滤条件查找出总条数，再与权重进行加权：

分值＝∑v_i×w_i，

其中，v_i代表总条数，w_i代表权重；

当选择单维度爆表的情况下，并且计算出来的总条数大于等于配置的最大值，则配置直接展示该这个结点的分值为配置的最大值；

当选择全维度爆表的情况下，并且计算出来的总条数大于等于配置的最大值，则配置该模型计算出来的分值为99分；

当选择正态分布压缩分值算法时，分值计算如下：

当原始值等于s1时，则压缩值为t1；

当原始值等于s2时，则压缩值为t2；

当原始值等于s2/s1时，则压缩值为t2/t1；

当原始值大于s2/s1时，则压缩值为t2/s2×原始值；

当原始值小于s2/s1时，则压缩值为t1/s1×原始值；

原始值和压缩值的对应关系如下表所示：

原始值范围	压缩值范围
		[s1,s2]	[t1,t2]
[s2,s3]	[t2,t3]
		[s3,s4]	[t3,t4]
[s4,s5]	[t4,t5]
		[s5,s6]	[t5,t6]
[s6,s7]	[t6,t7]
		[s7,s8]	[t7,t8]
…	…

c:当流程走到聚合结点时，当选择阻塞结点时，则判断当前结点上所有上级结点是否运行完毕，如果运行完毕则直接进入下一个结点，否则递归找到所有未运行的上级结点运行并记录运行的状态及结点，当所有上级结点运行完毕后直接进入下一个结点；当选择聚合组时，则所有上级结点的生成的结果集基于聚合组key进行分组过滤，满足则进入下一个结点，否则跳出当前循环。

d:当流程走到表输出结点值时，当选择插入时，则基于字段映射转换规则进行数据入库到指定的结果表中；当选择更新时，则基于更新的字段进行判断是否存在，如果不存在，则基于字段映射转换规则进行数据入库到指定的结果表中，如果存在则进行更新操作。

结果表规定如下：

总分值Double类型，用于存储总分值；

模型id Long类型，用于保存是哪个积分模型；

创建时间，用于保存生成该积分的时间；

更新时间，用于记录更新该模型的时间；

运行的主数据源对应的业务id；

数据源记录，用于存放每个数据源基于模型生成计算的原始分值，压缩后分值；

e：基于上述结果表展示运行后的总分值及对应的结果集。

目前主流的积分模型包括了指标配置法和基于固定公式法。本发明的方法相对于指标配置法，避免了大量的硬编码操作，较少了人为学习的成本，提高了工作效率；相对于基于固定公式法，可以灵活的配置不同的算子结点，可以灵活的数据源组装，有更好的工程适应性。通过本发明的方法可以支持模型动态积分预警，并且支持海量数据的实时计算，并且积分模型配置可视化，达到的可见即可得的效果，极大提高的预警的效率和动态化。

本发明的方法已经应用于海量数据业务的通用模型动态积分预算，在人工基于画布拖拽生成模型规则后，可以自动按照流程运行计算，可以并行的处理多种积分模型。较目前市场主流积分模型配置中效率和适配性上都有明显提升。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于大数据的通用模型动态积分预警方法，其特征在于，包括以下步骤：

S2.配置动态积分模型，具体过程为：

S4.基于动态积分模型，计算实时动态积分。

2.如权利要求1所述的方法，其特征在于，步骤S1具体为：

S13.选择源数据库对应表结构与目标数据库表结构字段映射；

S14.选择源数据库增量字段；

3.如权利要求1所述的方法，其特征在于，过滤算子支持关系包括：时间过滤、条件过滤和关联字段；分值算子支持关系包括：权重0到+∞、单维度爆表、全维度爆表、最大值和压缩正态分布；聚合算子支持关系包括：是否阻塞结点、聚合组和所有前结点与本聚合算子关联的字段映射。

4.如权利要求1所述的方法，其特征在于，S23中的保持连接线关系具体为：保存数据源与数据过滤结点之间的关系顺序，保存数据过滤结点与下一个数据源之间的顺序关系，保存下一个数据源结点与数据过滤结点之间的关系，保存数据源结点与分值计算结点直接的关系，保存数据源与分值计算结点之间的关系，保存分值计算结点与数据聚合结点之间的关系以及保存数据聚合结点与表输出结点之间的关系。

5.如权利要求1所述的方法，其特征在于，步骤S4具体为：获取动态积分模型的开始结点，也就是主数据源结点，从左到右的顺序依次执行对应的数据过滤算子、分值算子、聚合算子和表输出算子结点，具体如下：

a.基于上述过滤条件查找出总条数，再与权重进行加权：

分值＝∑v_i×w_i

其中v_i代表总条数，w_i代表权重；

d.当选择正态分布压缩分值时，分值计算如下：

当原始值等于s1时，则压缩值为t1；

当原始值等于s2时，则压缩值为t2；

当原始值等于s2/s1时，则压缩值为t2/t1；

当原始值大于s2/s1时，则压缩值为t2/s2×原始值；

当原始值小于s2/s1时，则压缩值为t1/s1×原始值；

S45.基于上述结果表展示运行后的总分值及对应的结果集。

6.如权利要求5所述的方法，其特征在于，结果表包括以下字段：

总分值Double类型，用于存储总分值；

模型id Long类型，用于保存是哪个积分模型；

创建时间，用于保存生成该积分的时间；

更新时间，用于记录更新该模型的时间；

运行的主数据源对应的业务id；