CN113435122B

CN113435122B - 实时流量数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN113435122B
Application number: CN202110744219.2A
Authority: CN
Inventors: 王文斌; 余惠强; 董晓琼; 郭玉桥; 周瑾; 周荃
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-11-07
Anticipated expiration: 2041-06-30
Also published as: CN113435122A

Abstract

本发明涉及一种实时流量数据处理方法、装置、计算机设备和存储介质。该方法包括：对流量历史数据进行聚合以及缺失值补充，得到聚合后流量数据；提取聚合后流量数据的特征数据；分别为每种特征数据中不同类型的序列匹配相应的训练模型，通过各训练模型训练所匹配的序列，得到对应的模型文件；将所获取的实时流量数据输入所述模型文件中，获取预测值；将预测值与实时流量数据进行比较，根据比较结果确定是否产生预警信息。本申请的方法采用了多种训练模型，能够满足多种不同种类流量的需求，数据处理结果误差小、准确度高，数据处理效率高，能够实时产生预警信息，能够很好地满足实际应用的需要。

Description

实时流量数据处理方法、装置、计算机设备和存储介质

技术领域

本发明涉及数据处理领域，特别是涉及实时流量数据处理方法、装置、计算机设备和存储介质。

背景技术

流量预警是风控策略中的重要环节，也是风控智能化的关键步骤。当前的风控系统中存在众多指标流量需要进行实时监控，例如请求总量、分场景请求量、各个规则命中量，各个决策结果命中量等等，通过对各指标流量的监控及时发现流量异常状况以及时发现例如网络恶意攻击等行为所造成的风险，及时规避损失。可构造的监控指标众多，且各个指标之间的差异巨大，同时对这些指标进行实时监控处理并报警是一项挑战；传统的监控处理方式采用的数据处理模型较为单一并且配置的阈值较为单一，或者更进一步地使用指标统计量或者传统模型进行预测后再配置阈值预警。

这些传统的监控处理方式在风控的流量数据处理中均存在一些缺陷，主要包括：由于流量多样化，风控中需要检测的流量类型众多，差异巨大，单一模型很难满足多种不同种类流量的需求，导致对数据的处理结果误差较大，处理效率较低，产生预警信息的实时性较差，难以满足实际需求。

发明内容

基于此，有必要针对在进行实时流量数据处理时，由于所采用的流量数据处理模型较为单一不能满足多种不同种类流量的需求、导致数据处理结果误差大、数据处理效率低以及产生预警信息的实时性较差的问题，提供一种实时流量数据处理方法、装置、计算机设备和存储介质。

一种实时流量数据处理方法，包括：

对所获取的流量历史数据进行聚合以及缺失值补充，得到聚合后流量数据；

提取所述聚合后流量数据的特征数据；其中，每种所述特征数据包括不同类型的序列；

分别为每种所述特征数据中所述不同类型的序列匹配相应的训练模型，通过各所述训练模型训练所匹配的序列，得到对应的模型文件；

将所获取的实时流量数据输入所述模型文件中，获取预测值；

将所述预测值与所述实时流量数据进行比较，根据比较结果确定是否产生预警信息。

在其中一个实施例中，所述根据比较结果确定是否产生预警信息，包括：

若所述比较结果为所述预测值与所述实时流量数据的差值超过预设阈值，则产生预警信息；

否则，不产生预警信息。

在其中一个实施例中，所述方法还包括：若产生预警信息，则发送所述预警信息，和/或展现所述预警信息

在其中一个实施例中，所述对对所获取的流量历史数据进行聚合以及缺失值补充，得到聚合后流量数据，包括：

基于预设聚合参数进行基础聚合，得到基础聚合后的数据；

根据预设聚合时间对所述基础聚合后的数据进行数据重采样；

判断所述数据重采样的过程中是否存在采样点为空的情况；

如果不存在，则直接得到聚合后流量数据；

如果存在，则对缺失的位置进行相应的补0操作后，得到聚合后流量数据。

在其中一个实施例中，所述特征数据包括：时间类特征数据、lag类特征数据、rolling类特征数据和Detla类特征数据。

在其中一个实施例中，所述训练模型包括lightgbm模型、改进的seq2seq模型和stat统计模型；所述改进的seq2seq模型包括：在传统seq2seq模型的基础上，在seq_in阶段使用预先设置的构造特征拼接到所述特征数据的原始序列上，在seq_supervisor中不使用任何特征，在seq_out阶段也不使用任何特征，仅采用所述原始序列的值。

一种实时流量数据处理装置，包括：

统计模块，用于对所获取的流量历史数据进行聚合以及缺失值补充，得到聚合后流量数据；

特征提取模块，用于提取所述聚合后流量数据的特征数据；其中，每种所述特征数据包括不同类型的序列；

训练模块，用于分别为每种所述特征数据中所述不同类型的序列匹配相应的训练模型，通过各所述训练模型训练所匹配的序列，得到对应的模型文件；

预测模块，用于将所获取的实时流量数据输入所述模型文件中，获取预测值；

比较模块，用于将所述预测值与所述实时流量数据进行比较，根据比较结果确定是否产生预警信息。

在其中一个实施例中，所述装置还包括：

通知模块，用于若产生预警信息，则发送所述预警信息，和/或展现所述预警信息。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述实时流量数据处理方法的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述实时流量数据处理方法的步骤。

上述实时流量数据处理方法、装置、计算机设备和存储介质，采用了多种训练模型，分别为每种所述特征数据中所述不同类型的序列匹配相应的训练模型，通过各所述训练模型训练所匹配的序列，得到对应的模型文件，将所获取的实时流量数据输入所述模型文件中，获取预测值，将所述预测值与所述实时流量数据进行比较，根据比较结果确定是否产生预警信息，各种训练模型能够满足多种不同种类流量的需求，数据处理结果误差小、准确度高，数据处理效率高，能够实时产生预警信息，能够很好地满足实际应用的需要。

附图说明

图1为一个实施例中提供的实时流量数据处理方法的实施环境图；

图2为一个实施例中计算机设备的内部结构框图；

图3为一个实施例中实时流量数据处理方法的流程图；

图4为一个实施例中对原始数据进行聚合以及缺失值补充的流程图；

图5为一个实施例中在每个时间步上利用其距离当前预测时间步的距离来决定其对最终预测值的贡献权重的示意图；

图6为一个实施例中改进的seq2seq模型的网络结构图；

图7为一个实施例中stat模型内部的数据处理流程图；

图8为一个实施例中stat模型的数据处理示意图；

图9为一个实施例中实时流量数据处理装置的结构框图；

图10为一个实施例中统计模块的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。还应理解的是，虽然术语“第一”、“第二”等在文本中在一些本申请实施例中用来描述各种元素，但是这些元素不应该受到这些术语的限制。这些术语仅用于区分各种元素。

图1为一个实施例中提供的实时流量数据处理方法的实施环境图，如图1所示，在该实施环境中，包括计算机设备110，计算机设备110可以用于实现本实施例提供的实时流量数据处理方法。需要说明的是，计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。

图2为一个实施例中计算机设备的内部结构示意图。如图2所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种实时流量数据处理方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种实时流量数据处理方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提出了一种实时流量数据处理方法，该实时流量数据处理方法具体可以包括以下步骤：

S10、对所获取的流量历史数据进行聚合以及缺失值补充，得到聚合后流量数据。

统计模块从风控系统的ES中获取原始数据，按照用户自定义的流量类别和聚合参数进行初步的聚合、缺失值补充等操作，并将聚合后的数据继续写入ES的另一个index中。同时邮件模块从预警信息表中获取需要预警的时间点，组装预警文本进行邮件发送，这2个模块组成基础服务通过调度框架进行每2min的调度。

Elasticsearch(简称ES)是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。

原始数据包括当前系统中包含的原始数据有基础字段：商户编号(app_id)，时间戳(ack_dt)，业务字段：场景类型(scenario_id)，决策类型(response_decision_vaue)，命中规则(hit_code)，其中业务字段可由业务根据需求自定义扩展需要监控的指标。

流量类别依据用户选取的需要监控的指标决定，例如需要监控决策类型，则会获取用户所有的决策类别构建各自的流量。例如，基础版的决策类别有“通过”，“拒绝”，“人工验证”三种，则会形成对应的3个流量类别。聚合参数可进一步控制流量的构成方式，例如每5分钟构成一个数据点或者10分钟，在决策类别流量上，附加相应的筛选条件，例如仅筛选上海市范围内的决策结果监控等。

如图4所示，在某些实施方式中，步骤S10包括：

1)基于预设聚合参数进行基础聚合，得到基础聚合后的数据。

预设聚合参数例如可以为每5分钟(或其他时长，具体根据实际需要进行设定)一个桶(bucket)。基于用户的聚合参数按照每5分钟一个桶进行基础聚合，得到基础聚合后的数据。

2)根据预设聚合时间对所述基础聚合后的数据进行数据重采样。

预设聚合时间为用户配置每个流量的聚合时间。根据用户配置每个流量的聚合时间进行进一步的数据重采样。

3)判断所述数据重采样的过程中是否存在采样点为空的情况；

如果不存在采样点为空的情况，则直接得到聚合后流量数据；

如果存在采样点数据为空的情况，则对缺失的位置进行相应的补0操作后，得到聚合后流量数据。

S20、提取聚合后流量数据的特征数据。其中，每种所述特征数据包括不同类型的序列。

预警服务通过调度框架进行每隔预设时长(例如可以为5min)运行一次，获取用户配置的所有需要进行预警检查的序列，从统计模块获取聚合后的数据，按照不同的模型需要进行特征的计算，包括lag、rolling、delta等特征，以及weekday，holiday，hour，minute等时间特征，从训练服务中加载训练好的各个模型进行各个序列在当前时刻基线值，与真实比较后决定是否异常，并将预警信息提供给邮件模块。

在某些实施方式中，在步骤S20中，提取的特征数据包括4大类，分别是：

时间类特征数据，例如可以包括：1.是否节假日2.星期数3.小时数4.分钟数；

lag类特征数据，例如可以包括：当前点的前T/16、前T/8、前T/4、前T/2和前1个点数据(T为一个数据周期)；

rolling类特征数据，例如可以包括：前T/16、T/8的数据滚动平均值；

Detla类特征数据，例如可以包括：前2点、前3点和当前点的差分值。

S30、分别为每种所述特征数据中所述不同类型的序列匹配相应的训练模型，通过各所述训练模型训练所匹配的序列，得到对应的模型文件。

分别为特征数据的不同序列配置不同的训练模型，各训练模型按照预设频率训练所述特征数据(预设频率例如可以设置为每天训练1次，训练时间一般可以设置在凌晨)。

所述不同的模型包括lightgbm模型、改进的seq2seq模型和stat统计模型；所述改进的seq2seq模型包括：在传统seq2seq模型的基础上，在seq_in阶段使用预先设置的构造特征拼接到所述特征数据的原始序列上，在seq_supervisor中不使用任何特征，在seq_out阶段也不使用任何特征，仅采用所述原始序列的值。例如，为特征数据的常规序列配置lightgbm模型，为特征数据的波动复杂程度超过预设阈值的序列配置改进的seq2seq模型，为特征数据的超过预设阈值的子序列配置stat统计模型，所有序列对应的模型均可由用户自定义配置。

各模型的训练过程均包括四个大步骤：取数→特征构建→训练执行→模型文件落地。其中上述3个模型的取数步骤的处理逻辑是相同的，均为从基础聚合的ES中，按照各流量配置进行重采样和缺失值补充后，产生各个流量序列的修复后时序数据。

各模型对特征数据的处理共用了特征提取模块内容，区别在于stat模型只用到了重采样后的原始流量数据，lightgbm模型和改进的seq2seq模型的特征额外处理过程见上文中的特征处理描述，其特征处理过程相同。

所得到模型文件如下所示，其中lightgbm模型处理特征数据所得到的模型文件包含归一化的模型文件minmax_model、类别编码模型文件label_code_model以及已经训练模型文件lightgbm_model；改进的seq2seq模型处理特征数据所得到的模型文件包含归一化模型文件minmax_model、编码器模型文件enc_model、解码器模型文件dec_model，以及类别编码模型文件label_code；stat模型处理特征数据所得到的模型文件就只包含一个训练后的上下限区间模型文件statistical_model。

stat统计模型的结构框图，并对该模型的各模块的功能进行说明：主体的工作流程见上述的“时流量预警系统的主体工作流程图”，如图7所示，具体到stat模型内部的数据处理流程图大体有如下5个大步骤：

(1)获取各序列重采样后的原始数据；

(2)计算待计算点的横向加权系数；

例如，取的权重为均值为0，方差为25的正态分布概率密度；

(3)计算待计算的纵向加权系数；纵向加权系数即α值为0.1的牛顿冷却率值；

(4)计算待计算点的加权均值和方差；

(5)依据用户的配置和计算出的方差值来获取待计算点的合理波范围的上下限，得到对应的模型文件。

本实施方式除了提供3种时序模型供业务针对不同序列进行选择外，对每一种模型都进行了相应的改进和优化，具体如下：

针对lightgbm模型，为防止模型对异常波动的过度拟合，除了构建lag，rolling等特征外，在每一个时间步上均向前滚动预测多个(例如可以为6个)时间步，在每个时间步上，均利用其距离当前预测时间步的距离来决定其对最终预测值的贡献权重，具体的示意图如图5所示，在图5中，某个预测时间点上的最终预测值是基于其前面的5个时间步预测和当前时间步的加权平均。向前滚动预测的时间步的总个数可以用n表示，例如，可以取n＝6，即在每一个时间步上均向前滚动预测6个时间步。

Weight_value_t＝predict_value_t*W_t (3)

即当前时间步之前的第t个时间步的加权预测值为该第t个时间步在该预测时间点上的预测值predict_value_t与其原始权重W_t的乘积，其中，n≥t≥1；其中，λ代表衰减速度系数，用于衡量原始权重W_t的衰减速度；△t代表时间差，C_t(即图中的calc_time)代表当前计算时间，predict_time代表当待预测时间，interval代表预测间隔时间。权重为牛顿冷模型。

当前时间步的最终预测值predict_value的计算公式为：

即，当前时间步的最终预测值为当前时间步之前的前n个时间步的预测值之和除以前n个时间步的原始权重之和所得到的值。

针对改进的seq2seq模型，在传统seq2seq模型的基础上，使用多序列模拟的数据，优化其最终的网络的构型，如图6所示，主要改变点在于在seq_in阶段使用预先设置的构造特征拼接到原始序列上，包括后续的类别特征，在seq_supervisor中不使用任何特征，如果使用attention机制，仅包括attention本身，在seq_out阶段也不使用任何特征，仅序列本身的值。实验证明，和其它几种网络构型相比，这种模式能够在seq_in保持4/T的长度时，仍有稳定的预测能力。

如图6所示，改进的seq2seq模型的网络结构图的主体构型分为左右2块，左边为时间序列的输入(seq_in)，右边为序列的输出(seq_supervisor)，分隔点为待预测时间，中间的C为输入序列的编码。该结构为常规的seq2seq模型结构，本身不需要过多描述。本次在模型结构上的创新点在于传统的seq2seq无法同时对多个完成不同的序列进行训练，即输入的序列只有target的红色方块部分，为了能够将其应用在生产中，在原始序列中补充了橙色的feature部分，将类别信息以labelcode编码的方式和target拼接在一起，并验证了其效果优于onehot的编码方式。另外也探索了在seq_supervisor部分是否要同时使用feature，以及在seq_out部分是否要预测feature部分，探索结构标明，在seq_supervisor和seq_out部分均不需要feature，且attention的机制严重影响性能，对最终结果提升不明显。

最终该方案的模拟数据与真值的MAPE只有3.38，对噪声抗干扰能力极强。

对于sata模型，并不是使用每一个时间步上本身的值做相应的均值方差计算，而是采用了如图8所示的方式，即在计算一个时间步上的分布时，除了横向观察一个时间窗外，还纵向的往前寻找至少一天(例如14天)前该时刻的时间窗，并且对横向的时间窗采用正态分布的加权计算，纵向时间线采用指数衰减的加权计算，以此防止一些点出现偏移以及一些单次的活动冲击导致后续的漏报情况。

对横向的时间窗采用正态分布的加权计算，纵向时间线采用指数衰减的加权计算，包括：

Stat统计模型对一个具体的数据点的计算方法包括以下步骤：

<1>获取当前数据点左右相邻的17个点，则横向的共获取35个点；

<2>计算这35个点中每个点的具体横向权重值，横向权重值的计算公式为：

其中x为偏离当前计算点的分钟数，左边为负，右边为正，u为0，σ为25；

<3>获取当前数据点前14天同样的时间窗，计算每一天的纵向加权值，具体的计算公式为：

e^-α(x-1)

其中x为距离当前时间点的天数，α值为0.1；

<4>这样每数据点上都有对应的2个权重，将其相乘作为该点的实际权重，这样既可计算每个点对当前这个时间点的影响程度，直观上来说就是离的越近则影响程度越大，然后既可按照正常加权平均值和加权方差；

<5>有了均值和方差，既可利用3simga的方式来获取该点的合理上下区间，并搭配用户配置的容忍区间够构造最终的实际预警区间。

在某些实施方式中，Stat模型的训练过程包括：

一、特征构建：Stat模型没有构建额外的数据特征。

二、训练执行；

Stat模型训练的最终目的是获取每个流量序列一天中每个时间间隔的上下波动范围；所以从一个流量序列的一个时间间隔点来说，首先获取当前数据点当天左右相邻的17个点，共计35个点，计算35个点的横向权重，计算公式见交底书中stat模型的横向权重计算公式，然后计算当前时间间隔前14天同样的时间窗，计算每一天的纵向权重；这种每个时刻点会获取525个数据点，每个数据点有2个权重，将这2个权重相乘作为各个点的最终权重，代表了其对当前时刻点的影响程度；计算这些点的加权平均值和加权方差，使用均值正负3倍方差来作为该序列该时刻点的理论合理波动范围。

三、模型落地：Stat模型最终落地一个pkl文件，包含的是所有流量序列在1天各个时刻的波动范围数据。

在某些实施方式中，Lightgbm模型的训练过程包括：

特征构建：在原始序列的基础上，lightgbm模型构建了四大类特征，分别是时间类，lag类，rolling类，delta类；其中时间类为个序列时刻1.是否是节假日,2.星期数，3.小时数，4.分钟数；Lag类包含序列当前时刻的前T/16,T/8,T/4,T/2,1个点数据(T为一个数据周期)；Rolling类包含序列当前时刻前T/16,T/8的数据滚动平均值；Detla类包含序列当前时刻前2，3点和当前时刻点的差分值。

训练执行：Lightgbm是属于梯度提升树模型，属于GBDT的一种实现，本质上是逐步集成多个弱分类树通过迭代组合得到一个综合性的集成模型，训练的过程是寻找各个弱分类树的最优分隔点；其训练的目标函数是下一时刻的真实流量值与预测值的差值，通过不断调整子分类树的分割点来最小化差值；

具体地，首先对单个特征进行直方图的划分(默认一个特征划分为256个直方图)；然后依据深度优先策略对叶子节点进行分裂，且同层级的叶子节点同时进行深度方向的分裂；，然后从整体中采用一部分样本，计算对应分裂节点的增益情况；当到达迭代次数或者继续分裂产生的增益小于阈值，则训练过程停止；

模型落地：在特征构建阶段，落地一个min_max模型记录各个序列的最大最小值情况，用以在预测时进行相应的归一化；同时落地一个label_code模型用以记录序列的编号，用以对序列的名称进行数字化编码；在训练完成后，落地一个pkl文件，用来保存训练的集成树的分裂信息，用以预测是进行相应的加载调用。

在某些实施方式中，Seq2seq模型的训练过程包括：

特征构建：Seq2seq模型的特征构建过程和lightgbm模型的特征构建过程是相同的；

训练执行：Seq2seq模型属于人工神经网络模型，所以其训练过程即常规的BP反向传播算法；

具体地，本实施方式使用的是GRU作为神经单元，搭建了解码器-编码器的神经网络结构；在训练的前向传播阶段，获取该时刻前T/8时间段的特征数据和目标流量值，将其逐个时刻馈送到编码GRU单元中，计算其输出，到最后一个时间步，得到该时间段数据的编码向量C；获取该时刻后T/16的目标值作为输出序列段，将编码向量C和输出序列段的逐个时刻值馈送到解码GRU单元中，得到不同时刻的预测值；计算输出时间段的真实值和预测值差距，利用误差求导方法，逐步更新GRU单元中各连接节点的权重，直到达到迭代次数或者误差小于阈值，则训练过程停止。

模型落地：在特征构建节点，落地和lightgbm一样的2个模型，分别是min_max和label_code；在训练完成后，得到一个编码器的h5和解密器的h5文件，分别记录了编码器和解码器的GRU单元中的节点连接权重。

S40、将所获取的实时流量数据输入所述模型文件中，获取预测值。

在某些实施方式中，步骤S40具体包括：

1.在定时器触发(例如每5min触发一次)预警过程后，首先获取用户的配置文件，该配置文件中记录了预先设置的不同序列和模型的对应关系；

2.开始循环处理序列；

首先，获取当前序列应该加载的模型文件，将其载入内存中，对于stat模型，模型文件记录了该序列在该时刻的合理区间；对于lightgbm和seq2seq模型，模型文件中记录了该序列的最优预测参数；

其次，获取当前序列当前时刻前一段时间范围的真实聚合值，并基于真实聚合值，构造对应的4种特征数据(时间类，lag类，rolling类，delta类)；

将这些特征数据输入模型中，并执行模型对象的预测方法，得到预测值；

例如，对于stat模型，将输出该时刻的合理波动范围，对于lightgbm和seq2seq模型，将输出该时刻的模型预测值，对预测值结果用户为该序列配置的阈值水平，产生该时刻的合理波动范围；

合并该时刻的真实值和波动范围，计算其偏离和是否异常，若异常，则产生预警信息。

将预警信息传入到邮件模块，同时写回到ES结果表中用于大盘展示。

在某些实施方式中，步骤S40具体包括：

(40-1)获取所有的用户流量配置信息；

(40-2)对每个流量所使用的模型进行分组处理，同样的模型配置进入相同的处理流程，且所有的处理流程都抽象为获取最近预设时长(例如5min)的真实流量数据，区别是加载各种的模型，如果是stat模型，则加载各自流量不同时刻的上下限，如果是lightgbm和seq2seq模型，则加载训练好的模型，基于feature数据对当前时刻点进行流量预测，并基于用户配置的阈值来计算各自流量不同时刻的上下限；

(40-3)将真实值和上下限数据拼接起来，并分别存储至ES和mysql数据库中；存于ES的数据可继续用于下一次预测的加权以及在风险大盘上的展示；

(40-4)筛选其中超出上下限的流量，将其按用户配置的分组逻辑进行组合，并判断是否到达了预警邮件的发送间隔时间，如果到了则将其数据流入到邮件模块。

S50、将所述预测值与所述实时流量数据进行比较，根据比较结果确定是否产生预警信息。

在某些实施方式中，根据比较结果确定是否产生预警信息，包括：

否则，不产生预警信息。

在某些实施方式中，上述三个模型的预警信息计算包括4个步骤：取数→特征构建→预测执行→预警计算。

其中，不同模型预警过程中的取数和特征构建的步骤与上述的训练过程中不同模型的取数和特征构建的逻辑完全一样，这样才能保证后续预测能够正常执行。

Stat模型的预测执行和预警计算的步骤如下：

预测执行：Stat模型的预测执行就是加载了其训练过程中落地的模型文件，得到待预测序列的不同时刻的波动范围，将其拼接到获取的真实数据上；

预警计算：当真实值超过了预警上下限，且超过了用于设置的容忍阈值，则产量了一条实际的预警信息，预警信息包含：时刻、真实值、该时刻的合理上下区间、超出的比例以及超出的方向信息。

Lightgbm模型的预测执行和预警计算的步骤如下：

预测执行：同样也是先加载训练过程的落地的模型文件，输入特征构建得到的特征数据，得到该时刻原始的预测值；

利用该时刻其它预测时间点上的预测值，对其加权计算得到最终的加权预测值；

将预测结果落地到ES中，用作下一次的加权计算；

预警计算：计算真实值与预测值的差值，并利用用户配置的不同真实值对应的阈值进行比对，超过了阈值则产生一条实际的预警信息，预警包含的信息同stat模型预警计算部分。

Se2seq模型的预测执行和预警计算的步骤如下：

预测执行：Seq2seq模型的预测执行过程和lightgbm模型一致，包括加权预测部分，区别只在于加载了不同的预测模型，得到了不同的预测值；

预警计算：Seq2seq的预警计算部分也和lightgbm预警计算部分一致。

在另一个实施方式中，该实时流量数据处理方法具体还可以包括：S60、若产生预警信息，则发送所述预警信息，和/或展现所述预警信息。

除将预警内容通过邮件及时通知业务部位外，数据还通过风控策略系统的大盘进行实时的展现，方便业务人员进行实时的分析。

本实施例提出的实时流量数据处理方法，能够实时自动完成风控系统中多种流量的监控和处理，得到预警信息，所有模型均经过相应的改进以适应特定的场景，通过调度框架，模型均具有自迭代能力，对业务的增长、变动具有良好的适应性，能否减少由于异常冲击导致后续漏报问题。业务可以随时添加需要监控序列，只需要在配置项中增加对应的ES聚合查询语句和指定相应的模型等参数，系统即可将新序列添加至模型待训练列表，等待模型训练完成即可正式加入预警列表产生实际的预警邮件和图表。

本申请实施例提供的实时流量数据处理方法，采用了多种训练模型，分别为每种所述特征数据中所述不同类型的序列匹配相应的训练模型，通过各所述训练模型训练所匹配的序列，得到对应的模型文件，将所获取的实时流量数据输入所述模型文件中，获取预测值，将所述预测值与所述实时流量数据进行比较，根据比较结果确定是否产生预警信息，各种训练模型能够满足多种不同种类流量的需求，数据处理结果误差小、准确度高，数据处理效率高，能够实时产生预警信息，能够很好地满足实际应用的需要，克服了传统技术方案采用单一模型处理不同种类流量所存在的缺陷。

如图9所示，在一个实施例中，提供了一种实时流量数据处理装置，包括：

统计模块10，用于对所获取的流量历史数据进行聚合以及缺失值补充，得到聚合后流量数据；

特征提取模块20，用于提取所述聚合后流量数据的特征数据；其中，每种所述特征数据包括不同类型的序列；

训练模块30，用于分别为每种所述特征数据中所述不同类型的序列匹配相应的训练模型，通过各所述训练模型训练所匹配的序列，得到对应的模型文件；

预测模块40，用于将所获取的实时流量数据输入所述模型文件中，获取预测值；

比较模块50，用于将所述预测值与所述实时流量数据进行比较，根据比较结果确定是否产生预警信息。

在某些实施方式中，统计模块10具体用于：

基于预设聚合参数进行基础聚合，得到基础聚合后的数据；

判断所述数据重采样的过程中是否存在采样点为空的情况；

如果不存在采样点为空的情况，则直接得到聚合后流量数据；如果存在采样点数据为空的情况，则对缺失的位置进行相应的补0操作后，得到聚合后流量数据。

在某些实施方式中，所述装置还包括：通知模块60，用于若产生预警信息，则发送所述预警信息，和/或展现所述预警信息。

展现所述预警信息包括对预警信息进行大盘实时展现。

如图10所示，在某些实施方式中，统计模块10，包括：

聚合单元101，用于基于预设聚合参数进行基础聚合，得到基础聚合后的数据；

重采样单元102，用于根据预设聚合时间对所述基础聚合后的数据进行数据重采样；

确定单元103，用于判断所述数据重采样的过程中是否存在采样点为空的情况；

该确定单元103，还用于：如果不存在采样点为空的情况，则直接得到聚合后流量数据；如果存在采样点数据为空的情况，则对缺失的位置进行相应的补0操作后，得到聚合后流量数据。

在某些实施方式中，所述特征数据包括：时间类特征数据、lag类特征数据、rolling类特征数据和Detla类特征数据。

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

在某些实施方式中，所述处理器所执行的所述根据比较结果确定是否产生预警信息，包括：

否则，不产生预警信息。

在某些实施方式中，所述处理器执行所述计算机程序时还实现以下步骤：

若产生预警信息，则发送所述预警信息，和/或展现所述预警信息。展现所述预警信息包括对预警信息进行大盘实时展现。

在某些实施方式中，所述处理器所执行的所述对所获取的原始数据进行聚合以及缺失值补充，得到聚合后流量数据，包括：

基于预设聚合参数进行基础聚合，得到基础聚合后的数据；

判断所述数据重采样的过程中是否存在采样点为空的情况；

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

在某些实施方式中，所述一个或多个处理器所执行的所述根据比较结果确定是否产生预警信息，包括：

否则，不产生预警信息。

在某些实施方式中，所述一个或多个处理器执行所述计算机程序时还实现以下步骤：

在某些实施方式中，所述一个或多个处理器所执行的所述对所获取的原始数据进行聚合以及缺失值补充，得到聚合后流量数据，包括：

基于预设聚合参数进行基础聚合，得到基础聚合后的数据；

判断所述数据重采样的过程中是否存在采样点为空的情况；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种实时流量数据处理方法，其特征在于，包括：

将所述预测值与所述实时流量数据进行比较，根据比较结果确定是否产生预警信息；

所述对对所获取的流量原始数据进行聚合以及缺失值补充，得到聚合后流量数据，包括：

基于预设聚合参数进行基础聚合，得到基础聚合后的数据；

判断所述数据重采样的过程中是否存在采样点为空的情况；

如果不存在，则直接得到聚合后流量数据；

如果存在，则对缺失的位置进行相应的补0操作后，得到聚合后流量数据；

所述将所获取的实时流量数据输入所述模型文件中，获取预测值，包括：

在定时器触发预警过程后，首先获取用户的配置文件，该配置文件中记录了预先设置的不同序列和模型的对应关系；

获取当前序列应该加载的模型文件，将其载入内存中，对于stat模型，模型文件记录了该序列在对应时刻的合理区间；对于lightgbm和seq2seq模型，模型文件中记录了该序列的最优预测参数；

获取当前序列当前时刻前一段时间范围的真实聚合值，并基于真实聚合值，构造对应的4种特征数据；所述特征数据包括：时间类特征数据、lag类特征数据、rolling类特征数据和Detla类特征数据；

将特征数据输入模型中，并执行模型对象的预测方法，得到预测值。

2.如权利要求1所述的实时流量数据处理方法，其特征在于，所述根据比较结果确定是否产生预警信息，包括：

否则，不产生预警信息。

3.如权利要求1所述的实时流量数据处理方法，其特征在于，所述方法还包括：若产生预警信息，则发送所述预警信息，和/或展现所述预警信息。

4.如权利要求1所述的实时流量数据处理方法，其特征在于，所述训练模型包括lightgbm模型、改进的seq2seq模型和stat统计模型；所述改进的seq2seq模型包括：在传统seq2seq模型的基础上，在seq_in阶段使用预先设置的构造特征拼接到所述特征数据的原始序列上，在seq_supervisor中不使用任何特征，在seq_out阶段也不使用任何特征，仅采用所述原始序列的值。

5.一种实时流量数据处理装置，其特征在于，包括：

比较模块，用于将所述预测值与所述实时流量数据进行比较，根据比较结果确定是否产生预警信息；

所述统计模块包括：

聚合单元，用于基于预设聚合参数进行基础聚合，得到基础聚合后的数据；

重采样单元，用于根据预设聚合时间对所述基础聚合后的数据进行数据重采样；

确定单元，用于判断所述数据重采样的过程中是否存在采样点为空的情况，还用于：如果不存在采样点为空的情况，则直接得到聚合后流量数据；如果存在采样点数据为空的情况，则对缺失的位置进行相应的补0操作后，得到聚合后流量数据；

所述预测模块进一步具体用于：

6.如权利要求5所述的实时流量数据处理装置，其特征在于，所述装置还包括：

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至4中任一项权利要求所述实时流量数据处理方法的步骤。

8.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至4中任一项权利要求所述实时流量数据处理方法的步骤。