CN109669931A

CN109669931A - 历史数据异常分析方法、系统、设备及存储介质

Info

Publication number: CN109669931A
Application number: CN201811638145.9A
Authority: CN
Inventors: 陈宇; 凌云; 杨再三; 刘丹青; 艾青; 章锦成; 任华炯
Original assignee: Shanghai Ctrip Business Co Ltd
Current assignee: Shanghai Ctrip Business Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-23

Abstract

本发明提供了一种历史数据异常分析方法、系统、设备及存储介质，该方法包括：采用Spark Streaming拉取待分析的历史数据至数据缓存；将待分析的历史数据存储至数据库；执行各个Spark任务集群，各个所述Spark任务集群执行绑定的各个规则，根据绑定的各个规则从所述数据缓存中拉取和处理待分析的历史数据，并为处理后的历史数据添加分类标签；根据处理后的历史数据的分类标签对所述数据库中的历史数据添加分类标签。采用本发明的技术方案，基于Spark实现历史数据异常分析，支持规则和任务集群的实时添加和更新，提高数据统计分析效率。

Description

历史数据异常分析方法、系统、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种历史数据异常分析方法、系统、设备及存储介质。

背景技术

为了保证业务的持续增长，业务部门会经常推出适宜时节的新活动及优惠，在召回老用户的同时也吸引大批新用户。然而，随着业务增长越来越快，攻击手段也变化越来越快，越来越复杂。例如，有些用户会采用多个账号登录领取优惠券等等。为了应对攻击手段，需要提供数据风险计算。数据风险计算是对历史登录、注册、领券等业务日志数据进行统计和分析，发现异常行为数据并未业务安全风控提供数据支撑。现有技术中的方法时通过硬编码的方式书写SQL(Structured Query Language，结构化查询语言)类语句对历史数据进行清洗和统计，找出异常数据并提取。但随着业务增长，数据量暴增，SQL查询瓶颈问题及规则频繁更新问题尤为突出。基于MySQL数据库(一个关系型数据库管理系统)的定时job(任务)的离线数据统计分析方式，难以支持业务量的持续增长，以及规则的灵活变更、测试和发布等。

发明内容

针对现有技术中的问题，本发明的目的在于提供一种历史数据异常分析方法、系统、设备及存储介质，基于Spark实现历史数据异常分析，支持规则和任务集群的实时添加和更新，提高数据统计分析效率。

本发明实施例提供一种历史数据异常分析方法，所述方法包括如下步骤：

采用Spark Streaming拉取待分析的历史数据至数据缓存；

将待分析的历史数据存储至数据库；

执行各个Spark任务集群，各个所述Spark任务集群执行绑定的各个规则，根据绑定的各个规则从所述数据缓存中拉取和处理待分析的历史数据，并为处理后的历史数据添加分类标签；

根据处理后的历史数据的分类标签对所述数据库中的历史数据添加分类标签。

可选地，所述采用Spark Streaming拉取待分析的历史数据至数据缓存中，采用Spark Streaming从Kafka消息队列中拉取待分析的历史数据。

可选地，所述拉取待分析的历史数据至数据缓存中，拉取待分析的历史数据至Alluxio数据缓存。

可选地，所述各个所述Spark任务集群执行绑定的各个规则，包括如下步骤：

各个所述Spark任务集群根据绑定的各个规则的ID，从规则配置平台上拉取绑定的规则执行脚本和规则执行参数；

所述Spark任务集群根据规则执行参数执行对应的规则执行脚本。

可选地，所述执行各个Spark任务集群，包括根据预设的Spark任务集群执行策略和执行顺序，执行各个所述Spark任务集群，所述Spark任务集群执行策略包括并行执行和串行执行。

可选地，所述方法还包括如下步骤：

创建至少一Spark任务集群，配置新建的Spark任务集群的执行脚本，并配置Spark任务集群的ID与规则的ID的绑定关系；

所述执行各个Spark任务集群，包括执行各个Spark任务集群的执行脚本，且各个Spark任务集群执行过程中执行绑定的各个规则。

可选地，所述分类标签包括异常标签和非异常标签，所述为处理后的历史数据添加分类标签之后，还包括如下步骤：

从所述处理后的历史数据中抽取添加了异常标签的异常数据，确定所述异常数据中的异常维度，将所述异常维度存储于数据库中。

可选地，所述从所述处理后的历史数据中抽取异常数据之后，还包括如下步骤：

将所述异常数据与预设的白名单数据进行比对，将与所述白名单数据相关联的异常数据的标签修改为非异常标签。

可选地，所述各个所述Spark任务集群执行绑定的各个规则，还包括如下步骤：

所述Spark任务集群判断绑定的规则是否存在多个版本；

如果是，则所述Spark任务集群分别执行各个版本的规则，并在每个版本的规则执行中分别为处理后的历史数据添加分类标签，处理后的历史数据包括与各个版本的规则对应的多个标签。

本发明实施例还提供一种历史数据异常分析系统，用于实现所述的历史数据异常分析方法，所述系统包括：

数据采集模块，用于采用Spark Streaming拉取待分析的历史数据至数据缓存；

数据落地模块，用于将待分析的历史数据存储至数据库；

集群执行模块，用于执行各个Spark任务集群，各个所述Spark任务集群执行绑定的各个规则，根据绑定的各个规则从所述数据缓存中拉取和处理待分析的历史数据，并为处理后的历史数据添加分类标签；

标签落地模块，用于根据处理后的历史数据的分类标签对所述数据库中的历史数据添加分类标签。

本发明实施例还提供一种历史数据异常分析设备，包括处理器；存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行所述的历史数据异常分析方法的步骤。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现所述的历史数据异常分析方法的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本发明所提供的历史数据异常分析方法、系统、设备及存储介质具有下列优点：

本发明采用Spark Streaming实时缓存计算数据，并以Spark job形式循环拉取规则配置平台配置的规则在Spark SQL上执行，最后提取异常数据，从而基于Spark实现历史数据异常分析；本发明支持规则和任务集群的实时添加和更新，解决了SQL执行的性能和扩展性问题，提高了规则计算速度，提高了数据统计分析效率，数据计算从分钟级提高到秒级。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的历史数据异常分析方法的流程图；

图2是本发明一实施例的历史数据异常分析系统的结构示意图；

图3是本发明一实施例的Alluxio数据缓存的管理界面示意图；

图4是本发明一实施例的规则配置平台的管理界面示意图；

图5是本发明一实施例的集群配置平台的管理界面示意图；

图6是本发明一实施例的规则运行日志的管理界面示意图；

图7是本发明一实施例的历史数据异常分析设备的结构示意图；

图8是本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

为了解决现有技术中的技术问题，本发明实施例提供一种基于Spark的历史数据异常分析方法。Spark专为大规模数据处理而设计的快速通用的计算引擎，是类HadoopMapReduce的通用并行框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是：Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark具有运行速度快、适用场景广泛、易用性和容错性高的特点。

如图1所示，所述历史数据异常分析方法包括如下步骤：

S100：采用Spark Streaming拉取待分析的历史数据至数据缓存，SparkStreaming用于处理流式计算问题，会运行接收器来不断的接收输入的数据流；

S200：将待分析的历史数据存储至数据库；

S300：执行各个Spark任务集群(Spark job)，各个所述Spark任务集群执行绑定的各个规则，根据绑定的各个规则从所述数据缓存中拉取和处理待分析的历史数据，并为处理后的历史数据添加分类标签；

S400：根据处理后的历史数据的分类标签对所述数据库中的历史数据添加分类标签。

因此，本发明的历史数据异常分析方法通过步骤S100采用Spark Streaming实时缓存计算数据，通过步骤S200实现历史数据落地，并通过步骤S300以Spark job形式循环拉取规则配置平台配置的规则在Spark SQL上执行，提取异常数据，最后通过步骤S400实现对落地的历史数据进行风险标记，从而基于Spark实现历史数据异常分析。

如图2所示，本发明实施例还提供一种历史数据异常分析系统，用于实现所述的历史数据异常分析方法，所述系统包括：

数据采集模块M100，用于采用Spark Streaming拉取待分析的历史数据至数据缓存；

数据落地模块M200，用于将待分析的历史数据存储至数据库；

集群执行模块M300，用于执行各个Spark任务集群，各个所述Spark任务集群执行绑定的各个规则，根据绑定的各个规则从所述数据缓存中拉取和处理待分析的历史数据，并为处理后的历史数据添加分类标签；

标签落地模块M400，用于根据处理后的历史数据的分类标签对所述数据库中的历史数据添加分类标签。

因此，本发明的历史数据异常分析系统通过数据采集模块M100采用SparkStreaming实时缓存计算数据，通过数据落地模块M200实现历史数据落地，并通过集群执行模块M300以Spark job形式循环拉取规则配置平台配置的规则在Spark SQL上执行，提取异常数据，最后通过标签落地模块M400实现对落地的历史数据进行风险标记，从而基于Spark实现历史数据异常分析。

在该实施例中，所述采用Spark Streaming拉取待分析的历史数据至数据缓存中，采用Spark Streaming从Kafka消息队列中拉取待分析的历史数据。kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。通过Spark Streaming可以批处理消费日志队列信息，并且可以依时间数据归类，并对之前小时数据进行文件碎片合并。

在该实施例中，所述拉取待分析的历史数据至数据缓存中，拉取待分析的历史数据至Alluxio数据缓存。Alluxio是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行可靠的共享，Alluxio都是在内存中处理缓存文件，并且让不同的任务或请求以及框架都能内存的速度来访问缓存文件。如图3所示，即为该实施例中Alluxio数据缓存的管理界面的示意图。

在该实施例中，所述各个所述Spark任务集群执行绑定的各个规则，包括如下步骤：

如图4所示，为该实施例中的规则配置平台的管理界面的示意图。在规则配置平台的管理界面中可以新建、删除和修改各个规则，可以配置规则绑定的任务集群的ID，并且可以进一步配置各个规则的参数，例如数据集时间范围、调度皱起、运行模式等等。通过运行模式的选择也可以实现A/B测试。在规则执行过程中，也可以查看规则运行日志，规则运行日志的查看界面如图6所示。现有技术中如果添加一条新的统计规则，需要按照标准的发布流程进行，战线太长，且受到MySQL性能约束，不能横向扩展。因此，本发明可以实现对规则的灵活配置，并且在规则更新或新建新的规则时，无需重新经过复杂的分布流程，更新十分便捷，在规则与任务集群的绑定关系有变化时，只需要简单的配置即可，配置完成即实时发布。该实施例的历史数据异常方法，相比于现有技术中的方法，规则执行效率高，服务易扩展，通过模块化开发实现低耦合。

在实际应用中，本发明所运行的各个规则是预先设定好的。例如，对于登录来说，设定从数据缓存中抽取近10小时内的登录数据，判断是否存在一个IP地址对应多个用户名的情况，且一个IP地址对应的用户名的数量大于预设阈值，则确定相关数据为异常数据。或者，判断是否存在一个IP地址多次登录失败的情况，且一个IP地址对应的登录失败的次数大于预设阈值，则确定相关数据为异常数据。对于领取优惠券来说，设定从数据缓存中抽取近三天的登录数据，判断是否存在一个用户名领取多次优惠券的情况，如果次数超过预设阈值则相关数据为异常数据等等。

在该实施例中，所述执行各个Spark任务集群，包括根据预设的Spark任务集群执行策略和执行顺序，执行各个所述Spark任务集群，所述Spark任务集群执行策略包括并行执行和串行执行。

所述历史数据异常分析方法还包括如下步骤：

因此，该实施例可以灵活配置各个Spark任务集群，任务集群中所涉及的规则有变化时，只需要更改任务集群和规则的绑定配置即可。因此，本发明可以支持规则和任务集群的实时添加和更新，解决了SQL执行的性能和扩展性问题，提高了规则计算速度，提高了数据统计分析效率，数据计算从分钟级提高到秒级。

如图5所示，为该实施例中的Spark任务集群配置平台的管理界面的示意图。集群配置平台可以新建、删除和修改任务集群，配置任务集群配置的规则的ID、集群的使用状态。在执行Spark任务集群时，可以依次串行执行各个Spark任务集群，也可以并行执行多个Spark任务集群。在执行一个Spark任务集群时，其中的各个规则可以依次抽取并执行，各个规则的执行顺序可以预先设置。此外，各个任务集群可以绑定的规则的数量也可以进行配置，对于执行复杂的任务集群，可以设定较多的规则绑定数量，对于执行简单的任务集群，可以设定较少的规则绑定数量。

在该实施例中，所述分类标签包括异常标签和非异常标签，所述为处理后的历史数据添加分类标签之后，还包括如下步骤：

从所述处理后的历史数据中抽取添加了异常标签的异常数据，确定所述异常数据中的异常维度，将所述异常维度存储于数据库中。例如，对于一个IP地址存在多个用户名的情况，可以将该异常的IP地址作为异常维度，一个用户名多次登录失败的情况，可以将该异常的用户名作为异常维度。

在该实施例中，所述从所述处理后的历史数据中抽取异常数据之后，还包括如下步骤：

在该实施例中，所述各个所述Spark任务集群执行绑定的各个规则，还包括如下步骤：

所述Spark任务集群判断绑定的规则是否存在多个版本；

因此，通过配置规则的A/B属性，以及源数据多标签的方式，对同一份源数据分离业务逻辑。

该实施例中，使用Spark Streaming实时缓存待处理的历史数据到Alluxio(内存型数据结构)，并以Spark Job形式循环拉取规则配置平台在Spark SQL上执行，最后提取异常数据。处理结果可以统一输出到消息中间件Kafka进行异常数据提取，并且通过对数据库中的数据添加标签实现标签落地化。数据库可以采用Hive(Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行)等。数据库中存储的历史数据都是经过标记后的数据，方便后续快速回溯查询。

本发明实施例还提供一种历史数据异常分析设备，包括处理器；存储器，其中存储有所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行所述的历史数据异常分析方法的步骤。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

因此，本发明的历史数据异常分析设备运行时，采用Spark Streaming实时缓存计算数据，实现历史数据落地，并以Spark job形式循环拉取规则配置平台配置的规则在Spark SQL上执行，提取异常数据，最后实现对落地的历史数据进行风险标记，从而基于Spark实现历史数据异常分析。

下面参照图7来描述根据本发明的这种实施方式的电子设备600。图7显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现所述的历史数据异常分析方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种历史数据异常分析方法，其特征在于，包括如下步骤：

采用Spark Streaming拉取待分析的历史数据至数据缓存；

将待分析的历史数据存储至数据库；

2.根据权利要求1所述的历史数据异常分析方法，其特征在于，所述采用SparkStreaming拉取待分析的历史数据至数据缓存中，采用Spark Streaming从Kafka消息队列中拉取待分析的历史数据。

3.根据权利要求1所述的历史数据异常分析方法，其特征在于，所述拉取待分析的历史数据至数据缓存中，拉取待分析的历史数据至Alluxio数据缓存。

4.根据权利要求1所述的历史数据异常分析方法，其特征在于，所述各个所述Spark任务集群执行绑定的各个规则，包括如下步骤：

5.根据权利要求1所述的历史数据异常分析方法，其特征在于，所述执行各个Spark任务集群，包括根据预设的Spark任务集群执行策略和执行顺序，执行各个所述Spark任务集群，所述Spark任务集群执行策略包括并行执行和串行执行。

6.根据权利要求1所述的历史数据异常分析方法，其特征在于，所述方法还包括如下步骤：

7.根据权利要求1所述的历史数据异常分析方法，其特征在于，所述分类标签包括异常标签和非异常标签，所述为处理后的历史数据添加分类标签之后，还包括如下步骤：

8.根据权利要求7所述的历史数据异常分析方法，其特征在于，所述从所述处理后的历史数据中抽取异常数据之后，还包括如下步骤：

9.根据权利要求1所述的历史数据异常分析方法，其特征在于，所述各个所述Spark任务集群执行绑定的各个规则，还包括如下步骤：

所述Spark任务集群判断绑定的规则是否存在多个版本；

10.一种历史数据异常分析系统，其特征在于，用于实现权利要求1至9中任一项所述的历史数据异常分析方法，所述系统包括：

数据落地模块，用于将待分析的历史数据存储至数据库；

11.一种历史数据异常分析设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任一项所述的历史数据异常分析方法的步骤。

12.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现权利要求1至9中任一项所述的历史数据异常分析方法的步骤。