CN110855625A

CN110855625A - 基于流式处理的异常分析方法、装置及存储介质

Info

Publication number: CN110855625A
Application number: CN201910992790.9A
Authority: CN
Inventors: 韩敏
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-28

Abstract

本公开提供一种基于流式处理的异常分析方法、装置及存储介质，涉及数据处理技术领域。本公开实施例中，通过基于流式处理获取上一周期内的日志数据，并将日志数据转换为RDD，可以及时获取信息系统中的实时数据流；将RDD中的日志数据集与预设关联规则进行匹配，确定与日志数据集匹配的关联规则，并根据与日志数据集匹配的关联规则，确定日志数据集是否存在异常，可以实现基于所获取的RDD判断所获取的信息系统中的实时数据流是否异常，从而可以保证能够根据实时数据流的异常分析结果，及时对信息系统内部的各种潜在威胁数据进行关联分析，进而提高关联分析的时效性。

Description

基于流式处理的异常分析方法、装置及存储介质

技术领域

本公开涉及数据处理技术领域。具体而言，涉及一种基于流式处理的异常分析方法、装置及存储介质。

背景技术

随着互联网技术的发展，各类信息安全问题也层出不穷。例如，企业或单位的信息系统建设过程中，信息系统产生的数据中经常存在一些隐藏在其中的有关联的安全威胁，如：木马攻击、水坑攻击、钓鱼攻击、高级持续性威胁(Advanced Persistent Threat，APT)攻击等，而仅仅依靠信息安全管理员进行数据分析往往无法发现这些隐藏安全威胁，导致信息系统存在安全隐患。

现有技术中，通常采用基于规则模型的关联分析技术，对信息系统内部的各种潜在威胁数据进行关联分析，从而发现潜在的安全威胁。基于规则模型的关联分析技术中，首先可以将目前的各种网络攻击行为的各种特征抽取出来形成关联规则特征描述库，然后可以基于关联规则特征描述库将一次完整的网络攻击从开始到结束整个过程的特征构建得到规则模型。该规则模型中包含有关联分析规则，通过对原始流量日志数据进行离线计算，并将计算结果与该规则模型中的关联分析规则进行匹配，从而可以发现原始流量日志数据中潜在的安全威胁。

但是，采用上述现有的基于规则模型的关联分析技术对信息系统内部的各种潜在威胁数据进行关联分析的方式，是基于离线计算任务进行关联分析，无法及时发现信息系统建设过程中产生的数据中的安全威胁，关联分析的时效性较差。

发明内容

本公开的目的在于，提供一种基于流式处理的异常分析方法、装置及存储介质，用于解决现有技术中无法及时发现信息系统建设过程中产生的数据中的安全威胁，关联分析的时效性较差的问题。

本公开实施例所采用的技术方案如下：

第一方面，本公开实施例提供一种基于流式处理的异常分析方法，包括：

基于流式处理，获取上一周期内的日志数据，并将日志数据转换为弹性分布式数据集RDD；RDD中包含至少一类归一化后的日志数据集；

将RDD中的日志数据集与预设关联规则进行匹配，确定与日志数据集匹配的关联规则；

根据与日志数据集匹配的关联规则，确定日志数据集是否存在异常。

可选地，上述将RDD中的日志数据集与预设关联规则进行匹配，确定与日志数据集匹配的关联规则，包括：

提取RDD中的日志数据集的特征信息；

判断预设关联规则中是否存在与特征信息匹配的目标关联规则；

若存在与特征信息匹配的目标关联规则，则确定目标关联规则为与日志数据集匹配的关联规则。

可选地，该异常分析方法还包括：

若不存在与特征信息匹配的目标关联规则，则将日志数据集丢弃。

可选地，与日志数据集匹配的关联规则包含下述至少一个判断条件：日志数据集中的网络攻击次数是否大于预设阈值、日志数据集中的网络攻击类型是否符合预设类型、日志数据集中的网络攻击的源互联网协议地址IP是否为外网区域、日志数据集中的网络攻击的目的IP是否为内网主机、日志数据集中的网络攻击是否成功；上述根据与日志数据集匹配的关联规则，确定日志数据集是否存在异常，包括：

采用预设算法，依次判断日志数据集是否符合每个判断条件；

若日志数据集符合每个判断条件，则确定日志数据集存在异常。

可选地，该异常分析方法还包括：

若确定日志数据集存在异常，则按照预设规则对日志数据集所属的RDD对应的上一周期内的日志数据进行关联分析。

可选地，该异常分析方法还包括：

若确定日志数据集存在异常，则根据存在异常的日志数据集，生成告警信息；告警信息包括下述至少一种：存在异常的日志数据集、日志数据集所属的RDD、RDD对应的上一周期内的日志数据。

第二方面，本公开实施例提供一种基于流式处理的异常分析装置，包括：

获取模块，用于基于流式处理，获取上一周期内的日志数据，并将日志数据转换为弹性分布式数据集RDD；RDD中包含至少一类归一化后的日志数据集；匹配模块，用于将RDD中的日志数据集与预设关联规则进行匹配，确定与日志数据集匹配的关联规则；异常确定模块，用于根据与日志数据集匹配的关联规则，确定日志数据集是否存在异常。

可选地，上述获取模块包括：获取子模块，用于基于流式处理，获取上一周期内的日志数据；转换子模块，用于将上一周期内的日志数据转换为RDD。

可选地，上述匹配模块包括：提取子模块，用于提取RDD中的日志数据集的特征信息；判断子模块，用于判断预设关联规则中是否存在与特征信息匹配的目标关联规则；匹配子模块，用于若存在与特征信息匹配的目标关联规则，则确定目标关联规则为与日志数据集匹配的关联规则。

可选地，上述匹配子模块，还用于若不存在与特征信息匹配的目标关联规则，则将日志数据集丢弃。

可选地，与日志数据集匹配的关联规则包含下述至少一个判断条件：日志数据集中的网络攻击次数是否大于预设阈值、日志数据集中的网络攻击类型是否符合预设类型、日志数据集中的网络攻击的源互联网协议地址IP是否为外网区域、日志数据集中的网络攻击的目的IP是否为内网主机、日志数据集中的网络攻击是否成功；上述异常确定模块，具体用于采用预设算法，依次判断日志数据集是否符合每个判断条件；若日志数据集符合每个判断条件，则确定日志数据集存在异常。

可选地，该异常分析装置还包括：关联分析模块；关联分析模块用于若异常确定模块确定日志数据集存在异常，则按照预设规则对日志数据集所属的RDD对应的上一周期内的日志数据进行关联分析。

可选地，该异常分析装置还包括：告警模块；告警模块用于若异常确定模块确定日志数据集存在异常，则根据存在异常的日志数据集，生成告警信息；告警信息包括下述至少一种：存在异常的日志数据集、日志数据集所属的RDD、RDD对应的上一周期内的日志数据。

第三方面，本公开实施例还提供一种电子设备，包括：处理器、存储介质和总线，存储介质存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行如第一方面所述的方法。

第四方面，本公开实施例还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行如第一方面所述的方法。

本公开的有益效果是：

本公开实施例通过基于流式处理获取上一周期内的日志数据，并将日志数据转换为RDD，可以及时获取信息系统中的实时数据流；将RDD中的日志数据集与预设关联规则进行匹配，确定与日志数据集匹配的关联规则，并根据与日志数据集匹配的关联规则，确定日志数据集是否存在异常，可以实现基于所获取的RDD判断所获取的信息系统中的实时数据流是否异常，从而可以保证能够根据实时数据流的异常分析结果，及时对信息系统内部的各种潜在威胁数据进行关联分析，进而提高关联分析的时效性。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例提供的基于流式处理的异常分析方法的流程示意图；

图2示出了本公开实施例提供的基于流式处理的异常分析方法的另一流程示意图；

图3示出了本公开实施例提供的日志数据的获取示意图；

图4示出了本公开实施例提供的日志数据的转换示意图；

图5示出了本公开实施例提供的基于流式处理的异常分析方法的又一流程示意图；

图6示出了本公开实施例提供的基于流式处理的异常分析方法的又一流程示意图；

图7示出了本公开实施例提供的基于流式处理的异常分析装置的结构示意图；

图8示出了本公开实施例提供的获取模块的结构示意图；

图9示出了本公开实施例提供的匹配模块的结构示意图；

图10示出了本公开实施例提供的基于流式处理的异常分析装置的另一结构示意图；

图11示出了本公开实施例提供的基于流式处理的异常分析装置的又一结构示意图；

图12示出了本公开实施例提供的电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本公开实施例提供一种基于流式处理的异常分析方法，可以应用于企业或单位的信息系统建设过程中，对信息系统中产生的数据进行异常分析，通过该异常分析方法可以及时发现数据中包含有木马攻击、水坑攻击、钓鱼攻击、高级持续性威胁(AdvancedPersistent Threat，APT)攻击等网络攻击的异常数据，减少信息系统存在的安全隐患。

可选地，该基于流式处理的异常分析方法的执行主体可以是单独部署、且能够获取信息系统中的数据进行分析的服务器或计算机等具有数据处理能力的设备，也可以是部署于信息系统中的数据管理服务器、处理器、控制芯片等，本公开在此不作限定。

图1示出了本公开实施例提供的基于流式处理的异常分析方法的流程示意图。

如图1所示，该基于流式处理的异常分析方法，可以包括：

S101、基于流式处理，获取上一周期内的日志数据，并将日志数据转换为弹性分布式数据集(Resilient Distributed Datasets，RDD)。

可选地，流式处理是指该异常分析方法可以基于流式计算引擎(SparkStreaming)框架而实现，即，该基于流式处理的异常分析方法中，可以使用Spark计算引擎进行任务运行。

SparkStreaming框架可以支持实时数据流的处理，并且具有可扩展，高吞吐量，容错的特点。SparkStreaming框架处理的数据的数据源可以是卡夫卡(Kafka)服务组件、水槽(Flume)服务组件、动作(Kinesis)服务组件或传输控制协议套接字(TransmissionControl ProtocolTCP sockets)服务组件等。也即，SparkStreaming框架可以通过Kafka服务组件、Flume服务组件、Kinesis服务组件或TCP sockets服务组件中的任一种获取信息系统中的日志数据。SparkStreaming框架中可以设有map，reduce，join和window等高级函数表示的预设算法，可以采用预设算法对获取到的数据进行处理，处理后的数据可以存储到信息系统的数据库、或推送到信息系统的文件存储系统中进行存储。

可选地，本公开实施例中可以周期性地采集日志数据，一个周期的时间可以预先配置好，例如可以是1秒(S)、3S、5S、8S等预先设置的时间长度，用户(如：信息系统管理员)可以根据需要对周期的时间长度进行设定。

本公开为了保证日志数据采集的实时性，在每一周期结束后，采集这个周期的日志数据。即采集上一周期的日志数据，也就是离当前时间最近一段时间的日志数据。

可以基于SparkStreaming框架获取上一周期内的日志数据。例如，可以基于SparkStreaming框架从日志数据流中实时获取t时长(t为周期时长)内的日志数据。

在获取到上一周期的日志数据后，可以将上一周期内的日志数据转换为RDD。其中，RDD可以提供一种高度受限的共享内存，即RDD是只读的记录分区的集合，只能通过在其他RDD上的批量操作进行创建。RDD可以运行于内存中，可以使得实现容错的开销较低。

图2示出了本公开实施例提供的基于流式处理的异常分析方法的另一流程示意图。

可选地，如图2所示，上述基于流式处理，获取上一周期内的日志数据，并将日志数据转换为RDD，可以包括：

S201、基于流式处理，获取上一周期内的日志数据。

例如，若需要判断t时长内的日志数据中网络攻击的总次数，则可以将周期时长设置为t，并获取t时长内的日志数据。

以t为3S为例，可以基于SparkStreaming技术中“滑动窗口“的方式实现流式获取离当前最近3S内的连续日志数据。

图3示出了本公开实施例提供的日志数据的获取示意图，如图3所示：

若图3中每个时间(time)对应的日志数据所在段的时间间隔为1S，则需要获取第3秒至第5秒(time3、time4、time5)内的日志数据时，可以设定滑动间隔为2S，窗口大小为3S，基于Spark可以计算指定时间的总数，从而获取到第3秒至第5秒内的日志数据。

S202、将上一周期内的日志数据转换为RDD。

如上所述，在获取到上一周期内的日志数据后，可以将所获取的日志数据转化为RDD，以使得Spark组件可以识别并对其进行后续处理。图4示出了本公开实施例提供的日志数据的转换示意图，如图4所示：

采集器(实质为执行时可以读取日志数据的应用程序)读取信息系统中的日志数据进行适配后，日志数据可以进入kafka服务组件，Spark组件(实质为流式处理程序)可以从kafka服务组件获取日志数据，并按照一个周期的时间长度t将日志数据拆分成连续的多段。对于每段日志数据，可以将其转换成Spark组件可以识别的RDD，如RDD可以包括：RDD@time1(0-t)、RDD@time2(t-2t)、RDD@time3(2t-3t)等。若从0开始，当前时刻为t，则所获取的上一周期的日志数据转换后所得的RDD为RDD@time1(0-t)；若当前时刻为2t，则所获取的上一周期的日志数据转换后所得的RDD为RDD@time2(t-2t)；若当前时刻为3t，则所获取的上一周期的日志数据转换后所得的RDD为RDD@time3(2t-3t)。

可选地，RDD中可以包含至少一类归一化后的日志数据集。归一化后的数据集是指该类数据集中仅包含一类日志数据。例如，某个RDD中可以包含三类归一化后的日志数据集，三类日志数据集可以分别如下所示：

1)10.10.10.1对内网主机192.168.1.1发起了3次暴力破解攻击；

2)192.168.1.2主机发生了20吉字节(Gigabyte，GB)下行异常流量，外联域名gk.cn；

3)内网waf防火墙遭受了跨站脚本攻击。

S102、将RDD中的日志数据集与预设关联规则进行匹配，确定与日志数据集匹配的关联规则。

可选地，预设关联规则可以包括预先根据不同类型的日志数据集所设定的多组不同的关联规则。例如，预设关联规则可以包括上一周期内发生暴力破解攻击的次数类型的日志数据集对应的关联规则、上一周期内下行异常流量的大小类型的日志数据集对应的关联规则等，本公开在此不作限制。

假设某个RDD中存在日志数据集：A、B、C；预设关联规则包括：a、b、c、d；其中，a为预先根据A类型的日志数据集所设定的关联规则、b为预先根据B类型的日志数据集所设定的关联规则、c为预先根据C类型的日志数据集所设定的关联规则；则，将该RDD中的日志数据集与预设关联规则匹配得到的结果为：日志数据集A匹配的关联规则为a；日志数据集B匹配的关联规则为b；日志数据集C匹配的关联规则为c。

S103、根据与日志数据集匹配的关联规则，确定日志数据集是否存在异常。

可选地，在匹配到RDD中的各日志数据集对应的关联规则后，可以根据与日志数据集匹配的关联规则，判断相应的日志数据集是否存在异常。例如，若日志数据集Q中记录为“内网发生了13次漏洞利用攻击”，与日志数据及Q匹配的关联规则为“上一周期(如：5S)内，内网发生漏洞利用攻击的次数大于10次的日志数据集存在异常”，则可以确定日志数据Q存在异常。

由上所述，本公开实施例通过基于流式处理获取上一周期内的日志数据，并将日志数据转换为RDD，可以及时获取信息系统中的实时数据流；将RDD中的日志数据集与预设关联规则进行匹配，确定与日志数据集匹配的关联规则，并根据与日志数据集匹配的关联规则，确定日志数据集是否存在异常，可以实现基于所获取的RDD判断所获取的信息系统中的实时数据流是否异常，从而可以保证能够根据实时数据流的异常分析结果，及时对信息系统内部的各种潜在威胁数据进行关联分析，进而提高关联分析的时效性。

图5示出了本公开实施例提供的基于流式处理的异常分析方法的又一流程示意图。

可选地，如图5所示，上述将RDD中的日志数据集与预设关联规则进行匹配，确定与日志数据集匹配的关联规则，可以包括：

S501、提取RDD中的日志数据集的特征信息。

可选地，特征信息可以包括：日志数据集的类型名称、日志数据集的类型标识等，每种类型的日志数据集均可以具有唯一的特征信息。例如，前述实施例中所述的三类日志数据集中，“1)10.10.10.1对内网主机192.168.1.1发起了3次暴力破解攻击”对应的特征信息可以是“暴力破解攻击类型”、“2)192.168.1.2主机发生了20吉字节(Gigabyte，GB)下行异常流量，外联域名gk.cn”对应的特征信息可以是“下行流量异常类型”等。需要说明的是，对于可以唯一表示日志数据集的特征信息的具体类型，本公开在此不作限定。

S502、判断预设关联规则中是否存在与特征信息匹配的目标关联规则。

S503、若存在与特征信息匹配的目标关联规则，则确定目标关联规则为与日志数据集匹配的关联规则。

可选地，对于每一类日志数据集，都可以根据其所对应的特征信息，为其匹配到相应的目标关联规则。预先设置关联规则时，可以为不同类型的日志数据集设计特定的关联规则，以保证根据特征信息为日志数据集匹配目标关联规则时，不会重复匹配。

S504、若不存在与特征信息匹配的目标关联规则，则将日志数据集丢弃。

可选地，若存在某个日志数据集，无法为其匹配到目标关联规则，也即，预设关联规则中可能不存在与该日志数据集的特征信息对应的目标关联规则，则可以将该日志数据集直接丢弃或忽略，无需对该日志数据集的异常结果进行分析判断，以提高整体的异常分析效率。

可选地，与日志数据集匹配的关联规则包含下述至少一个判断条件：日志数据集中的网络攻击次数是否大于预设阈值、日志数据集中的网络攻击类型是否符合预设类型、日志数据集中的网络攻击的源互联网协议地址IP是否为外网区域、日志数据集中的网络攻击的目的IP是否为内网主机、日志数据集中的网络攻击是否成功。

其中，预设阈值可以是5次、10次、14次等预先设定的值，例如，可以参考信息系统的历史数据中造成信息系统瘫痪、故障等的异常数据中，所包含的网络攻击次数对预设阈值的大小进行设置，或者也可以由人为分析当网络攻击次数达到某个值时可能对信息系统造成影响而将该值设置为预设阈值等，本公开对此亦不作限定。

图6示出了本公开实施例提供的基于流式处理的异常分析方法的又一流程示意图，如图6所示，上述根据与日志数据集匹配的关联规则，确定日志数据集是否存在异常，可以包括：

S601、采用预设算法，依次判断日志数据集是否符合每个判断条件。

可选地，预设算法可以是采用逆波兰式算法判断日志数据集是否符合每个判断条件。其中，在逆波兰式中，所有操作符置于操作数的后面，也即，逆波兰式为后缀表示法。

如下所示，表1为普通的中缀表示算法，表2为逆波兰式算法：

表1

中缀表示
	a+b
a+(b-c)
	a+(b-c)*d
a+d*(b-c)
	a＝1+3

表2

中缀表示
	a,b,+
a,b,c,-,+
	a,b,c,-,d,*,+
a,d,b,c,-,*,+
	a＝1,3+

逆波兰式算法可以将表1中所示的复杂表达式转换表2中所示的可以依靠简单的操作得到计算结果的表达式，通过简单的入栈和出栈操作即可实现。

S602、若日志数据集符合每个判断条件，则确定日志数据集存在异常。

可选地，可以基于关联规则中包含的所有判断条件，对与该关联规则匹配的日志数据集进行判断，若日志数据集符合每个判断条件，则可以确定该日志数据集存在异常。

例如，若上一周期为5S，日志数据集为：“发生了15次漏洞利用攻击、源IP的区域属于外网区域、目的IP的区域为内部服务器、内部服务器主动对内网其他主机发起了攻击。”该日志数据及对应的关联规则为：“日志数据集中的网络攻击次数是否大于10次、日志数据集中的网络攻击类型是否为漏洞利用攻击、日志数据集中的网络攻击的源IP是否为外网区域、日志数据集中的网络攻击的目的IP是否为内部服务器、日志数据集中的网络攻击是否成功。”则可以得知，该日志数据集符合匹配的关联规则中的每个判断条件，从而可以确定该日志数据集存在异常。

可选地，本公开实施例中，可以将日志数据集作为结果集的输入，将关联规则作为结构化查询语言(Structured Query Language，SQL)的判断条件，从而可以拼凑出最终需要执行的SQL语句。也即，可以基于Spark Streaming框架直接执行SQL语句，从而可以提高异常分析的效率。其中，SQL的灵活性可以方便用户(如：信息系统安全员)灵活定制关联规则或对关联规则进行更改或调整。

可选地，该基于流式处理的异常分析方法，还可以包括：若确定日志数据集存在异常，则按照预设规则对日志数据集所属的RDD对应的上一周期内的日志数据进行关联分析。

例如，可以根据日志数据集所属的RDD对应的上一周期内的日志数据，确定其所对应的业务系统，并对该业务系统的业务数据进行排查，以确定异常数据出现的原因、异常数据的源头等，从而可以排除信息系统存在的安全隐患，排除隐藏安全威胁。

可选地，该基于流式处理的异常分析方法，还可以包括：若确定日志数据集存在异常，则根据存在异常的日志数据集，生成告警信息；告警信息包括下述至少一种：存在异常的日志数据集、日志数据集所属的RDD、RDD对应的上一周期内的日志数据。

上述告警信息可以发送给信息系统的信息系统安全员，如可以通过计算机、手机等终端设备呈现给信息系统安全员。基于上述告警信息可以及时提醒信息系统安全员信息系统所在的网络中存在潜在安全威胁，信息系统安全员可以基于告警信息中包含的存在异常的日志数据集、日志数据集所属的RDD、或RDD对应的上一周期内的日志数据，确定异常数据所在的业务系统，从而可以实现对安全隐患的排除。

基于前述实施例中所述的基于流式处理的异常分析方法，本公开实施例还提供一种基于流式处理的异常分析装置，图7示出了本公开实施例提供的基于流式处理的异常分析装置的结构示意图。

如图7所示，该基于流式处理的异常分析装置可以包括：获取模块10、匹配模块20和异常确定模块30。获取模块10用于基于流式处理，获取上一周期内的日志数据，并将日志数据转换为RDD；RDD中包含至少一类归一化后的日志数据集。匹配模块20用于将RDD中的日志数据集与预设关联规则进行匹配，确定与日志数据集匹配的关联规则。异常确定模块30用于根据与日志数据集匹配的关联规则，确定日志数据集是否存在异常。

图8示出了本公开实施例提供的获取模块的结构示意图。

可选地，如图8所示，上述获取模块10可以包括：获取子模块11和转换子模块12。获取子模块11用于基于流式处理，获取上一周期内的日志数据。转换子模块12用于将上一周期内的日志数据转换为RDD。

图9示出了本公开实施例提供的匹配模块的结构示意图。

可选地，如图9所示，上述匹配模块20可以包括：提取子模块21、判断子模块22和匹配子模块23。提取子模块21用于提取RDD中的日志数据集的特征信息。判断子模块22用于判断预设关联规则中是否存在与特征信息匹配的目标关联规则。匹配子模块23用于若存在与特征信息匹配的目标关联规则，则确定目标关联规则为与日志数据集匹配的关联规则。

可选地，上述匹配子模块23还用于若不存在与特征信息匹配的目标关联规则，则将日志数据集丢弃。

可选地，与日志数据集匹配的关联规则包含下述至少一个判断条件：日志数据集中的网络攻击次数是否大于预设阈值、日志数据集中的网络攻击类型是否符合预设类型、日志数据集中的网络攻击的源互联网协议地址IP是否为外网区域、日志数据集中的网络攻击的目的IP是否为内网主机、日志数据集中的网络攻击是否成功。上述异常确定模块30具体可以用于采用预设算法，依次判断日志数据集是否符合每个判断条件；若日志数据集符合每个判断条件，则确定日志数据集存在异常。

图10示出了本公开实施例提供的基于流式处理的异常分析装置的另一结构示意图。

可选地，如图10所示，该异常分析装置还可以包括：关联分析模块40；关联分析模块40用于若异常确定模块30确定日志数据集存在异常，则按照预设规则对日志数据集所属的RDD对应的上一周期内的日志数据进行关联分析。

图11示出了本公开实施例提供的基于流式处理的异常分析装置的又一结构示意图。

可选地，如图11所示，该异常分析装置还可以包括：告警模块50；告警模块50用于若异常确定模块30确定日志数据集存在异常，则根据存在异常的日志数据集，生成告警信息。告警信息可以包括下述至少一种：存在异常的日志数据集、日志数据集所属的RDD、RDD对应的上一周期内的日志数据。

本公开实施例还提供一种电子设备，该电子设备可以是企业或单位的信息系统的数据管理服务器、计算机等具有数据处理能力的设备，本公开在此不作限定。

图12示出了本公开实施例提供的电子设备的结构示意图。

如图12所示，该电子设备可以包括：处理器100、存储介质200和总线(未标出)，存储介质200存储有处理器100可执行的机器可读指令，当电子设备运行时，处理器100与存储介质200之间通过总线通信，处理器100执行机器可读指令，以执行如前述方法实施例中所述的基于流式处理的异常分析方法。具体实现方式和技术效果类似，在此不再赘述。

本公开实施例还提供一种存储介质，该存储介质可以是U盘、移动硬盘、ROM、RAM、磁碟或者光盘等。存储介质上存储有计算机程序，计算机程序被处理器运行时执行如前述方法实施例中所述的基于流式处理的异常分析方法。具体实现方式和技术效果类似，在此同样不再赘述。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于流式处理的异常分析方法，其特征在于，包括：

基于流式处理，获取上一周期内的日志数据，并将所述日志数据转换为弹性分布式数据集RDD；所述RDD中包含至少一类归一化后的日志数据集；

将所述RDD中的日志数据集与预设关联规则进行匹配，确定与所述日志数据集匹配的关联规则；

根据与所述日志数据集匹配的关联规则，确定所述日志数据集是否存在异常。

2.根据权利要求1所述的方法，其特征在于，所述将所述RDD中的日志数据集与预设关联规则进行匹配，确定与所述日志数据集匹配的关联规则，包括：

提取所述RDD中的日志数据集的特征信息；

判断预设关联规则中是否存在与所述特征信息匹配的目标关联规则；

若存在与所述特征信息匹配的目标关联规则，则确定所述目标关联规则为与所述日志数据集匹配的关联规则。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

若不存在与所述特征信息匹配的目标关联规则，则将所述日志数据集丢弃。

4.根据权利要求1所述的方法，其特征在于，所述与所述日志数据集匹配的关联规则包含下述至少一个判断条件：日志数据集中的网络攻击次数是否大于预设阈值、日志数据集中的网络攻击类型是否符合预设类型、日志数据集中的网络攻击的源互联网协议地址IP是否为外网区域、日志数据集中的网络攻击的目的IP是否为内网主机、日志数据集中的网络攻击是否成功；

所述根据与所述日志数据集匹配的关联规则，确定所述日志数据集是否存在异常，包括：

采用预设算法，依次判断所述日志数据集是否符合每个所述判断条件；

若所述日志数据集符合每个所述判断条件，则确定所述日志数据集存在异常。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

若确定所述日志数据集存在异常，则按照预设规则对所述日志数据集所属的所述RDD对应的所述上一周期内的日志数据进行关联分析。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

若确定所述日志数据集存在异常，则根据存在异常的所述日志数据集，生成告警信息；

所述告警信息包括下述至少一种：存在异常的所述日志数据集、所述日志数据集所属的RDD、所述RDD对应的上一周期内的日志数据。

7.一种基于流式处理的异常分析装置，其特征在于，包括：

获取模块，用于基于流式处理，获取上一周期内的日志数据，并将所述日志数据转换为弹性分布式数据集RDD；所述RDD中包含至少一类归一化后的日志数据集；

匹配模块，用于将所述RDD中的日志数据集与预设关联规则进行匹配，确定与所述日志数据集匹配的关联规则；

异常确定模块，用于根据与所述日志数据集匹配的关联规则，确定所述日志数据集是否存在异常。

8.根据权利要求7所述的装置，其特征在于，所述匹配模块包括：

提取子模块，用于提取所述RDD中的日志数据集的特征信息；

判断子模块，用于判断预设关联规则中是否存在与所述特征信息匹配的目标关联规则；

匹配子模块，用于若存在与所述特征信息匹配的目标关联规则，则确定所述目标关联规则为与所述日志数据集匹配的关联规则。

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线；所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过所述总线通信，所述处理器执行机器可读指令，以执行如权利要求1-6任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-6任一项所述的方法。