CN109587125A

CN109587125A - 一种网络安全大数据分析方法、系统及相关装置

Info

Publication number: CN109587125A
Application number: CN201811408283.8A
Authority: CN
Inventors: 陈霖; 明哲; 许爱东; 陈华军; 杨航; 黄文琦; 邓子杰
Original assignee: China Southern Power Grid Co Ltd; Research Institute of Southern Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd; Research Institute of Southern Power Grid Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-04-05
Anticipated expiration: 2038-11-23
Also published as: CN109587125B

Abstract

本申请所提供的一种网络安全大数据分析方法，包括：将内部数据源和外部数据源进行异构信息集成，得到集成数据；利用流式处理算法对集成数据进行实时流式处理，得到流式数据集；利用内部数据源的历史数据及外部数据源的历史数据进行模型训练，得到深度学习模型；将流式数据集输入深度学习模型，得到风险评估结果；对风险评估结果中的各个风险数据进行溯源分析处理，分别建立各个风险数据与内部数据源或外部数据源之间的关联。该方法是利用多源异构数据的历史数据经过模型训练得到的深度学习模型进行风险评估，能够提高发现的风险数据及风险源的准确性。本申请还提供一种网络安全大数据分析系统、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种网络安全大数据分析方法、系统及相关装置

技术领域

本申请涉及网络安全领域，特别涉及一种网络安全大数据分析方法、系统、设备及计算机可读存储介质。

背景技术

目前日志、网络流量等数据用于安全分析的技术已经很成熟，但是，由于保留和分析大量数据所消耗的成本较高，系统日志与主机活动等数据一般保留一段时间后被删除。为实现对网络或云计算平台等系统的全面安全分析，需要从全局的角度获取安全分析所需数据，包括：网络数据包、日志、资产状态、业务信息、漏洞信息、身份认证与访问信息、用户行为信息、配置信息等，可能还需要来自互联网的外部情报信息等数据。这些数据产生的速度越来越快，且数据类型涵盖结构化、半结构化和非结构化，呈现出大数据的特点。相关技术中，利用传统机器学习方法对多源异构数据进行分析，由于传统机器学习方法针对所有的数据都是统一的分析模式，对于不同的数据不具有针对性，导致发现的风险数据及风险源准确性不高。

因此，如何有针对性地对多源异构数据进行实时性深入分析，进而提高发现的风险数据及风险源的准确性是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的是提供一种网络安全大数据分析方法、系统、设备及计算机可读存储介质，能够有针对性地对多源异构数据进行实时性深入分析，进而提高发现的风险数据及风险源的准确性。

为解决上述技术问题，本申请提供一种网络安全大数据分析方法，包括：

将内部数据源和外部数据源进行异构信息集成，得到集成数据；

利用流式处理算法对所述集成数据进行实时流式处理，得到流式数据集；

利用所述内部数据源的历史数据及所述外部数据源的历史数据进行模型训练，得到深度学习模型；

将所述流式数据集输入所述深度学习模型，得到风险评估结果；

对所述风险评估结果中的各个风险数据进行溯源分析处理，分别建立各个所述风险数据与所述内部数据源或所述外部数据源之间的关联。

优选地，所述将内部数据源和外部数据源进行异构信息集成，得到集成数据，包括：

对所述内部数据源和所述外部数据源进行数据抽取处理，得到目标数据；

利用XML技术对所述目标数据进行数据格式转换，得到所述集成数据。

优选地，所述利用流式处理算法对所述集成数据进行实时流式处理，得到流式数据集，包括：

利用Spark Streaming算法和Spark Engine算法对所述集成数据进行实时流式处理，得到所述流式数据集。

优选地，所述分别建立各个所述风险数据与所述内部数据源或所述外部数据源之间的关联之后，还包括：

利用可视化工具以图形化的形式输出各个所述风险数据与对应的内部数据源或外部数据源的所述关联。

本申请还提供一种网络安全大数据分析系统，包括：

异构信息集成模块，用于将内部数据源和外部数据源进行异构信息集成，得到集成数据；

实时流式处理模块，用于利用流式处理算法对所述集成数据进行实时流式处理，得到流式数据集；

模型训练模块，用于利用所述内部数据源的历史数据及所述外部数据源的历史数据进行模型训练，得到深度学习模型；

流式数据集输入模块，用于将所述流式数据集输入所述深度学习模型，得到风险评估结果；

关联建立模块，用于对所述风险评估结果中的各个风险数据进行溯源分析处理，分别建立各个所述风险数据与所述内部数据源或所述外部数据源之间的关联。

优选地，所述异构信息集成模块，包括：

数据抽取单元，用于对所述内部数据源和所述外部数据源进行数据抽取处理，得到目标数据；

数据格式转换单元，用于利用XML技术对所述目标数据进行数据格式转换，得到所述集成数据。

优选地，所述实时流式处理模块，包括：

实时流式处理单元，用于利用Spark Streaming算法和Spark Engine算法对所述集成数据进行实时流式处理，得到所述流式数据集。

优选地，该网络安全大数据分析系统，还包括：

关联输出模块，用于利用可视化工具以图形化的形式输出各个所述风险数据与对应的内部数据源或外部数据源的所述关联。

本申请还提供一种设备，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现上述所述的网络安全大数据分析方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的网络安全大数据分析方法的步骤。

本申请所提供的一种网络安全大数据分析方法，包括：将内部数据源和外部数据源进行异构信息集成，得到集成数据；利用流式处理算法对所述集成数据进行实时流式处理，得到流式数据集；利用所述内部数据源的历史数据及所述外部数据源的历史数据进行模型训练，得到深度学习模型；将所述流式数据集输入所述深度学习模型，得到风险评估结果；对所述风险评估结果中的各个风险数据进行溯源分析处理，分别建立各个所述风险数据与所述内部数据源或所述外部数据源之间的关联。

该方法先是将内部数据源和外部数据源进行异构信息集成，得到集成数据，然后利用流式处理算法对所述集成数据进行实时流式处理，得到流式数据集，再将所述流式数据集输入至利用历史数据进行模型训练得到的深度学习模型，得到风险评估结果，最后对所述风险评估结果中的各个风险数据进行溯源分析处理，分别建立各个所述风险数据与所述内部数据源或所述外部数据源之间的关联。可见，该方法是利用所述内部数据源的历史数据及所述外部数据源的历史数据进行模型训练，得到深度学习模型，再利用该深度学习模型进行风险评估，能够有针对性地对多源异构数据进行实时性深入分析，进而提高发现的风险数据及风险源的准确性。本申请还提供一种网络安全大数据分析系统、设备及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种网络安全大数据分析方法的流程图；

图2为本申请实施例所提供的一种基于XML技术的异构信息集成流程图；

图3为本申请实施例所提供的一种深度学习智能研判分析的流程图；

图4为本申请实施例所提供的一种网络安全大数据分析系统的结构框图。

具体实施方式

本申请的核心是提供一种网络安全大数据分析方法，能够有针对性地对多源异构数据进行实时性深入分析，进而提高发现的风险数据及风险源的准确性。本申请的另一核心是提供一种网络安全大数据分析系统、设备及计算机可读存储介质。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，为了实现对网络或云计算平台等系统的全面安全分析，需要从全局的角度获取安全分析所需数据，包括：网络数据包、日志、资产状态、业务信息、漏洞信息、身份认证与访问信息、用户行为信息、配置信息等，可能还需要来自互联网的外部情报信息等数据。这些数据产生的速度越来越快，且数据类型涵盖结构化、半结构化和非结构化，呈现出大数据的特点。这些多源异构数据中往往存在着风险数据，但是相关技术中是利用传统机器学习方法对多源异构数据进行分析，由于传统机器学习方法针对所有的数据都是统一的分析模式，对于不同的数据不具有针对性，导致发现的风险数据及风险源准确性不高。本申请实施例能够有针对性地对多源异构数据进行实时性深入分析，进而提高发现的风险数据及风险源的准确性，具体请参考图1，图1为本申请实施例所提供的一种网络安全大数据分析方法的流程图，该网络安全大数据分析方法具体包括：

S101、将内部数据源和外部数据源进行异构信息集成，得到集成数据；

本申请实施例对内部数据源和外部数据源进行异构信息集成的目的是为应用提供统一的访问支持。其中，内部数据源和外部数据源统称为多源异构数据。对于内部数据源及外部数据源的内容，在此不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，内部数据源通常包括：网络流量、安全设备日志、系统日志、用户行为信息等；外部数据源通常包括：漏洞信息、威胁情报信息等。为了满足各种应用处理数据的条件，集成后的数据必须保证一定的完整性，包括数据完整性和约束完整性两方面。数据完整性是指完整提取数据本身，约束完整性是指数据与数据之间的关联关系，是唯一表征数据间逻辑的特征，保证约束的完整性是良好的数据发布和交换的前提。对于异构信息集成的方法，在此不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。其中一种方法就是将原有的数据移植到新的数据管理系统中来，为了集成不同类型的数据，必须将一些非传统的数据类型转化成新的数据类型。这种集成方式的缺陷就是数据源的变化，构建的数据管理系统将不断迭代来发。因此，通常不采用该种异构信息集成的方法。另外一种异构信息集成的方法是利用中间件集成异构数据库，该方法并不需要改变原始数据的存储和管理方式。中间件位于异构数据库系统(数据层)和应用程序(应用层)之间，向下协调各数据库系统，向上为访问集成数据的应用提供统一数据模式和数据访问的通用接口。各数据库的应用仍然完成它们的任务，中间件系统则主要集中为异构数据源提供一个高层次检索服务。显然，中间件系统模式是实现异构数据集成较理想的解决方案。

负责集成的中间件系统必须提供一种全局数据模式来统一异构的源数据模式。目前，XML已有多方支持，并且XML的强适应性，使其可以实现对资源的快速包装和集成发布，所以，通过引入了XML技术，将XML技术与全局数据模式相结合可以使异构数据源集成中间件系统能更好地适应于开放、发展环境中的数据集成。XML数据集成的具体目标有：1、使不同格式的数据能够相互交流和转换；2、在进行数据集成的同时不影响原有系统；3、具有良好的可拓展性；4、对用户提供统一的透明的数据接口，不必关心底层的数据结构。

进一步地，对于将内部数据源和外部数据源进行异构信息集成，得到集成数据的过程，不作具体限定，该过程通常包括：对内部数据源和外部数据源进行数据抽取处理，得到目标数据；利用XML技术对目标数据进行数据格式转换，得到集成数据。此外，还可以对集成数据进行集成管理。所以，可参见图2，图2为本申请实施例所提供的一种基于XML技术的异构信息集成流程图，整个基于XML技术的异构信息集成主要由数据源层、数据抽取层、数据转换层和数据仓库层组成。其中，数据源层为各个异构数据源，包括内部数据源和外部数据源；数据抽取层主要采用增量抽取的方法进行数据抽取；数据转换层主要完成数据格式的转换，最后输出XML数据即上述集成数据，而数据仓库层主要实现对于XML数据的集成管理。

S102、利用流式处理算法对集成数据进行实时流式处理，得到流式数据集；

本申请实施例在得到集成数据后，利用流式处理算法对集成数据进行实时流式处理，得到流式数据集。流式计算是实时产生、实时计算，其结果反馈往往也具有及时性的一种数据处理方法。流式数据处理技术可将到来的集成数据在内存中直接进行实时计算，数据处理延迟短、实时性强。流式数据处理技术很适用于网络安全必须及时响应的数据分析场景。在此对利用流式处理算法对集成数据进行实时流式处理，得到流式数据集的过程不作限定，该过程通常包括：利用Spark Streaming算法和Spark Engine算法对集成数据进行实时流式处理，得到流式数据集。具体地，先是采用Spark Streaming算法作为实时流式处理的框架，其核心机制是接收实时流的数据，并根据一定的时间间隔拆分成一批批的数据，然后通过Spark Engine算法处理这些批数据，最终得到流式数据集。流式数据处理的实时性优势可以满足网络安全应用场景快速反应的数据计算要求。

S103、利用内部数据源的历史数据及外部数据源的历史数据进行模型训练，得到深度学习模型；

本申请实施例利用内部数据源的历史数据及外部数据源的历史数据进行模型训练，得到深度学习模型。由上文可知，本申请实施例对于内部数据源及外部数据源的内容不作具体限定，故对于内部数据源的历史数据及外部数据源的历史数据也均不作具体限定，内部数据源的历史数据可以为网络流量、安全设备日志、系统日志、用户行为信息等，外部数据源的历史数据可以为漏洞信息、威胁情报信息等。进一步地，可以利用历史数据的不同类型的数据训练出不同类型的深度学习模型，或根据不同的数据场景训练出不同类型的深度学习模型，可以极大满足用户不同程度的需求。

例如，可以利用用户行为信息进行模型训练，得到可以判断用户异常行为的深度学习模型。用户在使用网络应用与服务时，会在系统中留下痕迹，其行为出现在网络流量、日志记录、审计跟踪记录等处。通过对用户上述信息的收集，并根据信息中用户留下的数字痕迹，建立一条用户行为基准线(例如，用户活跃时间、使用服务类型、使用服务的频率等)，描述用户的“正常行为”。再利用异常行为数据和正常行为数据进行模型训练，得到深度学习模型，通过该深度学习模型对用户的正常与异常行为进行自动识别。以网络流量的检测为例，通常基于Net Flow/IPFIX中的源IP地址、目的IP地址、源端口、目的端口、包数量、流字节数等属性构成的特征向量刻画网络用户行为，实现对网络的分析和持续自动评估，检测网络攻击、网络异常、高级威胁和不良行为。

S104、将流式数据集输入深度学习模型，得到风险评估结果；

本申请实施例在得到流式数据集和深度学习模型后，将流式数据集输入深度学习模型，得到风险评估结果。对于将流式数据集输入深度学习模型，得到风险评估结果的过程，在此不作具体限定。本申请实施例在实时流式处理框架上，采用基于深度学习的智能研判分析技术，主要对安全设备、网络设备、主机以及用户行为等多个维度进行安全风险研判分析，因此可以针对多种数据场景分别构建深度学习模型，对输入数据进行综合研判，实现风险的自动分类筛选。对于不同的设备场景，深度学习模型的任务不同。如图3所示，图3为本申请实施例所提供的一种深度学习智能研判分析的流程图，利用历史数据进行模型训练得到深度学习模型，再将流式数据集输入深度学习模型，得到风险评估结果。

进一步地，本申请实施例还可以进行网络设备和安全设备报警分析。该类方法针对海量且不断产生的主机日志、防火墙日志、入侵告警等安全告警数据，应用深度学习，过滤无关的虚假安全事件和冗余安全事件，并且根据漏洞情报库捕获最新的安全风险，获得更准确的安全报警。例如，通过源IP、目的IP、源端口、目的端口、协议类型、时间等属性作为特征向量，训练深度学习模型对安全事件进行分类学习，实现风险数据与风险类型的自动识别告警。

S104、对风险评估结果中的各个风险数据进行溯源分析处理，分别建立各个风险数据与内部数据源或外部数据源之间的关联。

本申请实施例得到风险评估结果后，对风险评估结果中的各个风险数据进行溯源分析处理，分别建立各个风险数据与内部数据源或外部数据源之间的关联。由步骤S101可知，本申请实施例对内部数据源和外部数据源进行异构信息集成，所以风险数据来自于内部数据源或外部数据源。故本申请实施例对各个风险数据进行溯源分析处理，建立各个风险数据与内部数据源或外部数据源之间的关联，也即实现各个风险数据与风险源的关联。进一步地，可以利用可视化工具以图形化的形式输出各个风险数据与对应的内部数据源或外部数据源的关联即将风险源所在的网络拓扑通过图形化的方式展示出来，进行实现风险的总体把控。

本申请实施例先是将内部数据源和外部数据源进行异构信息集成，得到集成数据，然后利用流式处理算法对集成数据进行实时流式处理，得到流式数据集，再将流式数据集输入至利用历史数据进行模型训练得到的深度学习模型，得到风险评估结果，最后对风险评估结果中的各个风险数据进行溯源分析处理，分别建立各个风险数据与内部数据源或外部数据源之间的关联。可见，该方法是利用内部数据源的历史数据及外部数据源的历史数据进行模型训练，得到深度学习模型，再利用该深度学习模型进行风险评估，能够有针对性地对多源异构数据进行实时性深入分析，进而提高发现的风险数据及风险源的准确性。

下面对本申请实施例提供的一种网络安全大数据分析系统、设备及计算机可读存储介质进行介绍，下文描述的网络安全大数据分析系统、设备及计算机可读存储介质与上文描述的网络安全大数据分析方法可相互对应参照。

请参考图4，图4为本申请实施例所提供的一种网络安全大数据分析系统的结构框图；该网络安全大数据分析系统包括：

异构信息集成模块401，用于将内部数据源和外部数据源进行异构信息集成，得到集成数据；

实时流式处理模块402，用于利用流式处理算法对集成数据进行实时流式处理，得到流式数据集；

模型训练模块403，用于利用内部数据源的历史数据及外部数据源的历史数据进行模型训练，得到深度学习模型；

流式数据集输入模块404，用于将流式数据集输入深度学习模型，得到风险评估结果；

关联建立模块405，用于对风险评估结果中的各个风险数据进行溯源分析处理，分别建立各个风险数据与内部数据源或外部数据源之间的关联。

基于上述实施例，本实施例中异构信息集成模块401，通常包括：

数据抽取单元，用于对内部数据源和外部数据源进行数据抽取处理，得到目标数据；

数据格式转换单元，用于利用XML技术对目标数据进行数据格式转换，得到集成数据。

基于上述实施例，本实施例中实时流式处理模块402，通常包括：

实时流式处理单元，用于利用Spark Streaming算法和Spark Engine算法对集成数据进行实时流式处理，得到流式数据集。

基于上述实施例，本实施例中网络安全大数据分析系统，通常还包括：

关联输出模块，用于利用可视化工具以图形化的形式输出各个风险数据与对应的内部数据源或外部数据源的关联。

本申请还提供一种设备，包括：

存储器和处理器；其中，存储器用于存储计算机程序，处理器用于执行计算机程序时实现上述任意实施例的网络安全大数据分析方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的网络安全大数据分析方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种网络安全大数据分析方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种网络安全大数据分析方法，其特征在于，包括：

2.根据权利要求1所述的网络安全大数据分析方法，其特征在于，所述将内部数据源和外部数据源进行异构信息集成，得到集成数据，包括：

3.根据权利要求1所述的网络安全大数据分析方法，其特征在于，所述利用流式处理算法对所述集成数据进行实时流式处理，得到流式数据集，包括：

4.根据权利要求1所述的网络安全大数据分析方法，其特征在于，所述分别建立各个所述风险数据与所述内部数据源或所述外部数据源之间的关联之后，还包括：

5.一种网络安全大数据分析系统，其特征在于，包括：

6.根据权利要求5所述的网络安全大数据分析系统，其特征在于，所述异构信息集成模块，包括：

7.根据权利要求5所述的网络安全大数据分析系统，其特征在于，所述实时流式处理模块，包括：

8.根据权利要求5所述的网络安全大数据分析系统，其特征在于，还包括：

9.一种设备，其特征在于，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如权利要求1至4任一项所述的网络安全大数据分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的网络安全大数据分析方法的步骤。