CN106254317A

CN106254317A - 一种数据安全异常监控系统

Info

Publication number: CN106254317A
Application number: CN201610577806.6A
Authority: CN
Inventors: 黎健生; 梁远鸿
Original assignee: Liuzhou Longhui Science & Technology Co Ltd
Current assignee: Liuzhou Longhui Science & Technology Co Ltd
Priority date: 2016-07-21
Filing date: 2016-07-21
Publication date: 2016-12-21

Abstract

本发明提出了一种数据安全异常监控系统，包括负责数据采集的数据层、进行三级数据分析的分析层以及进行可视化展示及威胁预测的展示层；所述数据层的数据采集为多源数据采集方法；所述展示层主要然后运用可视化技术，对安全威胁进行可视化展示，帮助决策者直观了解系统的安全威胁趋势和动态，执行人员也可以通过多层下拉表单来了解具体细节。本发明管理中心采用集群的方式，对采集到的数据进行处理、分析和展示。该系统采用B/S架构，不同人员通过IE或其他浏览器即可对数据进行查询、处理和分析等操作，相关管理人员也可图形化展示，直观的了解数据的安全状况，以及感知数据安全的发展动态，发生事件时及时进行处置。

Description

一种数据安全异常监控系统

技术领域

本发明涉及数据安全领域，特别是指一种数据安全异常监控系统。

背景技术

传统的防火墙等技术已经存在了二、三十年，虽然一直在改变，但本质和架构没变，未来将无法适应大数据环境下的安全要求。随着云计算、大数据等应用模式的出现，安全的架构也将发生巨大的变化。例如，用户都在使用智能设备，所有的数据都存到云端，所有信息做到集中存储，如何保证这些信息的安全使用，这就要靠大数据分析，靠机器学习建模。因此，以大数据的收集、处理与分析技术为驱动，帮助企业实时、自动侦测已经发生或即将发生的数据安全存在的内部与外部安全威胁，提高安全事件处理的效率，最大限度的保护企业信息资产安全是未来发展趋势。

广东电网有限责任公司信息中心的邹洪、钱扬、陈锐忠等发明的“一种数据安全管控方法及平台”，它给出：根据数据类别和密级对数据进行划分(S1)；根据数据划分结果对数据的加密、身份认证、访问控制、安全审计以及跟踪与取证分配相应的安全防护工具并进行安全防护(S2)；收集安全防护工具产生的日志信息，并进行归一化处理，建立数据的全生命周期的安全视图(S3)。

该专利和方案具有很大的局限性，主要在于：(1)实用于针对特定单位、特定系统，数据变化较小，数据属性、类别和密级容易定义的信息系统，进行安全管控；(2)划分数据类别和密级的主要目的是进行安全保护，建立安全视图的主要方式是根据安全日志；(3)应用加密等传统手段难以适用于开放的公共平台的数据安全保护中。

企业希望借助移动、云计算和大数据等新兴技术，在新常态下谋求新的发展机遇。但是，在企业希望获得快速发展的同时，一直被安全问题困扰，尤其是更加隐蔽的安全手段(例如，APT攻击等)，比病毒、木马等更具威胁性。传统的防火墙、杀毒软件、IDS所很难发现这些安全威胁，特别是内部人员对核心资源的异常访问、异常窃取。在当今，很多业界同行都意识到这个问题，开始思索新的解决方案。

大数据时代的到来，让不少行业已经发现了自身数据的巨大内在价值：它们能揭示传统手段所看不到的新变化趋势，如深入理解消费者行为、广告效果、业务趋势等，而在企业IT市场却鲜有标杆案例。随着数据价值的日益提升，针对数据的安全事件也在呈快速的上升趋势。仅在2014年，全球就发生了多起信息数据遭攻击与泄露事件，如JPMorgan7600万用户受影响、美国家得宝5600万用户受影响、携程网用户信息泄露等，这些网络攻击事件也人们更加清楚的认识到数据安全保护的重要意义。也有部分企业开始从事这方面的研究，例如：广东电网有限责任公司信息中心的邹洪、钱扬、陈锐忠等发明的“一种数据安全管控方法及平台”等，这些发明都只适用于特定的环境，很难适应公共信息平台中的数据安全保护，主要体现在以下几个方面：

1.采用加密等防范手段来保证开放平台的数据安全不可行，因为这不仅会带来极大系统开销，影响用户的体验感，而且开放环境下用户密钥管理困难。因此，以监控代替加密等传统手段是未来开放的大数据平台中保护数据安全的一种行之有效的手段；

2.公共信息平台(例如，智慧城市信息处理平台等)中很难进行数据类别的识别，因此应用现有方法很难将分类分级思想落实在公共信息平台中；

3.在公共信息平台中，数据量非常大，且变化频繁，现有的算法难以实时响应；

4.现有的方法中，数据分类分级主要应用于数据的细粒度保护中，很少将其用于数据的安全异常访问识别中；

当前，数据安全异常监控的主要方法是从日志中去分析异常，很少将数据的访问行为、业务操作、日志等进行关联分析，难以准确识别APT等复杂攻击。

数据是智慧城市信息处理平台等公共信息平台的核心资产，关键保护对象，本专利采用异常行为监控方式，构建数据安全异常行为监控系统，防止数据的流失。需要解决以下几个技术难题：

1)在开放公共信息平台中，数据量非常大且是不断变化的，如何快速的识别用户访问行为是否存在异常是非常困难的；

2)在大数据环境中，有些数据的安全属性是显性的，有些数据的安全属性是隐性的(例如，单个数据是非敏感的，但多个数据聚合在一起就变为敏感数据)，如何识别并阻止隐性敏感数据泄露也是大数据安全异常行为监控的一个难题；

3)APT攻击的识别和防范都是当前信息安全的一个难题，如何应用大数据分析方法识别针对数据的APT也是本专利需要解决的一个难题。

发明内容

本发明提出一种数据安全异常监控系统，能够对数据的操作行为进行逐级分析，深度逐级挖掘其异常行为。

本发明的技术方案是这样实现的：一种数据安全异常监控系统，包括负责数据采集的数据层、进行三级数据分析的分析层以及进行可视化展示及威胁预测的展示层；所述数据层的数据采集为多源数据采集方法，具体包括a.旁路分流对数据的操作行为，进行协议分析得到其行为数据b.获取系统日志、设备日志、应用日志和数据库日志等；c.同时采集内网安全日志信息；所述分析层采取三级分析方式对数据进行不同粒度的分析；所述展示层主要然后运用可视化技术，对安全威胁进行可视化展示，帮助决策者直观了解系统的安全威胁趋势和动态，执行人员也可以通过多层下拉表单来了解具体细节。

作为优选，所述多源数据采集方法中，进行日志收集的设备为日志采集服务器，其主要使用Syslog4j、JDBC接口进行收集，日志采集服务器还进行日志规范化处理、审计对象管理、日志查询任务。

作为优选，所述三级数据分析包括d.基于规则的流式数据异常检测方法，快速检测访问行为是否存在异常；e.将操作数据进行关联分析，防止隐性敏感数据泄露；f.将历史数据和当前数据进行深度融合，深度挖掘其是否存在APT等攻击方式。

作为优选，所述步骤d中，采用基于流式数据快速聚类方法，分为快速计算、数据概念漂移检测、聚类三个模块；快速计算模块首先进行数据流数据过滤，然后进行数据特征的抽取，最后将数据快速聚类；数据概念漂移检测模块负责对数据进行概念漂移的分析和检测，通过对快速计算层提供的中间数据进行相关计算，进而判断数据是否发生概念漂移，进而触发聚类层的聚类操作并提供相应的数据参数；聚类模块，框架中处理聚类的一个核心模块，其实被动式触发型聚类模块。只有在被触发时候，利用前面的中间的结果和相关的参数信息进行精细化的正式聚类计算，并在执行聚类后返回合适的聚类结果。

作为优选，所述步骤e中，将把相关数据进行深度融合分析，挖掘系统是否存在隐含隐私泄露的情况发生，如果存在隐性敏感泄露路径，将该路径中的敏感数据进行匿名处理，防止隐性敏感泄露；采取局部鞅差方法对隐性敏感的涌现进行发现，并通过定义有限停时的随机过程，在有限的时间内解决大规模数据的隐性敏感甄别和控制优化问题，当检测到系统存在隐性敏感信息泄露时，对隐性敏感信息进行匿名处理，防止再度泄露。

作为优选，所述可视化展示，具体为通过对日志、操作行为等数据进行提取分析和统计，对数据按照一定的算法原则进行图形元素的属性计算，然后将其显示，并结合用户的参数调节，对显示模型效果可以进行各种调整，以便发现网络数据详尽的信息；可视化展示子系统分为四个模块，分别为：数据提取统计模块、节点坐标计算模块、图形显示模块和参数调整模块。

作为优选，所述数据统计模块的目的是对原始数据进行的初步统计分析，采用哈希表进行存储，哈希表中关键字Key采用字符串形式，字符串由源IP、操作主体、证据链以及操作时间四项组成，把这四项作为一个新建元素插入到哈希表中，每一个元素在将来的图形化表示中都是一个节点，表示证据链之间的操作关系；Key对应的值表示该次连接通信活动中的数据总量。

作为优选，所述节点坐标计算模块采用IP地址、行为主体和证据链作为IP地址计算的因素。

作为优选，所述威胁预测分析，主要利用基于时间序列分析的态势预测算法，时间序列分析是根据系统观测得到的时间序列数据，通过曲线拟合和参数估计来建立数学模型的理论和方法。本专利将利用一阶灰色预测GM(1,1)模型、ARMA模型和Holt-Winter模型三种方法的优势，对威胁分别进行预测，然后将三种方法的预测值进行比较和融合。

与现有技术相比，本发明的优点在于：采用三级分析方式，对数据的操作行为进行逐级分析，深度逐级挖掘其异常行为。分别为：(a)对危险行为进行快速发现并阻断；(b)对可疑行为进行持续跟踪和深度分析；(c)从历史多源数据中挖掘其是否存在APT攻击行为；采用流式聚类方法，解决在大数据开放环境下，数据实时聚类需求；采用σ代数(σ-algebra)和鞅论(martingaletheory)方法解决隐含隐私关系发现难题。

“智能化(Intelligence)”与“可视化(Visibility)”是数据安全异常监控的亮点。这也是公共平台(如：智慧城市)的信息安全主管最为关注的。与传统安全信息管理系统的简单信息汇总所不同，系统能够为企业最高决策层展现整体的、实时的安全和合规态势。通过数据可视化，决策者可以很容易了解关键的趋势和动态，而具体执行人员也可以通过多层下拉表单来了解具体细节。

在实际使用工作中，我们将通过Syslog、旁路监听、安装在数据库中的触发器转发等方式采集数据，将在保存在数据采集服务器上，数据采集服务器提供数据收集、数据规范化处理、审计对象管理、数据查询等服务：一方面将收集到的原始数据保存在数据库中，将标准化数据通过ActiveMQ发送给子管理控制中心，同时提供原始数据的查询服务；另一方面通过ActiveMQ接受审计管理中心进行管理(包括收集状态查询、服务启停、审计对象的配置等)，为了保证服务的远程授权访问，采用基于证书的加密和认证。

管理中心采用集群的方式，对采集到的数据进行处理、分析和展示。该系统采用B/S架构，不同人员通过IE或其他浏览器即可对数据进行查询、处理和分析等操作，相关管理人员也可图形化展示，直观的了解数据的安全状况，以及感知数据安全的发展动态，当发生安全事件时，及时进行处置。

附图说明

图1为本发明的数据安全异常监控系统架构；

图2为本发明的数据采集结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：参见图1、图2

本专利采用“三级分析检测”的思路来构架公共信息平台中的数据安全异常监控系统架构，根据不同场景，采用不同的方式来分析系统是否存在异常行为。框架如图1所示：

本系统分为数据层、分析层和展示层。基础数据主要来自于：①旁路分流对数据的操作行为，进行协议分析得到其行为数据；②获取系统日志、设备日志、应用日志和数据库日志等；③同时采集内网安全日志信息。分析层采取三级分析方式对数据进行不同粒度的分析。展示层主要然后运用可视化技术，对安全威胁进行可视化展示，帮助决策者直观了解系统的安全威胁趋势和动态，执行人员也可以通过多层下拉表单来了解具体细节。下面分别对各层采用的关键技术进行描述。

1)多源数据采集方法

如图2所示，日志采集服务器主要进行日志收集(使用Syslog4j、JDBC接口)、日志规范化处理、审计对象管理、日志查询任务：一方面将收集到的原始日志保存在数据库中，将标准化日志通过ActiveMQ发送给子管理控制中心，同时提供原始日志的查询服务；另一方面通过ActiveMQ接受审计管理中心进行管理(包括收集状态查询、服务启停、审计对象的配置等)，为了保证服务的远程授权访问，采用基于证书的加密和认证。

对于数据库的管理和业务访问操作，采用DDL触发器主动监控DDL语句的执行，当有对数据库执行DDL就会触发，我们把这些信息保存到表中，并且把操作用户的HostName和修改的T-SQL发送到日志采集服务器上，对T-SQL语句进行解析后，将其通过ActiveMQ发送给子管理控制中心。

2)三级数据分析

(1)首先，基于规则的流式数据异常检测方法，快速检测访问行为是否存在异常。

由于云计算、物联网以及移动终端的普及和推广，公共信息平台中的数据是海量的，且是动态变化的。因此，在定义用户/进程对数据的访问规则时，无法精确到具体数据，只能根据数据类的安全级别进行访问规则定义，将数据准确快速的聚合到一个数据类是分析其行为是否异常的关键。本专利采用基于流式数据快速聚类方法，分为快速计算、数据概念漂移检测、聚类三个模块。通过数据概念漂移检测模块检测数据是否发生漂移，当发生漂移时，利用聚类模块对快速计算后的数据进行聚类，否则数据类不发生变化。当用户访问数据时，触发用户行为异常检测模块，根据访问控制规则分析该用户是否具有访问该数据类的权限。

快速计算模块：该模块负责对数据流做快速简单的处理，并获得快速的计算中间处理结果，以便用于其他模块的后续处理。其中应用于快速处理的方案是：首先进行数据流数据过滤，然后进行数据特征的抽取，最后将数据快速聚类。前者通过降低数据流中数据的量，如数据过滤等计算，因为在公共信息平台中，大多数数据都属于安全级别最低的公共数据，可以将这类数据直接进行类别划分，不用参加聚类操作；而后者是通过减少单个数据的存储量，提取摘取数据的特征而不用直接对原始数据进行处理，从而减少空间的压力，并且通过特征提取提高聚类效果；最后，根据数据的安全特征，将这类数据划分到不同的类别中。

数据概念漂移检测模块：该模块负责对数据进行概念漂移的分析和检测，通过对快速计算层提供的中间数据进行相关计算，进而判断数据是否发生概念漂移，进而触发聚类层的聚类操作并提供相应的数据参数。相对与原有的数据集而言，新的数据集在一些特性上已经发生了变迁，从而导致前后两个数据集呈现的含义或特征不同。本专利主要是关注前后聚类簇集信息的演变，对数据概念漂移的评估主要是从簇集演变角度出发，若簇新增的量或簇消失的量超过特定的阈值、或者新数据集过度分散，则认为数据概念发生重要漂移。为了对数据概念漂移进行更好描述，本文将数据概念漂移发生的程度划分成6个级别{L|L＝0,1,…,5}，级别越高表明概念漂移的程度越大，反之亦然。

聚类模块：框架中处理聚类的一个核心模块，其实被动式触发型聚类模块。只有在必要(也即是被触发)时候，利用前面的中间的结果和相关的参数信息进行精细化的正式聚类计算，并在执行聚类后返回合适的聚类结果。

在大数据环境下，我们采用基于密度的聚类算法OPTICS，这种方法的思想就是当区域内点的密度大于某个阀值，就把这些点归于一类，因此这种基于密度的聚类算法天生就有很强的寻找离群噪音点的能力。一般聚类算法最终得出的都是固定参数下的具体分类结果，而OPTICS则不然，OPTICS最终得出的是一个在一定参数区间——最小领域半径(ε-neighborhood)下包含所有分类可能的点的序列，这个序列里的每个点都记录了它在此特定参数区间下的2个属性——核心距离(coredistance)以及可达距离(reachabilitydistance)。通过这个序列，我们可以很方便的得出在参数ε'下(当ε'≤ε-neighborhood时)数据点的分类结果。OPTICS具有2个很重要的特点：抗离群噪音干扰的能力(寻找离群噪音点的能力)，对初始参数不敏感。

(2)其次，将操作数据进行关联分析，防止隐性敏感数据泄露。

在进一步的后台分析中，我们将把相关数据进行深度融合分析，挖掘系统是否存在隐含隐私泄露的情况发生，如果存在隐性敏感泄露路径，我们将该路径中的敏感数据进行匿名处理，防止隐性敏感泄露。本专利采取局部鞅差方法对隐性敏感的涌现进行发现，并通过定义有限停时的随机过程，在有限的时间内解决大规模数据的隐性敏感甄别和控制优化问题。当检测到系统存在隐性敏感信息泄露时，我们应该对隐性敏感信息进行匿名处理，防止再度泄露。

以个人信息为例，设(Ω,A,P)表示一个概率空间，其中Ω是空间，A是Ω上的σ域，P是A的概率测度。特别的，在此问题中，Ω表示全体人群，A是人群子集，P是子集测度。

离散滤波定义为Ω上的一个递增σ域F＝{Fn}。在此问题中，对于公共信息进行匿名处理，随着匿名处理强度降低，构成了一个自然的离散滤波。

一个随机过程X被称为F适应的，当且仅当对所有n∈Z+，Xn是Fn-可测的。在此问题中，不同匿名处理方法下的隐秘性和信息量均构成F适应的随机过程。

一个随机时间N∈Z+∪{∞}被称为F-停时，如果对所有n∈Z+，{N≤n}是Fn可测的，即，如果过程{Xn＝1(N≤n)}是F适应的。

具体方法是：

①设计强度递减的匿名处理过程An，形成离散滤波F

如果是全匿名方式，即构成了离散滤波F的首项F1，该σ域只包含两个平凡元素：空集和全集，对于任何定义在该σ域上的可测随机变量，其测度均为0和1。对公共信息进行开放的过程中，匿名处理程度降低，σ域不断递增，测度不断细化，相应信息量逐步增加，隐秘性逐步减弱，构成了公共信息上的离散滤波。

特别是，由于来自不同领域、部门的公共信息交织在一起，会导致离散滤波更快地增长。例如，一个包含20项属性的公共信息，其σ域的势(可以不严格地理解为集合元素数量)为其中，为第i项属性的值域的势。当5项来自不同领域、关于该对象类的公共信息融合在一起，其σ域的势激增为上一表达式的5次方，同时，信息量增加为5倍，隐秘性大幅度降低。

②构建衡量隐秘性的随机过程X，并证明其F适应性

从“封闭”情况下的高隐秘性或者相应的0信息量，可以按照不同的“开放策略”，逐步降低匿名性、提高开放程度。对于这些开放策略，提供一种衡量其隐秘性合理程度的随机过程，方法如下：

√经过部分开放的孤立公共信息，其隐秘性为具有相同属性的信息集合的测度。当测度过小时，该信息的对象已经被暴露，尽管其仍然有部分信息未被公开。

√经过部分开放且将于其他信息进行融合的公共信息，其隐秘性为通过融合后，具有相同属性的信息集合的测度的期望。当该期望过小时，该信息在融合中将有较高概率被暴露，即“隐性”泄露，尽管其“显性”泄露并未发生。

由于第1种为确定性的方法，因此问题的关键在于第2种这一随机过程。需要证明其F适应性(以保证可测性)，并进一步给出该测度期望的理论推导和算法。

③采用局部鞅差方法，优化隐私保护停时策略

鞅性是对于随机过程，特别是离散滤波下的随机过程的分析重点，也是过渡到停时策略的桥梁。本项目前期工作已经证明了信息服务选择中的部分上鞅性。在本项目中，将进一步对隐秘性和信息量在上述开放策略所导致的离散滤波下的鞅性进行研究。

基于鞅性(或者部分鞅性)，特别是信息量的上鞅性，采用前期工作得出的局部鞅差方法，能够使随机时间N(停时)最小化，从而实现隐私保护条件下的信息量最大化。局部鞅差能够达成最优或者接近最优的解。

对于出现奇异性的情形，采用分形拟合方法给出最优策略。

上述随机过程方法，主要适合公共信息分布正常的情况，如符合正态分布的概率测度、符合Possion分布的数据产生、符合指数分布的请求响应时间等。对于出现奇异性(聚集性、自相似性和尺度无关性)的情形，如果仍采用随机过程的期望计算方法，则可能跟你实际情况有较大偏差。

本专利采用分形方法进行处理，方法如下：

√对公共信息的聚集性、自相似性、尺度无关性进行模式识别。以判定是否适用分形学方法；

√对于尺度无关区间，计算主要的分形参数，如分数维数；

√根据总体分布和分数维数所形成的方程组，求解符合分形分布特征的拟合参数；

√用拟合参数构建分布模型，并计算相应期望值，用于衡量开放策略和计算最佳停时。

(3)最后，将历史数据和当前数据进行深度融合，深度挖掘其是否存在APT等攻击方式。

本专利通过对大量的历史日志信息和行为数据进行机器学习与算法分析来侦测出异常行为模式和隐藏的威胁，无论是外部APT攻击，还是内部人员泄密。通过过滤和分析大而复杂的数据集，洞彻最新的安全威胁的变化。同时，系统创建出多层次的仪表盘和报告，使决策层、管理层和一线运维人员从不同的视角来监控最新的安全态势并不断从中学习和改进。

3)可视化展示

网络安全信息可视化技术与传统的分析日志数据的方法不同，可视化技术带来研究方法的变革。网络安全信息可视化不但能有效处理海量数据信息，而且能够通过图形对攻击和异常进行有效的显示，甚至对网络中潜在的威胁进行预警。随着近年来网络的普及，攻击形式多样化、难检测等。如APT攻击,具有长期性、隐蔽性很强的特征。可视化在分析复杂数据时必不可少，是发现数据之间的关系及是否存在APT攻击的一种手段。

本专利通过对日志、操作行为等数据进行提取分析和统计，对数据按照一定的算法原则进行图形元素的属性计算，然后将其显示，并结合用户的参数调节，对显示模型效果可以进行各种调整，以便发现网络数据详尽的信息。

可视化展示子系统分为四个模块，分别是：数据提取统计模块、节点坐标计算模块、图形显示模块和参数调整模块。

①数据提取统计模块

数据统计模块的目的是对原始数据进行的初步统计分析，采用哈希表进行存储，哈希表中关键字Key采用字符串形式，字符串由：源IP、操作主体、证据链以及操作时间四项组成，把这四项作为一个新建元素插入到哈希表中，每一个元素在将来的图形化表示中都是一个节点，表示证据链之间的操作关系；Key对应的值表示该次连接通信活动中的数据总量。

②节点坐标计算模块

由于最终的目的是绘制图形用以表示APT攻击的证据链变化状况，节点坐标的计算是最重要的准备工作，也是最终保证可视化模型显示的有效性和高效性的基本条件和算法。本专利采用IP地址、行为主体和证据链作为IP地址计算的因素。

③图形显示模块

节点计算完成，会将所有需要绘制的节点坐标和其他相关信息储存在程序中，然后将绘制的工作交给图形显示模块进行，而图形显示模块也并不参与任何节点的计算，这就使得两项工作完全独立的工作，是有利于逻辑的划分和后期的修改和更新。

④参数调整模块

参数的调整从可视化模型的核心结构来看，是不介于算法和显示范围中的，由于在模型运行过程中,将会遇到很多参数,这些参数有固定不变的，也有可以调节的，参数的改变会导致显示结果的重新绘制,当然,也会导致筛选条件的改变。

4)威胁预测分析

本专利主要利用基于时间序列分析的态势预测算法，时间序列分析是根据系统观测得到的时间序列数据，通过曲线拟合和参数估计来建立数学模型的理论和方法。本专利将利用一阶灰色预测GM(1,1)模型、ARMA模型和Holt-Winter模型三种方法的优势，对威胁分别进行预测，然后将三种方法的预测值进行比较和融合。

一阶灰色预测模型算法简单、易于实现、速度也较快，并且预测过程不需要进行参数设定或其它人工干预，预测结果比较平滑地反映出原序列的发展趋势，缺点在于预测结果无法体现随机性和周期性等因素；ARMA模型算法反映了时间序列的自相关性，而且预测结果体现了时间序列的随机性和周期性等因素，缺点是预测过程需要进行较多的人工操作，并且由于掌握的样本个数总是有限的，如果预测的时间点越远，则预测结果与实际值的偏差将会越大；Holt-Winter模型对时间序列的趋势、随机性、周期和季节等因素都进行了考虑，预测结果均方差较小，在短期季节预测中效果不错，但随着预测的时间点越远，预测结果与实际值的偏差也会越来越大。

采用三级分析方式，对数据的操作行为进行逐级分析，深度逐级挖掘其异常行为。分别为：(a)对危险行为进行快速发现并阻断；(b)对可疑行为进行持续跟踪和深度分析；(c)从历史多源数据中挖掘其是否存在APT攻击行为；采用流式聚类方法，解决在大数据开放环境下，数据实时聚类需求；采用σ代数(σ-algebra)和鞅论(martingaletheory)方法解决隐含隐私关系发现难题。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种数据安全异常监控系统，其特征在于：包括负责数据采集的数据层、进行三级数据分析的分析层以及进行可视化展示及威胁预测的展示层；

所述数据层的数据采集为多源数据采集方法，具体包括a.旁路分流对数据的操作行为，进行协议分析得到其行为数据b.获取系统日志、设备日志、应用日志和数据库日志等；c.同时采集内网安全日志信息；

所述分析层采取三级分析方式对数据进行不同粒度的分析；

所述展示层主要然后运用可视化技术，对安全威胁进行可视化展示，帮助决策者直观了解系统的安全威胁趋势和动态，执行人员也可以通过多层下拉表单来了解具体细节。

2.根据权利要求1所述的数据安全异常监控系统，其特征在于：所述多源数据采集方法中，进行日志收集的设备为日志采集服务器，其主要使用Syslog4j、JDBC接口进行收集，日志采集服务器还进行日志规范化处理、审计对象管理、日志查询任务。

3.根据权利要求1所述的数据安全异常监控系统，其特征在于：所述三级数据分析包括d.基于规则的流式数据异常检测方法，快速检测访问行为是否存在异常；e.将操作数据进行关联分析，防止隐性敏感数据泄露；f.将历史数据和当前数据进行深度融合，深度挖掘其是否存在APT等攻击方式。

4.根据权利要求3所述的数据安全异常监控系统，其特征在于：所述步骤d中，采用基于流式数据快速聚类方法，分为快速计算、数据概念漂移检测、聚类三个模块；快速计算模块首先进行数据流数据过滤，然后进行数据特征的抽取，最后将数据快速聚类；数据概念漂移检测模块负责对数据进行概念漂移的分析和检测，通过对快速计算层提供的中间数据进行相关计算，进而判断数据是否发生概念漂移，进而触发聚类层的聚类操作并提供相应的数据参数；聚类模块，框架中处理聚类的一个核心模块，其实被动式触发型聚类模块；只有在被触发时候，利用前面的中间的结果和相关的参数信息进行精细化的正式聚类计算，并在执行聚类后返回合适的聚类结果。

5.根据权利要求3所述的数据安全异常监控系统，其特征在于：所述步骤e中，将把相关数据进行深度融合分析，挖掘系统是否存在隐含隐私泄露的情况发生，如果存在隐性敏感泄露路径，将该路径中的敏感数据进行匿名处理，防止隐性敏感泄露；采取局部鞅差方法对隐性敏感的涌现进行发现，并通过定义有限停时的随机过程，在有限的时间内解决大规模数据的隐性敏感甄别和控制优化问题，当检测到系统存在隐性敏感信息泄露时，对隐性敏感信息进行匿名处理，防止再度泄露。

6.根据权利要求1所述的数据安全异常监控系统，其特征在于：所述可视化展示，具体为通过对日志、操作行为等数据进行提取分析和统计，对数据按照一定的算法原则进行图形元素的属性计算，然后将其显示，并结合用户的参数调节，对显示模型效果可以进行各种调整，以便发现网络数据详尽的信息；可视化展示子系统分为四个模块，分别为：数据提取统计模块、节点坐标计算模块、图形显示模块和参数调整模块。

7.根据权利要求6所述的数据安全异常监控系统，其特征在于：所述数据统计模块的目的是对原始数据进行的初步统计分析，采用哈希表进行存储，哈希表中关键字Key采用字符串形式，字符串由源IP、操作主体、证据链以及操作时间四项组成，把这四项作为一个新建元素插入到哈希表中，每一个元素在将来的图形化表示中都是一个节点，表示证据链之间的操作关系；Key对应的值表示该次连接通信活动中的数据总量。

8.根据权利要求6所述的数据安全异常监控系统，其特征在于：所述节点坐标计算模块采用IP地址、行为主体和证据链作为IP地址计算的因素。

9.根据权利要求1-8任一所述的数据安全异常监控系统，其特征在于：所述威胁预测分析，主要利用基于时间序列分析的态势预测算法，时间序列分析是根据系统观测得到的时间序列数据，通过曲线拟合和参数估计来建立数学模型的理论和方法；本专利将利用一阶灰色预测GM(1,1)模型、ARMA模型和Holt-Winter模型三种方法的优势，对威胁分别进行预测，然后将三种方法的预测值进行比较和融合。