CN107992746A

CN107992746A - 恶意行为挖掘方法及装置

Info

Publication number: CN107992746A
Application number: CN201711362562.0A
Authority: CN
Inventors: 张�浩; 黄涛; 刘三女牙; 杨华利; 李永丹
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University; Central China Normal University
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2018-05-04
Anticipated expiration: 2037-12-14
Also published as: CN107992746B

Abstract

本发明提供了一种恶意行为挖掘方法及装置，涉及云计算技术领域。所述恶意行为挖掘方法包括：采集多维度异构数据；将所述多维度异构数据进行分布式实时处理，生成实时数据流；基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为；在为否时，将所述实时数据流标准化，形成行为数据链并输入到数据库中进行挖掘。本发明通过在各维度的提取的数据特征进行训练得到攻击特征库，能够在处理实时数据时迅速判断出是否为恶意行为数据，同时可以通过这些数据不断的更新特征库，使得该模型在判定结果上更加的精确，可以更持续地对大量、复杂的数据进行完整、快速地判断。

Description

恶意行为挖掘方法及装置

技术领域

本发明涉及云计算技术领域，具体而言，涉及一种恶意行为挖掘方法及装置。

背景技术

随着大数据时代的到来，移动通信、云计算、虚拟化等其他网络趋势的快速发展，给传统网络信息安全带来了新的问题，尤其是随着云计算平台或数据中心规模的扩大以及云平台的网络流量迅速增长，许多恶意的攻击行为(如APT)隐藏在大规模的网络流量中，对云平台或核心数进行攻击或窃取。因此，如何有效检测云平台下恶意行为并进行有效防护，进而确保平台下机密数据的安全，是目前信息安全领域亟待解决的关键问题。

传统的数据挖掘算法是基于一般知识的通用算法，对于数据量大小、数据格式和数据属性的要求较高。在早期，哥伦比亚大学的Lee等人研究组对数据挖掘在入侵检测中的应用做了开创性的工作，探讨了关联规则和序列分析等数据挖掘技术在入侵检测中的应用构架和方法；接着Lee等人又提出了核心属性和相关属性的概念，利用领域知识提高了检测模型的精度；Pronoy提出的用聚类技术建立用户的正常行为模型；Zanero等人利用聚类和关联规则进行联合挖掘方法等等。随着数据挖掘技术的不断发展，越来越多的学者提出了各种各样的数据挖掘方法来解决信息安全问题。

深度学习，是近些年来兴起的一种新的机器学习领域，其理论研究还基本处于起步阶段，但在人工智能和自然语言处理等应用领域引起了广泛的关注，发挥出了巨大的能量。在当今以大数据为主要研究热点的时代，深度模型复杂而强大的特点可以深刻地描述出大量数据里所蕴含的复杂而丰富的信息，能更精确地预测未来或未知事件。

上述的这些方法都是基于传统数据挖掘技术进行的，在当今大数据时代，现有的恶意行为的挖掘方法并没有很好的考虑到新形势下网络攻击的特征不明显、关联性强、维度高等特性，导致传统的恶意行为的挖掘算法无法直接移植到云计算大数据模式下，这也就不能充分利用大数据的高维度和深关联度的特性，也就不能保障大数据时代的信息安全。在大数据情景下，网络流量的规模和速度非常惊人，在这种情况下网络数据流中内容的关联关系很难及时的捕获与分析，网络数据流中网络攻击很容易混入到系统中；除此之外，由于新形势下的网络攻击具有很好的潜伏特性，要想挖掘出潜在平台的攻击行为非常困难。

发明内容

本发明的目的在于提供一种恶意行为挖掘方法及装置，其能够有效改善上述问题。

本发明的实施例是这样实现的：

第一方面，本发明实施例提供了一种恶意行为挖掘方法，所述方法包括：采集多维度异构数据，其中，所述多维度异构数据包括：网络数据，访问日志，虚拟机中数据，及系统日志；将所述多维度异构数据进行分布式实时处理，生成实时数据流；基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为；在为否时，将所述实时数据流标准化，形成行为数据链并输入到数据库中进行挖掘。

第二方面，本发明实施例还提供了一种恶意行为挖掘装置，其包括采集模块，用于采集多维度异构数据，其中，所述多维度异构数据包括：网络数据，访问日志，虚拟机中数据，及系统日志；处理模块，用于将所述多维度异构数据进行分布式实时处理，生成实时数据流；检测模块，用于基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为；结果模块，用于在所述实时数据流中没有恶意行为时，将所述实时数据流标准化，形成行为数据链并输入到数据库中进行挖掘。

本发明实施例提供的恶意行为挖掘方法及装置，首先采集多维度异构数据，其中，所述多维度异构数据包括：网络数据，访问日志，虚拟机中数据，及系统日志；将所述多维度异构数据进行分布式实时处理，生成实时数据流；基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为；在为否时，将所述实时数据流标准化，形成行为数据链并输入到数据库中进行挖掘。相对与现有技术，本发明通过在各维度的提取的数据特征进行训练，得到比较准确的判断模型，然后可以在处理实时数据时迅速判断出是否为恶意行为数据，同时可以通过这些数据不断的更新特征库，使得该模型在判定结果上更加的精确，可以更持续地对大量、复杂的数据进行完整、快速地判断。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为一种可应用于本发明实施例中的电子设备的结构框图；

图2为本发明第一实施例提供的恶意行为挖掘方法的流程框图；

图3为本发明第一实施例提供中步骤S230的子步骤流程框图；

图4为本发明第一实施例提供的步骤S400、步骤S410的流程框图；

图5为本发明第一实施例提供中步骤S220的子步骤流程框图；

图6为本发明第一实施例中步骤S300的子步骤流程框图；

图7为本发明第一实施例中步骤S510的子步骤的流程框图；

图8为本发明第一实施例提供的步骤S800、步骤S810、步骤S820的流程框图；

图9为本发明第二实施例提供的恶意行为挖掘装置的结构框图；

图10为本发明第二实施例提供的结果模块的结构框图；

图11为本发明第二实施例提供的另一种恶意行为挖掘装置的结构框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清晰、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1示出了一种可应用于本申请实施例中的电子设备100的结构框图。如图1所示，电子设备100可以包括存储器110、存储控制器120、处理器130、显示屏幕140和恶意行为挖掘装置。例如，该电子设备100可以为个人电脑(personal computer，PC)、平板电脑、智能手机、个人数字助理(personal digital assistant，PDA)等。

存储器110、存储控制器120、处理器130、显示屏幕140各元件之间直接或间接地电连接，以实现数据的传输或交互。例如，这些元件之间可以通过一条或多条通讯总线或信号总线实现电连接。所述恶意行为挖掘方法分别包括至少一个可以以软件或固件(firmware)的形式存储于存储器110中的软件功能模块，例如所述恶意行为挖掘装置包括的软件功能模块或计算机程序。

存储器110可以存储各种软件程序以及模块，如本申请实施例提供的恶意行为挖掘方法及装置对应的程序指令/模块。处理器130通过运行存储在存储器110中的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现本申请实施例中的恶意行为挖掘方法。存储器110可以包括但不限于随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器130可以是一种集成电路芯片，具有信号处理能力。上述处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明实施例中所应用的电子设备100为实现恶意行为挖掘方法，还可以具备自显示功能，其中的显示屏幕140可以在所述电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。例如，可以显示恶意行为挖掘装置采集的流量信息。

在介绍本发明的具体实施例之前首先需要说明的是，本发明是计算机技术在云计算技术领域的一种应用。在本发明的实现过程中，会涉及到多个软件功能模块的应用。申请人认为，如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后，在结合现有公知技术的情况下，本领域技术人员完全可以运用其掌握的软件编程技能实现本发明，凡本发明申请文件提及的软件功能模块均属此范畴，申请人不再一一列举。

第一实施例

请参照图2，本实施例提供了一种恶意行为挖掘方法，所述方法包括：

步骤S200：采集多维度异构数据；

本实施例中，可从SDN、VMI和实体中实时采集多维度异构数据，所述多维度异构数据可以包括：网络数据，访问日志，虚拟机中数据，及系统日志。所述多维度异构数据可以是常见的网络入侵监测信息，具体可以来自：系统和网络的日志文件、网络中的数据、虚拟机中的数据(通过虚拟机自省技术)、目录和文件中的不期望行为；程序执行中的不期望行为；物理形式的入侵信息和在某一段时间内的数据流量信息等等。

其中日志文件中记录了各种行为类型，每种类型又包含不同的信息，如网络进程行为类型日志，包括进程id，进程之间调用关系等数据。目录和文件中的不期望的改变(包括修改、创建和删除)信息，如正常情况下限制访问的信息，修改和破坏文件或日志信息等；程序执行过程中的权限改变，访问数据的变化等信息；物理形式的入侵有未授权的对网络硬件连接信息和对物理资源的未授权访问信息等；网络中的数据包括其网络的源、目的IP、流量的字节数、包数和各种协议等等；虚拟机中的数据通过虚拟机自省技术监视内存细节，若某一时间段的内存变化剧烈，则需要对其判断收集记录。这些所有的信息都有可能是入侵信息，所以必须将这些全部的信息收集到才能更准确的分析出是不是恶意行为入侵。

步骤S210：将所述多维度异构数据进行分布式实时处理，生成实时数据流；

本实施例中，根据上一步收集到的各维度数据进行分布式的实时处理，转换成标准数据格式，这里将对生成的实时数据流采用不同的大数据分析技术在不同维度上进行深度分析。

步骤S220：基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为；

在步骤S220的判断结果为否时，执行步骤S230；

步骤S230：将所述实时数据流标准化，形成行为数据链并输入到数据库中进行挖掘。

本实施例中，根据预先建立的恶意行为攻击特征库中的特征库数据进行特征匹配，判断数据是否为恶意行为，如果没有判断出来是恶意行为，就将该数据进行标准化并存储到数据库中。可以理解的是，不能判断其是否为恶意行为，也就是说，对于正常行为和恶意行为的判断处于模棱两可的状态，需要进行进一步处理，即输入数据库中进行恶意行为的挖掘。其中，所述数据库可以用于导入所述恶意行为攻击特征库中，用于丰富所述恶意行为攻击特征库，所述数据库可以是HDFS，MYSQL等。

经过研究发现，潜伏的未知攻击的异常行为都是非常隐蔽的，攻击者会隐藏自己的攻击行为，通常单个行为看上去都是正常的，但是一些行为关联在一起以后，这种关联的组合非常少，且行为主体不具有其他特殊性，则这种行为很可能是异常。或者某些内部行为已经被判定为异常，那么与之关联的行为也是异常的概率就会大大增加。基于此，本实施例通过构建基于大数据分析的恶意行为挖掘模型BDAMB(Big-data-analysis basedmalicious behavior mining model)，可从不同维度出发研究数据之间的关联关系，结合日志数据对系统状态的变化进行深入挖掘，查找未知攻击并对基于数据流挖掘的实时入侵检测模型进行反馈，提高系统入侵检测的准确性。

请参照图3，本实施例中，进一步的，所述步骤S230还可以包括如下子步骤：

步骤S300：将所述实时数据流进行标准化处理，形成行为数据链；

步骤S310：将所述行为数据链输入到数据库中进行挖掘。

本实施例中，将采集到的数据进行规范化处理，对其进行预处理，形成较为标准的格式存入到数据库中，该数据库是一个高性能，基于分布式文件存储的文档型数据库，对于多维度数据的存储和后期的分布式计算具有较大的优势。

请参照图4，本实施例中，进一步的，所述步骤S230之后，还可以包括如下步骤：

步骤S400：基于所述数据库，通过对所述实时数据流的不同维度数据进行关联挖掘，判断所述实时数据流中是否有恶意行为，获得判断结果；

在步骤S400的判断结果为是时，执行步骤S410；

步骤S410：提取所述判断结果的特征，并将所述特征加入所述恶意行为攻击特征库。

本实施例中，将步骤S230中存入数据库的不能准确判断的数据(正常行为和恶意行为的判断处于模棱两可的状态)进行统一结合分析，采用大数据关联分析技术对不同维度的数据进行关联挖掘，通过大数据分析平台，结合相应算法判断其是否为恶意行为，将最后判断结果的特征提取出来添加保存到特征库中，不断扩充特征库，使其更加准确完善。

请参照图5，本实施例中，进一步的，所述步骤S220可以包括如下子步骤：

步骤S500：利用模式生成器挖掘所述实时数据流，获得当前行为特征；

步骤S510：判断所述当前行为特征是否与所述恶意行为攻击特征库中的恶意行为匹配；

在步骤S510的判断结果为否时，执行步骤S520；

步骤S520：表征所述实时数据流中不存在恶意行为。

本实施例中，可通过数据流增量查询模型来匹配特征库，如果流量异常(有恶意行为)则生成所述恶意行为检测结果，并将所述恶意行为检测结果发送给SDN框架内中SDN控制器，通过所述SDN控制器制定规则并以流表形式下发给OpenFlow交换机来将该流量丢弃(或拦截)，如果是正常流量则可以通过基于滑动窗口频繁模式挖掘模型和基于核密度估计的异常点检测模型来判断该流量是否正常，如果正常，不需要任何操作，如果是异常，则将该流量特征添加进攻击特征库。

请参照图6，本实施例中，进一步的，所述步骤S220可以包括如下子步骤：

步骤S600：基于预先建立的恶意行为攻击特征库，通过Spark平台上的自带库判断所述实时数据流中是否有恶意行为。

其中，所述自带库包括Spark Streaming，Spark MLlib，Spark GraphX，BlinkDB等Spark平台上的自带库。这些自带库里面包含一些算法和其他工具，通过这些库来处理实时数据，通过算法判断这些维度上的数据是否为恶意行为。

本实施例中，由于收集到的实时数据流的数据量太大，用传统的数据处理方式会比较慢，效率不高，所以这里将采用Spark进行大数据处理，它可以看作是HadoopMapReduce的一个替代品，可以帮助优化整体数据处理流程的大数据查询的延迟计算，它还包括一些非常有用的库如：Spark Streaming，用来处理实时数据；Spark MLlib，一个可扩展的机器学习库；Spark GraphX，用于图计算和并行图计算的新的(alpha)Spark API；BlinkDB，一个近似查询引擎，用于在海量数据上执行交互式SQL查询。这些Spark的工具可以帮助我们快速且有效的处理这些原始数据，根据其是否为恶意行为数据分为恶意样本集和正常的样本集，并提取出我们需要的一些重要特征属性。

本实施例中，通过Spark平台上的自带库结合预先建立的恶意行为攻击特征库对获得的实时数据流进行处理，来判断数据是否为恶意行为数据，如果不是，则进行六元组标准化，存入到数据库，然后进行挖掘。

请参照图7，本实施例中，进一步的，所述步骤S510可以包括如下子步骤：

步骤S700：通过预定算法，将所述多个特征向量与所述攻击特征库中的恶意行为进行特征匹配，以判断所述当前行为特征是否与所述攻击特征库中的恶意行为匹配。

本实施例中，在特征向量为网络流量相关维度数据时，所述预定算法为：K-means算法或SVM算法。本实施例中，在特征向量为域名和异常点相关的维度数据时，所述预定算法为随机森林分类模型。

本实施例中，对于各维度上的数据，采用分类、聚类等不同的大数据分析技术进行深度分析，将上述的特征向量作为输入，通过与特征库中的数据进行特征匹配，采用相应的大数据分析算法判断是否为恶意行为。如对于流量相关的维度数据采用K-means算法或SVM算法进行聚类和分类；对于域名和异常点等相关的维度数据采用随机森林分类模型进行分析判断；对于协议相关的维度数据采用其他的算法进行分类等等。这些在不同维度上采用不同算法的分析技术可以选用适合该维度数据的算法进行挖掘分析判断，得到较为确定的结果，对于不确定的数据进行下一步的关联挖掘分析。

本实施例中，将存入数据库的数据(正常行为和恶意行为的判断处于模棱两可的状态)进行统一结合分析，采用大数据关联分析技术对不同维度的数据进行关联挖掘。大数据关联挖掘的核心是不同事件之间的关联关系，也就是关联规则的表示；其次是异构网络中数据流量的提取；最后是异构数据和流量之间的协调分析。通过事件之间的关联关系分析，可以发现清洗过的网络数据的系统属性之间的关系，用六元组(ID，T，A，P，C，O)描述和分析不同事件之间的关系，其中，ID表示该事件的进程ID，T是指Time表示事件发生的时间，A表示事件名称，P表示事件所需的前提条件集合，C设定为事件可能产生的数据库合，O是与事件相关的属性的集合，属性的不同取值代表不同事件类别具有的不同实例。对于不同事件E可以通过六元组对事件之间的关系以及隶属度进行定义，为频繁子模式的计算提供基本依据。由于任意事件发生时在网络中或多或少都会在日志数据和流量数据中存留相关信息，为了提高关联分析的计算速度，本项目采用Spark分布式序列图模式挖掘不同日志及记录之间的相关性，挖掘出海量事件的相关异常事件频繁图。

具体的，请参照图8，本实施例中，进一步的，所述步骤S220之后，且在步骤S220的判断结果为否时，本实施例中的基于大数据的关联挖掘步骤可以是：

步骤S800：将所述实时数据流作为被分析对象，对所述标准化数据进行解析，生成用于描述各种行为的行为链数据；

本实施例中，以行为主体作为被分析对象(通常为IP地址或身份标识)对标准化存放的行为数据六元组(ID，T，A，P，C，O)进行解析，将描述各种行为的异构数据转换成适合分析比较的行为链。

步骤S810：将所述行为链数据代入LSTM，计算出多个可能关联关系；

本实施例中，将行为链数据代入关联分析算法LSTM，计算出各种可能的关联关系。LSTM(long short-term memory network)是一种神经网络模型，LSTM可以对之前的输入有选择的记忆，从而有助于判断当前的输入，LSTM的这一特点在处理时序相关的输入时，有着很大的优势，因此适用于本实施例中对于一些时序性的恶意行为进行挖掘。

步骤S820：基于预设的判断规则，从所述多个可能关联关系中找出异常行为的组合。

本实施例中，根据一定的判断规则，从计算出的多个关联关系中找出异常行为的组合。由于正常访问行为应该是绝大多数，因此异常行为的占比非常低，所以在关联分析的算法中，对支持度的要求不是大于某个数值，而是大于0且小于某个数值。

通过以上的步骤，选用深度学习的基本模型来训练数据，根据其训练好的模型判断是否为恶意行为。其中深度学习的基本模型有自动编码器、卷积神经网络和深度信念网络等等，这些模型其各自的学习能力也是各有千秋，在不同领域有着不同的优势，本实施例采用LSTM进行训练检测恶意行为。此模型能够自动学习训练数据的特征，能将高维数据进行降维处理得到最好的特征表达，通过判定测试数据的结果，以达到检测的目的。将上述以六元组标准格式存入数据库中的数据作为LSTM模型的输入，恶意行为样本集合正常行为样本集作为正反例数据集和测试集，通过训练和测试不断调整模型内部参数，使其测试的错误率尽可能的低，最后形成一个准确度较高的模型，用此模型可以监控判断当前的数据流量是否为恶意行为。

本实施例通过提出一种新型的基于大数据的恶意行为挖掘模型BDAMB，从数据采集、数据处理、分类和最后的判断是否为恶意行为几个方面进行了分析。其中数据处理方面采用了Spark平台处理，它是基于MapReduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点，可以在数据处理的过程中非常快速的进行分析，不同维度内可以采用不同的大数据分析算法进行深度分析，也可以在多个维度间通过相应的大数据分析算法挖掘出其中各个维度之间的关系，深层次的挖掘恶意行为数据，提高了数据分析的灵活性和分析效率。而现有技术中大多数只是考虑某一特定维度的数据，仅对该维度的数据进行分析处理，判断是否为恶意行为，对于其他维度数据之间的关联性没有深入研究。并且现有研究的大多采用一些比较基础的挖掘算法，准确率不是很高。本发明中采用了LSTM长短时记忆模型，通过在各维度的提取的数据特征进行训练，得到比较准确的判断模型，然后可以在处理实时数据时迅速判断出是否为恶意行为数据，同时可以通过这些数据不断的更新特征库，使得该模型在判定结果上更加的精确，可以更持续地对大量、复杂的数据进行完整、快速地判断。

第二实施例

请参照图9，本实施例提供了一种恶意行为挖掘装置900，其包括：

采集模块910，用于采集多维度异构数据，其中，所述多维度异构数据包括：网络数据，访问日志，虚拟机中数据，及系统日志；

处理模块920，用于将所述多维度异构数据进行分布式实时处理，生成实时数据流；

检测模块930，用于基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为；

结果模块940，用于在所述实时数据流中没有恶意行为时，将所述实时数据流标准化，形成行为数据链并输入到数据库中进行挖掘。

请参照图10，本实施例中，进一步的，所述结果模块940还可以包括：

标准单元950，用于将所述实时数据流进行标准化处理，形成行为数据链；

存储单元960，用于将所述行为数据链输入到数据库中进行挖掘。

请参照图11，本实施例中，进一步的，所述恶意行为挖掘装置900还可以包括：

挖掘模块970，用于在基于预先建立的恶意行为攻击特征库，判断所述实时数据流中无恶意行为时，基于所述数据库，通过对所述实时数据流的不同维度数据进行关联挖掘，判断所述实时数据流中是否有恶意行为，获得判断结果；

特征库模块980，用于在基于所述数据库，通过对所述实时数据流的不同维度数据进行关联挖掘，判断所述实时数据流中有恶意行为时，提取所述判断结果的特征，并将所述特征加入所述恶意行为攻击特征库。

综上所述，本发明实施例提供的恶意行为挖掘方法及装置，首先采集多维度异构数据，其中，所述多维度异构数据包括：网络数据，访问日志，虚拟机中数据，及系统日志；将所述多维度异构数据进行分布式实时处理，生成实时数据流；基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为；在为否时，将所述实时数据流标准化，形成行为数据链并输入到数据库中进行挖掘。相对与现有技术，本发明通过在各维度的提取的数据特征进行训练，得到比较准确的判断模型，然后可以在处理实时数据时迅速判断出是否为恶意行为数据，同时可以通过这些数据不断的更新特征库，使得该模型在判定结果上更加的精确，可以更持续地对大量、复杂的数据进行完整、快速地判断。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种恶意行为挖掘方法，其特征在于，所述方法包括：

采集多维度异构数据，其中，所述多维度异构数据包括：网络数据，访问日志，虚拟机中数据，及系统日志；

将所述多维度异构数据进行分布式实时处理，生成实时数据流；

基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为；

在为否时，将所述实时数据流标准化，形成行为数据链并输入到数据库中进行挖掘。

2.根据权利要求1中的方法，其特征在于，将所述实时数据流标准化，形成行为数据链并输入到数据库中进行挖掘，包括：

将所述实时数据流进行标准化处理，形成行为数据链；

将所述行为数据链输入到数据库中进行挖掘。

3.根据权利要求2所述的方法，其特征在于，将所述实时数据流标准化，形成行为数据链并输入到数据库中进行挖掘之后，所述方法还包括：

基于所述数据库，通过对所述实时数据流的不同维度数据进行关联挖掘，判断所述实时数据流中是否有恶意行为，获得判断结果；

在为是时，提取所述判断结果的特征，并将所述特征加入所述恶意行为攻击特征库。

4.根据权利要求1-3中任一所述的方法，其特征在于，基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为，包括：

利用模式生成器挖掘所述实时数据流，获得当前行为特征；

判断所述当前行为特征是否与所述恶意行为攻击特征库中的恶意行为匹配；

其中，在为不匹配时，表征所述实时数据流中不存在恶意行为。

5.根据权利要求1所述的方法，其特征在于，基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为，包括：

基于预先建立的恶意行为攻击特征库，通过Spark平台上的自带库判断所述实时数据流中是否有恶意行为，其中，所述自带库包括Spark Streaming，Spark MLlib，SparkGraphX，BlinkDB。

6.根据权利要求4所述的方法，其特征在于，判断所述当前行为特征是否与所述恶意行为攻击特征库中的恶意行为匹配，包括：

通过预定算法，将所述多个特征向量与所述攻击特征库中的恶意行为进行特征匹配，以判断所述当前行为特征是否与所述攻击特征库中的恶意行为匹配；

其中，在特征向量为网络流量相关维度数据时，所述预定算法为：K-means算法或SVM算法，在特征向量为域名和异常点相关的维度数据时，所述预定算法为随机森林分类模型。

7.根据权利要求4所述的方法，其特征在于，所述基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为之后，所述方法还包括：

将所述实时数据流作为被分析对象，对所述标准化数据进行解析，生成用于描述各种行为的行为链数据；

将所述行为链数据代入LSTM，计算出多个可能关联关系；

基于预设的判断规则，从所述多个可能关联关系中找出异常行为的组合。

8.一种恶意行为挖掘装置，其特征在于，所述装置包括：

采集模块，用于采集多维度异构数据，其中，所述多维度异构数据包括：网络数据，访问日志，虚拟机中数据，及系统日志；

处理模块，用于将所述多维度异构数据进行分布式实时处理，生成实时数据流；

检测模块，用于基于预先建立的恶意行为攻击特征库，判断所述实时数据流中是否有恶意行为；

结果模块，用于在所述实时数据流中没有恶意行为时，将所述实时数据流标准化，形成行为数据链并输入到数据库中进行挖掘。

9.根据权利要求8所述的装置，其特征在于，所述结果模块包括：

标准单元，用于将所述实时数据流进行标准化处理，形成行为数据链；

存储单元，用于将所述行为数据链输入到数据库中进行挖掘。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

挖掘模块，用于在基于预先建立的恶意行为攻击特征库，判断所述实时数据流中无恶意行为时，基于所述数据库，通过对所述实时数据流的不同维度数据进行关联挖掘，判断所述实时数据流中是否有恶意行为，获得判断结果；

特征库模块，用于在基于所述数据库，通过对所述实时数据流的不同维度数据进行关联挖掘，判断所述实时数据流中有恶意行为时，提取所述判断结果的特征，并将所述特征加入所述恶意行为攻击特征库。