CN109660517A

CN109660517A - 异常行为检测方法、装置及设备

Info

Publication number: CN109660517A
Application number: CN201811376561.6A
Authority: CN
Inventors: 薛智慧
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-04-19
Anticipated expiration: 2038-11-19
Also published as: CN109660517B

Abstract

本发明公开了一种异常行为检测方法、装置及设备，其中，一种异常行为检测方法，包括：获取基于用户行为的原始数据流；对所述原始数据流的应用协议进行识别和解析后，得到解析数据；提取所述解析数据的多维关联特征；采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数。通过对原始数据流进行识别和解析，并对解析的数据进行提取多维关联特征操作，从而依据多维关联特征进行异常检测，得到异常系数。因从解析的原始数据流中直接提取多维关联特征，从而最大限度保留原始特征，二在检测时采用行为模型对异常系统进行检测，无需人工干预，采用多维关联特征，在降低计算开销的同时，提高了检测的准确性。

Description

异常行为检测方法、装置及设备

技术领域

本发明涉及网络安全领域，尤其涉及一种异常行为检测方法、装置及设备。

背景技术

随着信息技术的发展，网络已经成为人们日常生活中必不可少的一部分，给工作、生活、学习等都带来了极大的便利。但任何事情都有两面性，网络的开放性也同时带来了诸多安全性问题，比如：信息泄露、勒索软件、挖矿木马、僵尸网络、钓鱼等，都会使用网络对用户进行攻击。现有一些安全检测和防御技术，都只能对已发现并确定的攻击进行检测和防御，很难做到对未知攻击的检测。另一方面，如果用户已被攻击，恶意软件在非常隐蔽的情况下执行非法操作，用户是很难发现的。但由于常见恶意软件一般都会使用网络连接服务器获取指令，因此可通过流量基于行为分析的基础上来提早发现或阻断攻击。

现有通过流量发现或阻断攻击的方法有基于聚类的方法和基于灰色LOF的异常流量检测方法，基于聚类的方法基于特定的属性和维度特征，将数据流量划分为多个类或簇，然后根据各个簇内对象的数量、距离及密度等信息及各个簇之间的距离、密度等关系来判定异常对象或异常簇，以此来达到检测异常的目的。

基于聚类的方法存在以下缺陷：

1)聚类算法的核心目的是准确、高效的发现多个簇，并不是去发现异常或离群点，同时划分簇的效果还可能受到异常点、离群点的干扰。

2)聚类算法在优化生成簇的过程中，可能会丢弃或忽略离群点，导致待检测异常信息丢失。

3)聚类算法本质上是二分类方法，对于一个待检测对象，只能给出：正常、异常两种结果。但对于流量中的异常行为，更适合给出一个相对的异常程度。

基于灰色LOF的异常流量检测方法对流量数据包的：PacketIn、PacketOut、BytesIn、BytesOut四个维度作为检测数据源提取关联相关字段，将采集到的数据基于一套灰度理论进行分析和预测，把预测结果和原始数据进行对比，一定偏差范围内的归为正常流量，偏差之外的归为灰色流量。然后将灰色流量送入LOF模块进行异常检测，从而发现异常流量。

基于灰色LOF的异常流量检测方法存在以下缺陷：

1)数据采集源为：数据包和字节流，因此只能采集到流量的行为特征，无法采集到基于应用层数据的用户行为特征，以及多流量间的用户关联行为特征。

2)采集到的数据会首先经过灰度计算处理，在降低数据量的同时，也增加了额外的计算开销；同时经过灰度处理，可能会对原始的异常信息造成丢失。

发明内容

本发明实施例提供一种异常行为检测方法、装置及设备，用以至少解决现有技术存在的部分问题。

第一方面，本发明实施例提供一种异常行为检测方法，包括：

获取基于用户行为的原始数据流；

对所述原始数据流的应用协议进行识别和解析后，得到解析数据；

提取所述解析数据的多维关联特征；

采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数。

作为本发明实施例的一种具体实现方式，所述对所述原始数据流的应用协议进行识别和解析后，得到解析数据，包括：

对所述原始数据流进行应用协议识别；

对识别后的原始数据流进行应用协议解析。

作为本发明实施例的一种具体实现方式，所述对识别后的原始数据流进行应用协议解析，具体为：

提取应用协议中的关键字段和\或特殊字段。

作为本发明实施例的一种具体实现方式，所述对所述原始数据流的应用协议进行识别和解析后，得到解析数据的步骤之后，还包括：

基于所述解析数据进行信誉检测。

作为本发明实施例的一种具体实现方式，所述提取所述解析数据的多维关联特征，包括：

提取链接层特征信息；

提取应用协议特征信息；

提取流量行为特征信息；

将所述链接层特征信息、应用协议特征信息和流量行为特征信息汇总，从而得到一个多维特征向量。

作为本发明实施例的一种具体实现方式，采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数，包括：

预先定义变量k；

计算所述多维特征向量的距离；

定义对象p周边的临近点中，距离第k远的点对应的距离；

定义对象p的临近第k距离内的所有点o到对象p的距离，即为可达距离；

定义对象p的局部总距离为临近第k距离内所有点o到对象p的可达距离之和；

定义对象p的局部异常系数为第k距离内所有点o的局部总距离之和与k倍的对象p的局部总距离之和，对象p的局部异常系数为ac_k(p)；

若ac_k(p)接近1时，表示对象p与周边临近点的局部总距离相近，则表示对象p的异常概率较低；若ac_k(p)接近0时，表示对象p与周边临近点的局部总距离相远，则表示对象p的异常概率较高。

作为本发明实施例的一种具体实现方式，所述变量k取值范围为：10-15。

作为本发明实施例的一种具体实现方式，所述采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数之后，还包括

基于所述异常系数进行学习，从而更新行为模型。

第二方面，本发明实施例提供一种异常行为检测装置，包括：

数据流获取模块：用于获取基于用户行为的原始数据流；

解析模块：用于对所述原始数据流的应用协议进行识别和解析后，得到解析数据；

提取模块：用于提取所述解析数据的多维关联特征；

检测模块：用于采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数。

第三方面，本发明实施例提供一种电子设备，所述电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的方法的步骤。

本发明实施例通过对原始数据流进行识别和解析，并对解析的数据进行提取多维关联特征操作，从而依据多维关联特征进行异常检测，得到异常系数。因从解析的原始数据流中直接提取多维关联特征，从而最大限度保留原始特征，二在检测时采用行为模型对异常系统进行检测，无需人工干预，采用多维关联特征，在降低计算开销的同时，提高了检测的准确性。因此达到保留原始特征、无需人工干预，降低计算开销，同时提高检测的准确性的效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例一所述的异常行为检测方法的流程图；

图2为本发明实施例一所述的对原始数据流的应用协议进行识别和解析后，得到解析数据的流程图；

图3为本发明实施例一所述的提取所述解析数据的多维关联特征的流程图；

图4为本发明实施例一所述的异常行为检测方法具体应用的流程图；

图5为本发明实施例二所述的异常行为检测装置的原理框图；

图6为本发明实施例二所述的解析模块的原理框图；

图7为本发明实施例二所述的提取模块的原理框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例将原始数据流量作为数据采集源，通过对流量应用层数据的精细化识别、细粒度解析、多维度关联，基于特征向量全面精确刻画用户的行为特征，最后通过使用基于距离的密度估计学习用户的行为模型。对于恶意软件网络行为，与实际的用户行为模型相比具有某种程度的异常或离群现象，结合局部异常检测可基于已学习的用户行为模型在第一时间发现局部的异常行为，实现对恶意软件的实时监测和防御。

实施例一：

本发明实施例提供一种异常行为检测方法，用于检测网络的异常行为，如图1所示，包括：

步骤S101：获取基于用户行为的原始数据流；

基于用户行为的原始数据流，包括网络协议中第2层到第4层的连接信息及应用层数据，即数据链路层、网络层和传输层的连接信息及应用层数据。

步骤S102：对所述原始数据流的应用协议进行识别和解析后，得到解析数据；

应用层协议可以客观、真实的反应出用户的日常行为及喜好，是用户行为一个重要的刻画及衡量角度。，首先在原始数据流中的应用层协议中识别出应用协议，然后对应用协议进行解析，提取出协议中的关键字段和特殊字段。

步骤S103：提取所述解析数据的多维关联特征；

然后在提取的字段中提取多维关联特征。

步骤S104：采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数。

然后采用行为模型对多维关联特征进行异常检测，从而得到原始数据流的异常系数。开始是时候行为模型是通过已知的异常系数进行建模和学习得到的，然后使用学习好的行为模型对原始数据流中提取的多维关联特征进行异常检测。

作为本发明的一种具体实现方式，步骤S102对所述原始数据流的应用协议进行识别和解析后，得到解析数据，包括：

步骤S201：对所述原始数据流进行应用协议识别；

应用协议识别：为基于流量的应用层数据实现对应用协议的精确识别，基于应用层协议可以客观、真实的反应出用户的日常行为及喜好，是用户行为一个重要的刻画及衡量角度。

步骤S202：对识别后的原始数据流进行应用协议解析。

可选的所述对识别后的原始数据流进行应用协议解析，具体为：提取应用协议中的关键字段和\或特殊字段。

对常见的应用层协议(比如：HTTP、POP3等)实现解析，具体实现细粒度解析，细粒度解析是对解析的限定，表示解析的比较细。提取协议中的关键或特殊字段，作为特征关联或提取的特征项。比如：对于HTTP协议，需要解析：Method、URI、Version、Host、Referer、Origin、User-Agent、Content-Location、Body等；对于POP3协议：From、Sender、Reply-to、In-Reply-To、References、Body体中的超链接等。

作为本发明的一种具体实现方式，步骤S102对所述原始数据流的应用协议进行识别和解析后，得到解析数据的步骤之后，还包括：

基于所述解析数据进行信誉检测。

在一个具体的应用场景中，信誉检测：即基于白、黑名单机制，对IP、域名、文件、URL或邮件地址等进行检测。若发现大量白名单访问，则表明流量行为属正常范围；若发现黑名单访问，则表明流量为异常行为；若为灰名单访问(非白非黑)，存在可能存在疑似行为，需要持续跟踪、统计，根据不同的时间及次数统计值，设定不同的异常系数值。

作为本发明的一种具体实现方式，如图3所示，步骤S103所述提取所述解析数据的多维关联特征，包括：

步骤S301：提取链接层特征信息；

链接层特征信息，包括链接起始时间(STime)、链接持续时间(ConTime)、目的端口(DPort)、目的IP区域(DArea)、四层协议(L3_Proto)、七层协议(L4_Proto)、上行字节数(up-data)、下行字节数(down-data)、上行包数(up-pkts)、下行包数(down-pkts)或TCP链接结束方式(TCP-End-Status)等。

步骤S302：提取应用协议特征信息；

应用协议特征信息，包括协议所属大类(Pro_Cat)、协议所属应用(Pro_App)、目的IP类型(黑、白、灰)、协议对应的链接数、协议对应的流量等。

步骤S303：提取流量行为特征信息；

流量行为特征信息主要为：

目的IP是否经过DNS查询获得，若是则可疑度较低，否则较高；

若使用DNS查询，则域名是否存在别名，若是则可疑度较低，否则较高；

使用的域名Server是否为所查域名的权威Server，若是则可疑度较低，否则较高；

域名Server的IP地域，若是国内则可疑度较低，否则继续判断；

域名Server的IP是国外的话，统计访问次数，若出现频率较高，则可疑度较低，否则较高；

域名的字符组成是否可读或易于理解，若是则可疑度较低，否则较高；

域名是否包含不常见的字符及常见英文单词的高相似词，若是则可疑度较高，否则较低；

在一个具体的应用场景中，具体协议以HTTP为例：

使用的Method是否曾经出现过，若是则可疑度较低，否则较高；

URI是否超长，及是否使用字符转义等逃逸技术，若是则可疑度较高，否则较低；

URI是否包含完整的域名或地址，若是则可疑度较高，否则较低；

Host是否为其他网页重定向或跳转过来的，若跳转的原始网页是白名单则可疑度较低，否则较高；

Body中的内容是否存在暗链、透明框体等可疑内容，若是则可疑度较高，否则较低。

步骤S304：将所述链接层特征信息、应用协议特征信息和流量行为特征信息汇总，从而得到一个多维特征向量。

将流量各个层面、各个维度的特征汇总在一起，输出一个多维特征向量，表示为：下标表示第i个样本，上标表示样本的第k个特征维度。

作为本发明的一种具体实现方式，，步骤S104：采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数，包括：

预先定义变量k；

基于k-NN临近距离算法的基本思想，预先定义变量k，作为计算局部距离的超参数，即：使用基于周边临近的k个点的距离来综合计算目标对象的距离，根据经验及评估结果，可选的k的取值范围为：10-15。

计算所述多维特征向量的距离；

计算距离时采用曼哈顿距离作为多维向量的距离，简单、直观、速度快。

定义对象周边的临近点中，距离第k远的点对应的距离；

定义对象的第k距离为：对象周边的临近点中，距离第k远的点对应的距离，符号定义如下：

d_k(p)＝{L(p，o)|o∈O(o≠p)}；

对于周边临近点o′组成的子集O′，子集中的对象个数满足：

(1)L(p，o′)≤L(p，o)，O′点的个数至少有K个；

(2)L(p，o′)＜L(p，o)，O′点的个数至少有K-1个。

具体定义如下：

d_k-reach-dist(p，o)＝max{L(p，o)，d_k(o)}。

具体定义如下：

ld_k(p)＝∑_o∈O，d_k-reach-dist(p，o)。

具体定义如下：

ac_k(p)＝∑_o∈O，ld_k(o)/k×ld_k(p)，

作为本发明的一种具体实现方式，步骤S104：所述采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数之后，还包括

基于所述异常系数进行学习，从而更新行为模型。

因需要检测的数据流是不断变化的，在检测的过程中会出现一些新的异常行为，因此需要行为模型需要不断的学习，从而对行为模型不断更新。具体如图4所示，若处于检测阶段，则直接输出为流量的异常系数，然后与行为模型基线的总体异常系数进行对比和评估，从而判断当前流量是否疑似为异常行为。若处于学习阶段，则经过对用户行为的长时间学习后，最终输出为行为模型，此模型会作为异常检测的基准模型。行为模型完全基于用户原始流量实现自动学习、建模。

实施例二：

如图5所示，本发明实施例提供一种异常行为检测装置，包括：

数据流获取模块501：用于获取基于用户行为的原始数据流；

解析模块502：用于对所述原始数据流的应用协议进行识别和解析后，得到解析数据；

提取模块504：用于提取所述解析数据的多维关联特征；

检测模块505：用于采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数。

作为本发明的一种具体实现方式，如图6所示，解析模块502，包括：

识别模块601：用于对所述原始数据流进行应用协议识别；

应用协议解析模块602：用于对识别后的原始数据流进行应用协议解析。

作为本发明的一种具体实现方式，应用协议解析模块602，具体：

用于提取应用协议中的关键字段和\或特殊字段。

作为本发明的一种具体实现方式，装置还包括：

信誉检测模块503：用于基于所述解析数据进行信誉检测。

作为本发明的一种具体实现方式，如图7所示，提取模块504，包括：

链接层提取模块701：用于提取链接层特征信息；

应用协议提取模块702：用于提取应用协议特征信息；

流量行为提取模块703：用于提取流量行为特征信息；

汇总模块704：用于将所述链接层特征信息、应用协议特征信息和流量行为特征信息汇总，从而得到一个多维特征向量。

作为本发明的一种具体实现方式，检测模块505中采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数，包括：

预先定义变量k；

计算所述多维特征向量的距离；

定义对象p周边的临近点中，距离第k远的点对应的距离；

作为本发明的一种具体实现方式，所述变量k取值范围为：10-15。

作为本发明的一种具体实现方式，装置还包括

更新模块：用于基于所述异常系数进行学习，从而更新行为模型。

本技术方案的具体的实施方式在实施例一中已详细说明，在此不再赘述。

实施例三：

本发明实施例提供一种电子设备，所述电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现实施例一的方法步骤。

处理器可以是通用处理器，例如中央处理器(Central Processing Unit，CPU)，还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。其中，存储器用于存储所述处理器的可执行指令；存储器，用于存储程序代码，并将该程序代码传输给处理器。存储器可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory，RAM)；也可以包括非易失性存储器(Non-VolatileMemory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；还可以包括上述种类的存储器的组合。

本发明实施例还提供一种提供计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现实施例一的方法步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种异常行为检测方法，其特征在于，包括：

获取基于用户行为的原始数据流；

提取所述解析数据的多维关联特征；

2.如权利要求1所述的异常行为检测方法，其特征在于，所述对所述原始数据流的应用协议进行识别和解析后，得到解析数据，包括：

对所述原始数据流进行应用协议识别；

对识别后的原始数据流进行应用协议解析。

3.如权利要求2所述的异常行为检测方法，其特征在于，所述对识别后的原始数据流进行应用协议解析，具体为：

提取应用协议中的关键字段和\或特殊字段。

4.如权利要求1所述的异常行为检测方法，其特征在于，所述对所述原始数据流的应用协议进行识别和解析后，得到解析数据的步骤之后，还包括：

基于所述解析数据进行信誉检测。

5.如权利要求1所述的异常行为检测方法，其特征在于，所述提取所述解析数据的多维关联特征，包括：

提取链接层特征信息；

提取应用协议特征信息；

提取流量行为特征信息；

6.如权利要求5所述的异常行为检测方法，其特征在于，采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数，包括：

预先定义变量k；

计算所述多维特征向量的距离；

定义对象p周边的临近点中，距离第k远的点对应的距离；

7.如权利要求6所述的异常行为检测方法，其特征在于，所述变量k取值范围为：10-15。

8.如权利要求1所述的异常行为检测方法，其特征在于，所述采用行为模型对所述多维关联特征进行异常检测，从而得到所述原始数据流的异常系数之后，还包括

基于所述异常系数进行学习，从而更新行为模型。

9.一种异常行为检测装置，其特征在于，包括：

数据流获取模块：用于获取基于用户行为的原始数据流；

提取模块：用于提取所述解析数据的多维关联特征；

10.一种电子设备，其特征在于，所述电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5任一项所述的方法的步骤。