CN107070930B

CN107070930B - 一种面向主机的可疑网络连接识别方法

Info

Publication number: CN107070930B
Application number: CN201710262922.3A
Authority: CN
Inventors: 叶润国; 刘贤刚; 范科峰; 蔡磊; 胡影; 任泽君
Original assignee: China Electronics Standardization Institute
Current assignee: China Electronics Standardization Institute
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2020-06-23
Anticipated expiration: 2037-04-20
Also published as: CN107070930A

Abstract

本发明公开了一种面向主机的可疑网络连接识别方法，包括以下步骤：A)、确定用来实现网络连接类型聚类的各个网络连接特征，基于这些网络连接特征构造一个多维空间，从而将每个网络连接映射为所述多维空间中的一个点；B)、收集单位时间段内出入指定主机的所有网络流量，将所述流量中的所有网络连接一一映射到步骤A中所构造的多维空间中的点，并对映射后的点进行聚类，得到多个由网络连接所对应的点组成的子类，并将点数量小于指定阈值的子类所对应的所有网络连接判定为可疑网络连接。本发明通过对这些可疑网络连接进行持续跟踪来实现对各种APT攻击的检测和持续跟踪。

Description

一种面向主机的可疑网络连接识别方法

技术领域

本发明属于识别异常网络流量方法领域，具体地说，涉及一种面向主机的可疑网络连接识别方法。

背景技术

当前，APT(高级持续性威胁)攻击已成为一种严重威胁信息系统安全的重要攻击方式，它具有变化快、无明显攻击特征等特点，攻击者通过它可以实现对信息系统的数据窃取、篡改和破坏等目的。针对APT攻击的检测是当前的一个难点。

当前很多针对APT攻击的检测都采用恶意代码检测方式，即通过检测APT攻击中恶意代码的传播过程来发现APT攻击，但很多APT攻击都是通过社会工程等方法进行木马植入，因此单一依靠恶意代码传播的检测会导致漏报。

虽然APT攻击没有明显的攻击特征，但是我们通过对现有的APT攻击进行研究发现，一个APT攻击在整个的攻击过程中(包括漏洞利用、恶意代码下载、横向移动、窃取数据并上传等)往往会引起很多可疑的网络连接。这些可疑网络连接其实是检测APT攻击的有效手段。

发明内容

本发明要解决的技术问题是克服上述缺陷，提供了一种面向主机的可疑网络连接识别方法，充分利用了APT攻击各阶段所发出的可疑网络连接和服务器主机进行正常业务时的正常网络连接在网络连接特征上有较大区别的特征，通过将单位时间内与某个主机相关的所有网络连接一一映射到高维空间中的点，并采用基于分层或基于密度的聚类算法来识别出那些最可能为可疑网络连接的高维空间中的孤立点，从而可能通过对这些可疑网络连接进行持续跟踪来实现对各种APT攻击的检测和持续跟踪。

为解决上述问题，本发明所采用的技术方案是：

一种面向主机的可疑网络连接识别方法，其特征在于：包括以下步骤：

A)、确定用来实现网络连接类型聚类的各个网络连接特征，基于这些网络连接特征构造一个多维空间，从而将每个网络连接映射为所述多维空间中的一个点；

B)、收集单位时间段内出入指定主机的所有网络流量，将所述流量中的所有网络连接一一映射到步骤A中所构造的多维空间中的点，并对映射后的点进行聚类，得到多个由网络连接所对应的点组成的子类，并将点数量小于指定阈值的子类所对应的所有网络连接判定为可疑网络连接。

作为一种优化的技术方案，所述步骤A中，所述网络连接特征包括但不限于网络连接方向、网络服务端口、网络报文大小统计特征、网络流时间分布统计特征和网络流内容特征中的一种或者几种。

作为一种优化的技术方案，所述的可疑网络连接识别方法中，所述步骤B中，可采用的针对网络连接映射后的点集的聚类算法包括基于密度的聚类算法和基于分层的聚类算法。

作为一种优化的技术方案，所述的面向主机的可疑网络连接识别方法，它还包括以下步骤，将各历史的单位时间段的聚类结果去掉可疑网络连接组成的子类，得到各历史时间段的正常业务网络连接子类集合，计算各历史的单位时间段中各正常业务网络连接子类的重心和半径，当发现最近连续的指定数量的单位时间段所挖掘出的正常业务网络连接子类的数量不变且每个子类的重心和半径变化范围在指定的阈值内时，则检查步骤B中识别出的可疑网络连接所对应的点是否位于某个历史时间段的由某个正常业务网络连接子类的重心和半径所确定的空间中；如果是，则修正该可疑网络连接为正常网络连接；否则维持其为可疑网络连接的判断。

作为一种优化的技术方案，所述步骤B中，所述的收集网络流量的时间段可以为5分钟、10分钟和20分钟。

由于采用了上述技术方案，与现有技术相比，本发明充分利用了APT攻击各阶段所发出的可疑网络连接和服务器主机进行正常业务时的正常网络连接在网络连接特征上有较大区别的特征，通过将单位时间内与某个主机相关的所有网络连接一一映射到高维空间中的点，并采用基于分层或基于密度的聚类算法来识别出那些最可能为可疑网络连接的高维空间中的孤立点，从而可能通过对这些可疑网络连接进行持续跟踪来实现对各种APT攻击的检测和持续跟踪。

具体实施方式

实施例：

一种面向主机的可疑网络连接识别方法，它利用了APT攻击在攻击过程中都将表现为各种类型异常网络连接的特征，并且这些可疑网络连接和主机正常业务相关的正常网络连接具有不同的特征，通过采用聚类方法，则容易将APT攻击相关的可疑网络连接和主机的正常业务相关正常网络连接区分开来，从而检测出各种和APT攻击相关的可疑网络连接，为后续的APT攻击的持续跟踪提供了重要突破口。

一种面向主机的可疑网络连接识别方法包括以下步骤：

A)确定用来实现网络连接类型聚类的各个网络连接特征，基于所确定的各网络连接特征构造一个网络连接多维空间；

B)收集指定时间段内出入指定主机的所有网络流量，将所述流量中的所有网络连接一一映射为多维空间中的点，并对映射后的点进行聚类，将其划分为多个由网络连接所对应点组成的子类，并将数量小于指定阈值的子类所对应的所有网络连接判定为可疑网络连接。

本发明方法以某个特定主机相关的网络流量为检测对象来检测可疑网络连接，主要理由是，在正常的网络业务访问中，某个对外提供网络服务的主机其所表现出来的网络连接具有明显的规律，那就是，属于某个业务类型的网络连接在特征上具有较大的相似性。

本发明方法首先需要将一段时间内进出某主机的所有网络流量按照网络连接进行流量划分。在本发明方法中，一个网络连接实例是指从网络连接创建阶段到终止阶段所有属于该网络连接的双向的网络报文集合。在TCP/IP网络中，一个网络连接一般为TCP类型的网络连接或UDP类型的网络连接，对于一个TCP类型网络连接，该网络连接实例则包括了从TCP三次握手报文到TCPFIN报文的所有属于该TCP连接的双向的网络报文集合；对于UDP类型的网络连接样本或实例，则是指所有以<源IP地址、目的IP地址，源端口、目的端口，UDP协议>五元组为流标识的所有的双向报文，对于UDP类型网络连接样本或实例，由于其没有网络连接创建和结束阶段，因此，本发明方法以两个连续UDP报文之间时间间隔超过指定阈值作为UDP网络连接的起始和结束标识。

本发明方法为了能够实现将相似的业务流量聚类到一起，首先需要确定用来实现网络连接类型聚类的各个网络连接特征，并基于这些网络连接特征构造一个网络连接多维空间。在构造网络连接多维空间时，可以选择以下网络连接特征：

网络连接的方向：分为由特定主机主动发起的网络连接和特定主机被动响应的网络连接。网络连接的服务端口特征：分为服务端口固定和服务端口随机两种。网络报文大小统计特征：报文平均大小、报文大小方差。网络流时间分布统计特征：平均报文时间间隔、报文间隔方差。网络流内容分布统计特征：网络载荷熵值、网络载荷文本字符比例、网络载荷控制字符比例。

一旦网络连接特征确定，就可以基于所选择的网络连接特征集合构造一个网络连接特征多维空间，从而可以将各网络连接样本映射到网络连接特征多维空间中。

当然在实施本发明所述方法时，也可以选择其它和网络连接相关的统计特征作为网络连接分类特征。它同样也在本发明所述方法的保护范围之内。

一旦网络连接特征多维空间确定，本发明方法则通过收集指定时间段内和所述主机相关的所有网络连接实例，并将各网络连接实例一一映射为多维空间中的点，然后选择合适的聚类算法，将业务类型相同的网络连接聚类到同一子类中，而那些明显不属于任何业务类型的网络连接则将被划分到孤立的网络连接子类中，从而很容易这些可疑网络连接识别出来。

聚类是一种常见的数据挖掘方法，通过聚类分析可以充分挖掘出自然界和网络空间中常体现出的“物以类聚，人以群分”的个体相关性特征。聚类准则是使属于同一类的个体间距离尽可能小，而不同类个体间距离尽可能大。典型的聚类方法有K-means方法、K-medoids方法、DBSCAN方法和BIRCH方法等。

本发明所述方法需要对映射到网络连接多维空间中的点进行聚类，支持选择基于密度的聚类算法和基于分层的聚类算法。

基于密度的聚类算法是一种适合于对多维空间中的点进行聚类的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。

该算法利用基于密度的聚类的概念，即要求聚类空间中的一定区域内所包含对象的数目不小于某一给定阈值。该算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。

在实施本发明所述方法时，可以选择公知的基于密度的聚类算法来对网络连接多维空间中的点进行聚类，如DBSCAN算法。

基于分层的聚类算法就是对给定数据对象的集合进行层次分解，根据分层分解采用的分解策略，分层聚类法又可以分为凝聚的和分裂的分层聚类。

凝聚的分层聚类采用自底向上的策略，首先将每一个对象作为一个类，然后根据某种度量(如2个当前类中心点的距离)将这些类合并为较大的类，直到所有的对象都在一个类中，或者是满足某个终止条件时为止，绝大多数分层聚类算法属于这一类，它们只是在类间相似度的定义上有所不同。

分裂的分层聚类采用与凝聚的分层聚类相反的策略——自顶向下，它首先将所有的对象置于一个类中，然后根据某种度量逐渐细分为较小的类，直到每一个对象自成一个类，或者达到某个终止条件(如达到希望的类个数，或者2个最近的类之间的距离超过了某个阈值)。

在实施本发明所述方法时，可以选择公知的基于分层的聚类算法来对网络连接多维空间中的点进行聚类，如BIRCH算法。

一旦采用基于密度的聚类算法或分层的聚类算法将网络连接多维空间中的点进行聚类后，就将多维空间中的点划分为多个子类。并且，对于特定的主机，由于其所提供的业务基本固定，客户端访问这些业务时产生的网络连接在特征上是相似的，因此，以极大的概率被聚合到同一个子类中。那些不属于正常业务访问的网络连接，则以极大的概率以零星的孤立点的方式出现在网络连接特征多维空间中，因此很容易识别出来。

在采用聚类算法将映射到网络连接多维特征空间中的点划分为多个由网络连接所对应点组成的子类后，为了将代表可疑网络连接的点识别出来，需要设置一个异常子类识别阈值，就是将点数量小于指定阈值的子类识别出来，将这些子类中的点所对应的所有网络连接判定为可疑网络连接。在实施本发明方法时，建议设置异常子类识别阈值为2。

实施本发明所述方法时，需要确定统计网络流量的单位时间段。单位时间段长度的选择也和主机上的网络业务访问的平均持续时间相关。要求所选择的单位统计时间段长度大于网络业务访问平均持续时间。同时，网络流量统计单位时间段的选择也和主机的具体业务访问负载情况相关，如果被监测主机的网络流量较大，则不宜设置较长的单位时间段，目的在于减少计算量。当业务量较低时，则又不宜设置较小的时间段，否则会导致较大的误报。

本发明所述方法建议根据主机的实际情况，选择单位统计时间段为5分钟、10分钟和20分钟。

由于本发明方法是按确定的单位时间段来统计网络流量的，在实际的流量统计过程中，肯定存在跨越单个单位时间段的网络连接，如果在当前时间段结束后强行提交这些不完整的网络连接数据，则可能导致检测算法的误报较高。为了解决该问题，本发明方法在当前单位统计时间段结束时并不提交这些不完整的网络连接数据，而是等到这个网络连接正式结束时，才在当前单位时间段提交完整的网络连接数据。

因此，通过对指定主机相关的几个连续的、历史的单位时间段网络流量进行统计和聚类分析，就可以准确识别出代表该主机正常业务访问的网络连接子类，从而可能在通过聚类分析识别出可疑网络连接后，通过判定这些可疑网络连接是否具有该主机历史的单位时间段中挖掘出的正常业务访问网络连接模式，将在当前时间段看起来孤立但符合主机正常业务访问网络连接模式的可疑网络连接重新识别为正常网络连接，从而减少误报。

因此，在具体实施本发明方法时，需要一种方法来判定为对应主机识别的正常业务访问网络业务模式是否达到了稳定状态。这可以通过分析各个代表正常业务访问网络连接的子类的重心和半径来确定。当发现各历史时间段的正常业务网络连接子类的数量不变且每个子类的重心和半径变化范围在指定的阈值内时，则本发明方法将判定步骤B中所识别出的可疑网络连接所对应的点是否位于所挖掘出的正常业务网络连接子类的重心和半径所确定的空间中：如果是，则修正该可疑网络连接为正常网络连接；否则维持其为可疑网络连接的判断。

本发明不局限于上述的优选实施方式，任何人应该得知在本发明的启示下做出的结构变化，凡是与本发明具有相同或者相近似的技术方案，均属于本发明的保护范围。

Claims

1.一种面向主机的可疑网络连接识别方法，其特征在于：包括以下步骤：

B)、收集单位时间段内出入指定主机的所有网络流量，将所述流量中的所有网络连接一一映射到步骤A中所构造的多维空间中的点，并对映射后的点进行聚类，得到多个由网络连接所对应的点组成的子类，并将点数量小于指定阈值的子类所对应的所有网络连接判定为可疑网络连接；

所述步骤A中，所述网络连接特征包括但不限于网络连接方向、网络服务端口、网络报文大小统计特征、网络流时间分布统计特征和网络流内容特征中的一种或者几种；

所述的可疑网络连接识别方法中，所述步骤B中，可采用的针对网络连接映射后的点集的聚类算法包括基于密度的聚类算法和基于分层的聚类算法；

所述的面向主机的可疑网络连接识别方法，它还包括以下步骤，将各历史的单位时间段的聚类结果去掉可疑网络连接组成的子类，得到各历史时间段的正常业务网络连接子类集合，计算各历史的单位时间段中各正常业务网络连接子类的重心和半径，当发现最近连续的指定数量的单位时间段所挖掘出的正常业务网络连接子类的数量不变且每个子类的重心和半径变化范围在指定的阈值内时，则检查步骤B中识别出的可疑网络连接所对应的点是否位于某个历史时间段的由某个正常业务网络连接子类的重心和半径所确定的空间中；如果是，则修正该可疑网络连接为正常网络连接；否则维持其为可疑网络连接的判断。

2.如权利要求1所述的面向主机的可疑网络连接识别方法，其特征在于：所述步骤B中，所述的收集网络流量的时间段可以为5分钟、10分钟和20分钟。