CN104580249A

CN104580249A - 一种基于日志的僵木蠕网络分析方法和系统

Info

Publication number: CN104580249A
Application number: CN201510042430.4A
Authority: CN
Inventors: 杨蓉; 丁文涛
Original assignee: BEIJING RUNSTONE TECHNOLOGY Co Ltd
Current assignee: BEIJING RUNSTONE TECHNOLOGY Co Ltd
Priority date: 2015-01-28
Filing date: 2015-01-28
Publication date: 2015-04-29
Anticipated expiration: 2035-01-28
Also published as: CN104580249B

Abstract

本发明公开了一种基于日志的僵木蠕网络分析方法，包括：步骤1)获取DNS日志和RADIUS日志；所述DNS日志包括：日期、时间、访问信息、请求IP信息、请求域名信息、请求域名特征、解析类型、解析IP信息、DNS服务器特征信息；步骤2)分别对DNS日志和RADIUS日志进行日志清洗，将统计没有影响的字段去掉，保留或修改影响统计结果的字段；步骤3)根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名；步骤4)根据所述可疑域名的用户访问DNS日志和RADIUS日志，分析访问这些可疑域名的用户群的特征，并根据用户群的特征确定僵木蠕域名。

Description

一种基于日志的僵木蠕网络分析方法和系统

技术领域

本发明属于通讯计算机领域，尤其涉及一种基于DNS日志和RADIUS日志的僵木蠕网络分析方法。

背景技术

目前，僵木蠕网络已经成为国内乃至全世界的网络安全领域最为关注的危害之一。

僵木蠕网络是指采用一种或多种传播手段，将大量主机感染bot程序(僵尸程序)病毒，从而在控制者和被感染主机之间所形成的一个可一对多控制的网络。攻击者通过各种途径传播僵木蠕程序感染互联网上的大量主机，而被感染的主机将通过一个控制信道接收攻击者的指令，组成一个僵木蠕网络。

僵木蠕网络有别于以往简单的安全事件，它是一个具有极大危害的攻击平台。利用该平台，攻击者能够发起各种各样的破坏行为，由于平台的搭建使得这些破坏行为产生聚合，造成比传统破坏行为更大的危害，并且使得攻击的防范难度增大。僵尸网络将攻击源从一个转化为多个，乃至一个庞大的网络体系，通过网络来控制受感染的系统，同时不同地造成网络危害，如更快地传播蠕虫、短时间内窃取大量敏感信息、抢占系统资源进行非法目的牟利、发起大范围的DDoS攻击等，受控网络的存在，给危害追踪和损失抑制带来巨大的麻烦，这也就是僵木蠕网络迅速发展的原因。

1.1现有技术方案：

对于目前比较流行的基于IRC协议的僵木蠕(僵尸、木马、蠕虫)的研究方法，主要使用蜜网技术、网络流量研究以及IRC Server识别技术。

1.1.1使用蜜网技术

蜜网技术是从bot程序出发的，可以深入跟踪和分析僵木蠕的性质和特征。主要的研究过程是，首先通过密罐等手段尽可能多地获得各种流传在网上的bot程序样本；当获得bot程序样本后，采用逆向工程等恶意代码分析手段，获得隐藏在代码中的登录僵木蠕所需要的属性，如僵木蠕服务器地址、服务端口、指定的恶意频道名称及登录密码，以及登录所使用到的用户名称，这些信息都为今后有效地跟踪僵木蠕和深入分析僵木蠕的特征提供了条件。在具备了这些条件之后，使用伪装的客户端登录到僵木蠕中去，当确认其确实为僵木蠕后，可以对该僵木蠕采取相应的措施。

1.1.2网络流量研究

网络流量的研究思路是通过分析基于IRC协议的僵木蠕中僵尸主机的行为特征，将僵尸主机分为两类：长时间发呆型和快速加入型。具体来说就是僵尸主机在僵木蠕中存在着三个比较明显的行为特征，一是通过蠕虫传播的僵尸程序，大量的被其感染计算机会在很短的时间内加入到同一个IRC Server中；二是僵尸计算机一般会长时间在线；三是僵尸计算机作为一个IRC聊天的用户，在聊天频道内长时间不发言，保持空闲。将第一种行为特征归纳为快速加入型，将第二、三种行为特征归纳为长期发呆型。

研究对应这两类僵尸计算机行为的网络流量变化，使用离线和在线的两种分析方法，就可以实现对僵木蠕的判断。

1.1.3IRC技术

通过登录大量实际的基于IRC协议的僵木蠕的服务器端，可以看到，由于攻击者为了隐藏自身而在服务器端刻意隐藏了IRC服务器的部分属性。同时，通过对bot源代码的分析看到，当被感染主机加入到控制服务器时，在服务器端能够表现出许多具有规律性的特征。通过对这些特征的归纳总结，就形成了可以用来判断基于IRC协议的僵木蠕的服务器端的规则，这样就可以直接确定出僵木蠕的位置及其规模、分布等性质，为下一步采取应对措施提供有力的定位支持。

1.2现有技术方案缺点

现有的技术方案基本都是针对已经发现的僵木蠕或bot程序进行分析，获取控制端的行为特征，并由此采取相应的屏蔽手段。这种思路没有办法挖掘出更多的未知僵木蠕或bot程序。

发明内容

本发明所要解决的技术问题是提供一种基于日志的僵木蠕网络分析方法和系统，用以尽快发现僵木蠕网络。

本发明解决上述技术问题所采取的技术方案如下：

一种基于日志的僵木蠕网络分析方法，包括：

步骤1)获取DNS日志和RADIUS日志；

所述DNS日志包括：日期、时间、访问信息、请求IP信息、请求域名信息、请求域名特征、解析类型、解析IP信息、DNS服务器特征信息；

步骤2)分别对DNS日志和RADIUS日志进行日志清洗，将统计没有影响的字段去掉，保留或修改影响统计结果的字段；

步骤3)根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名；

步骤4)根据所述可疑域名的用户访问DNS日志和RADIUS日志，分析访问这些可疑域名的用户群的特征，并根据用户群的特征确定僵木蠕域名。

进一步地，优选的是，步骤2中，基于HADOOP分布式计算，清洗后的DNS日志包括：请求IP信息+\t+Long型时间戳+\t+请求域名+\t解析IP信息；

清洗后的RADIUS日志包括：请求IP信息+\t+用户名+\t+开始时间+\t+结束时间信息。

进一步地，优选的是，步骤3)根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名，其中，共同行为特征选择以下或者任一：域名访问量排名变化按变化率排名取前100个；

解析结果类型为“域名未找到”的域名按访问量排名取前100个；

解析结果类型为“服务器错误”的域名按访问量排名取前100个；或者，按招受递归攻击量排名取前100个。

进一步地，优选的是，步骤3)根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名，具体包括：

通过分析僵木蠕样本库的解析地址，得出相同解析地址下的其他域名：

通过分析DNS日志得到某个僵木蠕样本域名的解析IP信息；

再次分析DNS日志，获取具有相同解析IP信息的其他域名信息，并过滤白名单后即为疑似僵木蠕域名。

进一步地，优选的是，根据所述可疑域名的用户访问DNS日志和RADIUS日志，分析访问这些可疑域名的用户群的特征，并根据用户群的特征确定僵木蠕域名，具体包括：

将清洗后的DNS日志中的请求域名与僵木蠕病毒库中的域名进行匹配，获取请求IP信息，即为肉鸡IP地址；

获取肉鸡账户信息，并得出该肉鸡IP访问僵木蠕样本的具体时间，以Long型时间戳表示；

分析RADIUS日志，如RADIUS日志中的请求IP信息＝肉鸡IP地址，并且Long型时间戳大于开始时间，小于结束时间，那么改用户名即为肉鸡IP地址当前对应的肉鸡账户信息。

一种基于日志的僵木蠕网络分析系统，包括：

日志获取单元，用于获取DNS日志和RADIUS日志；

日志清洗单元，用于分别对DNS日志和RADIUS日志进行日志清洗，将统计没有影响的字段去掉，保留或修改影响统计结果的字段；

可疑域名获取单元，用于根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名；

域名分析单元，用于根据所述可疑域名的用户访问DNS日志和RADIUS日志，分析访问这些可疑域名的用户群的特征，并根据用户群的特征确定僵木蠕域名。

优选的是，所述日志清洗单元，进一步用于基于HADOOP分布式计算，清洗后的DNS日志包括：请求IP信息+\t+Long型时间戳+\t+请求域名+\t解析IP信息；

优选的是，所述可疑域名获取单元，用于根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名，其中，共同行为特征选择以下或者任一：域名访问量排名变化按变化率排名取前100个；

优选的是，所述可疑域名获取单元，用于根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名，具体包括：

通过分析DNS日志得到某个僵木蠕样本域名的解析IP信息；

优选的是，所述域名分析单元，用于根据所述可疑域名的用户访问DNS日志和RADIUS日志，分析访问这些可疑域名的用户群的特征，并根据用户群的特征确定僵木蠕域名，具体包括：

本发明采取了上述方案以后，基于HADOOP大数据平台，可以全量分析用户的访问域名情况，挖掘出潜在的僵尸、木马、蠕虫域名。并且，其通过分析确定僵尸、木马、蠕虫服务器IP地址，可以针对IP地址进行封杀，此外，去还可以找出受僵尸、木马、蠕虫感染的肉鸡IP及账户信息，及时提醒用户杀毒，遏制僵尸、木马、蠕虫的扩散。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

下面结合附图对本发明进行详细的描述，以使得本发明的上述优点更加明确。其中，

图1是本发明基于日志的僵木蠕网络分析方法的流程示意图；

图2是本发明基于日志的僵木蠕网络分析方法的流程示意图；

图3是本发明基于日志的僵木蠕网络分析方法的日志清洗的流程示意图；

图4是本发明基于日志的僵木蠕网络分析系统的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

基于上述问题，本发明基于大数据分析平台HADOOP，结合用户上网行为日志(DNS日志)，RADIUS日志，分析已知的僵木蠕网站及其肉鸡的共同行为特征，寻找疑似病毒控制端，挖掘出相对完整的僵尸网络全景图。

其中，本技术方案依托于HADOOP数据分析平台，依赖DNS日志和RADIUS日志。

具体来说本方案由以下步骤组成：

一种基于日志的僵木蠕网络分析方法，包括：

步骤1)获取DNS日志和RADIUS日志；

详细对以上结构说明，步骤2中，基于HADOOP分布式计算，清洗后的DNS日志包括：请求IP信息+\t+Long型时间戳+\t+请求域名+\t解析IP信息；

优选的是，步骤3)根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名，其中，共同行为特征选择以下或者任一：域名访问量排名变化按变化率排名取前100个；

通过分析DNS日志得到某个僵木蠕样本域名的解析IP信息；

其中，更具体地说，其可以三个主要的数据处理过程，第一、日志清洗、第二、可疑域名获取和可疑域名分析过程；第三、僵木蠕分析过程。

其中，日志清洗是指将日志中对于统计没有影响的字段去掉，保留或修改影响统计结果的字段。具体算法如下图2所示：

将日志提交到实现Mapper接口类的Map方法。基于HADOOP分布式计算，Map方法在多台机器上并行计算，Map方法的主要功能是根据输入的日志信息，将有效的字段输出。输出的的格式为KEY+\t+VALUE。DNS日志的格式：日期、时间、访问信息、请求IP信息、请求域名信息、请求域名特征、解析类型、解析IP信息、DNS服务器特征。清洗过后的日志格式：“请求IP信息+\t+Long型时间戳+\t+请求域名+\t解析IP信息”；RADIUS日志的格式有82个字段，清洗过后的日志格式：“请求IP信息+\t+用户名+\t+开始时间+\t+结束时间”。

第二，可疑域名获取和可疑域名分析过程，主要如下：

可疑域名获取是指通过本平台的其他分析程序，获取符合指定特征的域名。具体特征包括：

1、域名访问量排名变化按变化率排名取前100个；2、解析结果类型为“域名未找到”的域名按访问量排名取前100个；3、解析结果类型为“服务器错误”的域名按访问量排名取前100个；4、按招受递归攻击量排名取前100个。符合上述特征的域名很有可能招受了僵木蠕攻击。

第三，僵木蠕分析过程，具体包括：

将可疑域名与DNS日志结合，分析访问这些可疑域名的用户群的共同特征，确定僵木蠕域名，生成僵木蠕域名。

具体步骤为：

1、分析访问可疑域名的用户IP信息列表；2、分析用户IP信息列表中IP都共同访问了哪些域名，并过滤白名单(可信域名列表)；

3、按照共同访问度排名，生成僵木蠕样本，注入僵木蠕域名分析算法：

共同访问度定义：访问可疑域名的用户IP数记为m，如某域名被m中的n个用户IP共同访问过，那么共同访问度即为((n/m)*100)％

观察共同访问度高于80％的域名，并人工查询此类域名的whois(域名注册信息)信息以及具体的页面信息，筛选确定是否属于僵木蠕域名。生成僵木蠕样本。

1.4.4僵木蠕分析算法是将僵木蠕样本再次与DNS日志和RADIUS日志，通过分布式分析平台，获取如下结果：

1、疑似僵木蠕域名：

通过分析DNS日志可得到某个僵木蠕样本域名的解析IP信息；

再次分析DNS日志，获取具有相同解析IP信息的其他域名信息，并过滤白名单后即为疑似僵木蠕域名；

2、肉鸡IP地址：

清洗后的DNS日志信息格式为：“请求IP信息+\t+Long型时间戳+\t+请求域名+\t解析IP信息”，将其中的请求域名与僵木蠕病毒库中的域名进行匹配，获取请求IP信息，即为肉鸡IP地址；

3、肉鸡账户信息：

获取肉鸡账户信息，提供给运营商向用户推送杀毒提醒：

上述获取肉鸡IP地址的过程，同时可得出该肉鸡IP访问僵木蠕样本的具体时间，以Long型时间戳表示；

RADIUS日志格式为：请求IP信息+\t+用户名+\t+开始时间+\t+结束时间，如RADIUS日志中的请求IP信息＝肉鸡IP地址，并且Long型时间戳大于开始时间，小于结束时间，那么改用户名即为肉鸡IP地址当前对应的肉鸡账户信息。

本发明技术方案带来的有益效果：

通过上面的描述可以看出，这种方案带来的好处有下面几点：

1.5.1基于HADOOP大数据平台，可以全量分析用户的访问域名情况，挖掘出潜在的僵尸、木马、蠕虫域名。

1.5.2分析确定僵尸、木马、蠕虫服务器IP地址，可以针对IP地址进行封杀。

1.5.3找出受僵尸、木马、蠕虫感染的肉鸡IP及账户信息，及时提醒用户杀毒，遏制僵尸、木马、蠕虫的扩散。

此外，与本发明方法实施例相对应，提供了一种基于日志的僵木蠕网络分析系统，包括：

日志获取单元，用于获取DNS日志和RADIUS日志；

通过分析DNS日志得到某个僵木蠕样本域名的解析IP信息；

需要说明的是，对于上述方法实施例而言，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。12 -->

Claims

1.一种基于日志的僵木蠕网络分析方法，包括：

步骤1)获取DNS日志和RADIUS日志；

2.根据权利要求1所述的基于日志的僵木蠕网络分析方法，其特征在于，步骤2中，基于HADOOP分布式计算，清洗后的DNS日志包括：请求IP信息+\t+Long型时间戳+\t+请求域名+\t解析IP信息；

3.根据权利要求1或2所述的基于日志的僵木蠕网络分析方法，其特征在于，步骤3)根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名，其中，共同行为特征选择以下或者任一：域名访问量排名变化按变化率排名取前100个；

4.根据权利要求1或2所述的基于日志的僵木蠕网络分析方法，其特征在于，步骤3)根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名，具体包括：

通过分析DNS日志得到某个僵木蠕样本域名的解析IP信息；

5.根据权利要求1或2所述的基于日志的僵木蠕网络分析方法，其特征在于，根据所述可疑域名的用户访问DNS日志和RADIUS日志，分析访问这些可疑域名的用户群的特征，并根据用户群的特征确定僵木蠕域名，具体包括：

6.一种基于日志的僵木蠕网络分析系统，包括：

日志获取单元，用于获取DNS日志和RADIUS日志；

7.根据权利要求6所述的基于日志的僵木蠕网络分析系统，其特征在于，所述日志清洗单元，进一步用于基于HADOOP分布式计算，清洗后的DNS日志包括：请求IP信息+\t+Long型时间戳+\t+请求域名+\t解析IP信息；

8.根据权利要求6或7所述的基于日志的僵木蠕网络分析系统，其特征在于，所述可疑域名获取单元，用于根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名，其中，共同行为特征选择以下或者任一：域名访问量排名变化按变化率排名取前100个；

9.根据权利要求1或2所述的基于日志的僵木蠕网络分析系统，其特征在于，所述可疑域名获取单元，用于根据已知的僵木蠕网站及其肉鸡的共同行为特征，获取符合指定特征的可疑域名，具体包括：

通过分析DNS日志得到某个僵木蠕样本域名的解析IP信息；

10.根据权利要求6或7所述的基于日志的僵木蠕网络分析系统，其特征在于，所述域名分析单元，用于根据所述可疑域名的用户访问DNS日志和RADIUS日志，分析访问这些可疑域名的用户群的特征，并根据用户群的特征确定僵木蠕域名，具体包括：