CN103944901B

CN103944901B - 社交僵尸网络控制节点的检测方法及装置

Info

Publication number: CN103944901B
Application number: CN201410158412.8A
Authority: CN
Inventors: 张永铮; 尹涛; 李书豪
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2014-04-18
Filing date: 2014-04-18
Publication date: 2016-11-09
Anticipated expiration: 2034-04-18
Also published as: CN103944901A

Abstract

本发明涉及一种社交僵尸网络控制节点的检测方法及装置。社交僵尸网络控制节点的检测方法包括：采集合法昵称样本和恶意昵称样本并保存并进行随机划分；基于改进的Aprior算法，从第一合法昵称样本子集中挖掘出所有出现频数超过设定频数阈值的各阶子字符串保存在频繁表中；基于频繁表，利用第二合法昵称样本子集和第一恶意昵称样本子集，根据预设的可信度计算函数和阈值生成规则获得可信度阈值；根据可信度计算函数，利用第三合法昵称样本子集和第二恶意昵称样本子集，验证可信度阈值是否有效；若有效，则根据可信度计算函数和可信度阈值对待检测昵称进行检测。本发明能够在无需对僵尸程序进行逆向的情况下，快速准确地检测出NGA生成的伪随机昵称。

Description

社交僵尸网络控制节点的检测方法及装置

技术领域

本发明涉及网络技术领域，尤其涉及一种社交僵尸网络控制节点的检测方法及装置。

背景技术

僵尸网络是一种从传统恶意代码形态进化而来的新型攻击方式，为攻击者提供了隐匿、灵活且高效的一对多C&C（Command and Control，命令与控制）机制，可以控制大量僵尸主机实现信息窃取、分布式拒绝服务攻击和垃圾邮件发送等攻击目的。C&C机制是僵尸网络的命脉，一旦C&C机制被防御者破解，则僵尸网络将面临完全失效的风险。因此，设计具备强抗毁性的C&C机制，以对抗防御者的检测，是僵尸网络控制者追寻的一个目标。

近几年，诸如Facebook、Twitter、腾讯微博这类的社交网站吸引了全世界数亿用户，社交网络服务的快速发展以及社会工程学攻击的多样化催生了社交僵尸网络的出现，并逐渐成为危及互联网安全的一种新威胁。社交僵尸网络是指利用社交网络账号搭建控制节点的僵尸网络，本文所述的控制节点相当于传统僵尸网络的命令与控制服务器，用于在控制者与僵尸终端之间中转控制命令与反馈信息。控制节点与控制者注册的僵尸账号的昵称一一对应，控制者和僵尸终端均通过URL（Uniform Resource Locator，统一资源定位符）访问控制节点。为了方便用户记忆，社交网络普遍允许用户设置个性化URL，形式为“固定前缀+昵称”。以新浪微博为例，假定用户昵称为abc123，则该用户主页的个性化URL可设置为：http://weibo.com/abc123。正是由于社交网络的这一特性，新型社交僵尸网络，如AndBot、CoolBot，引入了URL-Flux技术增强其C&C机制的抗毁性，其核心思想是基于NGA（Nickname Generation Algorithm，昵称生成算法）。NGA利用种子批量生成伪随机昵称，用于构造访问控制节点的个性化URL列表，更换新的种子后，NGA会生成新一批伪随机昵称。僵尸终端轮询URL列表，一旦某个URL访问成功，便可与对应的控制节点通信。种子主要用于同步控制者和僵尸终端的URL列表，时间、搜索引擎对某关键词给出的返回记录、社交网络热门主题排名等均可做为种子。由于社交网络用户数以亿计，NGA生成的昵称需要尽量避免与合法用户的昵称冲突；此外，为了增加防御者对僵尸网络昵称进行语义分析的难度，还需要降低昵称之间的相关性。因此，NGA通常会对生成的昵称进行伪随机处理。相比传统僵尸网络，这类新型社交僵尸网络具有隐蔽性高、抗毁性强、高效低成本等优势。

从僵尸网络控制者的角度来看，利用URL-Flux技术对抗检测十分奏效。控制者只需要从僵尸终端每天会轮询的多个昵称中任意注册一个或几个，但防御者则必须先于控制者注册所有昵称，才可能接管僵尸网络。为此，防御者必须事先逆向僵尸程序，从中解析出NGA。然而，逆向僵尸程序是一项相当消耗资源和时间的工程，在相应NGA被破解之前，一旦控制者利用新的NGA更新了僵尸程序，则需要重新对僵尸程序进行逆向，致使大量宝贵的资源和时间被浪费掉。因此，能否在无需逆向僵尸程序的情况下就能有效地检测出用于构建社交僵尸网络控制节点的伪随机昵称，对于僵尸网络的检测是非常重要的。

目前，已有的相关技术主要用于检测传统僵尸网络或其它形式网络攻击的恶意URL。Ma等人提出了一种基于URL词法特征（域名长度、主机名、圆点个数等）的统计学习技术，可以自动检测一个URL是否是用于网络钓鱼或发送垃圾邮件。Sandeep Yadav等人提出了一种恶意域名检测技术，可以有效检测Conficker、Torpig等基于域名生成算法的传统僵尸网络。至今，尚未找到一种有效的针对社交僵尸网络控制节点的检测技术。

发明内容

本发明所要解决的技术问题是提供一种社交僵尸网络控制节点的检测方法及装置，在无需对僵尸程序进行逆向的情况下，可以有效地实时检测出利用NGA构造的僵尸网络伪随机昵称。

为解决上述技术问题，本发明提出了一种社交僵尸网络控制节点的检测方法，包括：

步骤一，采集合法昵称样本和恶意昵称样本并保存，并将所述合法昵称样本的集合随机划分为第一合法昵称样本子集、第二合法昵称样本子集和第三合法昵称样本子集，将所述恶意昵称样本的集合随机划分为第一恶意昵称样本子集、第二恶意昵称样本子集，其中，所述昵称为字符串；

步骤二，基于改进的Aprior算法，从所述第一合法昵称样本子集中挖掘出所有出现频数超过设定频数阈值的各阶子字符串，将所述各阶子字符串及其出现频数按阶保存在频繁表中，其中，所述改进的Aprior算法，是指调整了生成候选表的连接规则和剪枝规则的Aprior算法，阶是指字符串的长度，出现频数是指出现次数；

步骤三，基于所述频繁表，利用所述第二合法昵称样本子集和所述第一恶意昵称样本子集，根据预设的可信度计算函数和阈值生成规则，获得可信度阈值；

步骤四，根据所述可信度计算函数，利用所述第三合法昵称样本子集和所述第二恶意昵称样本子集，验证所述可信度阈值是否有效；

步骤五，若经检验，所述可信度阈值有效，则根据所述可信度计算函数计算待检测昵称的可信度，若所述待检测昵称的可信度小于所述可信度阈值，则所述待检测昵称为恶意昵称，与所述待检测昵称对应的节点为社交僵尸网络控制节点，否则所述待检测昵称为合法昵称。

进一步地，上述社交僵尸网络控制节点的检测方法还可具有以下特点，所述步骤二中，设定频数阈值等于SIZE与MIN_SUP的乘积，其中，SIZE为所述第一合法昵称样本子集的样本规模，SIZE等于所述第一合法昵称样本子集中昵称的数量，MIN_SUP为最小相对支持度，最小相对支持度是指算法支持的某个字符串出现次数与样本数量的最小比值。

进一步地，上述社交僵尸网络控制节点的检测方法还可具有以下特点，所述最小相对支持度MIN_SUP的值能够应用自适应算法进行动态调整。

进一步地，上述社交僵尸网络控制节点的检测方法还可具有以下特点，所述步骤三包括：

根据预设的可信度计算函数P(X)，分别计算出所述第二合法昵称样本子集和所述第一恶意昵称样本子集的可信度，其中，所述第二合法昵称样本子集的可信度为所述第二合法昵称样本子集中各个昵称的可信度的集合，所述第一恶意昵称样本子集的可信度为所述第一恶意昵称样本子集中各个昵称的可信度的集合，其中，可信度计算函数P(X)的表达式如下：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{{x &Element; X}_{i}} L_{i} (x)}{N - i + 1}

其中，X代表昵称，k代表频繁表的最大阶数，X_i代表X的第i阶子序列，L_i(x)代表昵称字符串x在第i阶频繁表L_i中对应的频数，若不存在，则置为0，N表示昵称X的长度;

归一化所述第二合法昵称样本子集和所述第一恶意昵称样本子集的可信度，设所述第二合法昵称样本子集为T2，所述第一恶意昵称样本子集为F1，Max(*)表示昵称样本集合*中昵称的最大可信度值，Min(*)表示昵称样本集合*中昵称的最小可信度值，表示T2和F1的可信度P(X)归一化到区间[0,1]的结果，则的表达式为：

P (X) |_{0}^{1} = \frac{P (X)}{Max {Max (T_{2}), Max (F_{1})} - Min {Min (T_{2}), Min (F_{1})}};

统计生成可信度阈值，使得所述第二合法昵称样本子集中可信度小于所述可信度阈值的昵称数量与所述第一恶意昵称样本子集中可信度大于所述可信度阈值的昵称数量之差的绝对值最小。

进一步地，上述社交僵尸网络控制节点的检测方法还可具有以下特点，所述步骤四包括：

根据预设的可信度计算函数P(X)，分别计算出所述第三合法昵称样本子集和所述第二恶意昵称样本子集的可信度，其中，所述第三合法昵称样本子集的可信度为所述第三合法昵称样本子集中各个昵称的可信度的集合，所述第二恶意昵称样本子集的可信度为所述第二恶意昵称样本子集中各个昵称的可信度的集合，其中，可信度计算函数P(X)的表达式如下：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{{x &Element; X}_{i}} L_{i} (x)}{N - i + 1}

其中，X代表昵称，k代表频繁表的最大阶数，X_i代表X的第i阶子序列，L_i(x)代表昵称子串在第i阶频繁表L_i中对应的频数，若不存在，则置为0，N表示昵称X的长度;

计算所述第三合法昵称样本子集中可信度大于或等于所述可信度阈值的昵称数量占所述第三合法昵称样本子集中昵称总数的比值，称为第一比值，计算所述第二恶意昵称样本子集中可信度小于所述可信度阈值的昵称数量占所述第二恶意昵称样本子集中昵称总数的比值，称为第二比值；

将所述第一比值和所述第二比值分别与预设的准确率阈值进行比较，若所述第一比值和所述第二比值都大于或等于所述准确率阈值，则所述可信度阈值有效。

为解决上述技术问题，本发明提出了一种社交僵尸网络控制节点的检测装置，包括顺次相连的采集模块、挖掘模块、获取模块、验证模块和检测模块，其中：

采集模块，用于采集合法昵称样本和恶意昵称样本并保存，并将所述合法昵称样本的集合随机划分为第一合法昵称样本子集、第二合法昵称样本子集和第三合法昵称样本子集，将所述恶意昵称样本的集合随机划分为第一恶意昵称样本子集、第二恶意昵称样本子集，其中，所述昵称为字符串；

挖掘模块，用于基于改进的Aprior算法，从所述第一合法昵称样本子集中挖掘出所有出现频数超过设定频数阈值的各阶子字符串，将所述各阶子字符串及其频数按阶保存在频繁表中，其中，所述改进的Aprior算法，是指调整了生成候选表的连接规则和剪枝规则的Aprior算法，阶是指字符串的长度，频数是指次数；

获取模块，用于基于所述频繁表，利用所述第二合法昵称样本子集和所述第一恶意昵称样本子集，根据预设的可信度计算函数和阈值生成规则，获得可信度阈值；

验证模块，用于根据所述可信度计算函数，利用所述第三合法昵称样本子集和所述第二恶意昵称样本子集，验证所述可信度阈值是否有效；

检测模块，用于在经检验所述可信度阈值有效时，将社交网络中节点对应的昵称作为待检测昵称，根据所述可信度计算函数计算待检所述测昵称的可信度，若所述待检测昵称的可信度小于所述可信度阈值，则所述待检测昵称为恶意昵称，与所述待检测昵称对应的节点为社交僵尸网络控制节点，否则所述待检测昵称为合法昵称。

进一步地，上述社交僵尸网络控制节点的检测装置还可具有以下特点，所述设定频数阈值等于SIZE与MIN_SUP的乘积，其中，SIZE为所述第一合法昵称样本子集的样本规模，SIZE等于所述第一合法昵称样本子集中昵称的数量，MIN_SUP为最小相对支持度，最小相对支持度是指算法支持的某个字符串出现次数与样本数量的最小比值。

进一步地，上述社交僵尸网络控制节点的检测装置还可具有以下特点，所述最小相对支持度MIN_SUP的值能够应用自适应算法进行动态调整。

进一步地，上述社交僵尸网络控制节点的检测装置还可具有以下特点，所述获取模块包括：

计算单元，用于根据预设的可信度计算函数P(X)，分别计算出所述第二合法昵称样本子集和所述第一恶意昵称样本子集的可信度，其中，所述第二合法昵称样本子集的可信度为所述第二合法昵称样本子集中各个昵称的可信度的集合，所述第一恶意昵称样本子集的可信度为所述第一恶意昵称样本子集中各个昵称的可信度的集合，其中，可信度计算函数P(X)的表达式如下：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{{x &Element; X}_{i}} L_{i} (x)}{N - i + 1}

归一化单元，用于归一化所述第二合法昵称样本子集和所述第一恶意昵称样本子集的可信度，设所述第二合法昵称样本子集为T2，所述第一恶意昵称样本子集为F1，Max(*)表示昵称样本集合*中昵称的最大可信度值，Min(*)表示昵称样本集合*中昵称的最小可信度值，表示T2和F1的可信度P(X)归一化到区间[0,1]的结果，则的表达式为：

P (X) |_{0}^{1} = \frac{P (X)}{Max {Max (T_{2}), Max (F_{1})} - Min {Min (T_{2}), Min (F_{1})}};

生成单元，用于统计生成可信度阈值，使得所述第二合法昵称样本子集中可信度小于所述可信度阈值的昵称数量与所述第一恶意昵称样本子集中可信度大于所述可信度阈值的昵称数量之差的绝对值最小。

进一步地，上述社交僵尸网络控制节点的检测装置还可具有以下特点，所述验证模块包括：

可信度计算单元，用于根据预设的可信度计算函数P(X)，分别计算出所述第三合法昵称样本子集和所述第二恶意昵称样本子集的可信度，其中，所述第三合法昵称样本子集的可信度为所述第三合法昵称样本子集中各个昵称的可信度的集合，所述第二恶意昵称样本子集的可信度为所述第二恶意昵称样本子集中各个昵称的可信度的集合，其中，可信度计算函数P(X)的表达式如下：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{{x &Element; X}_{i}} L_{i} (x)}{N - i + 1}

其中，X代表昵称，k代表频繁表的最大阶数，X_i代表X的第i阶子序列，L_i(x)代表昵称子串x在第i阶频繁表L_i中对应的频数，若不存在，则置为0，N表示昵称X的长度;

比值计算单元，用于计算所述第三合法昵称样本子集中可信度大于或等于所述可信度阈值的昵称数量占所述第三合法昵称样本子集中昵称总数的比值，称为第一比值，计算所述第二恶意昵称样本子集中可信度小于所述可信度阈值的昵称数量占所述第二恶意昵称样本子集中昵称总数的比值，称为第二比值；

比较单元，用于将所述第一比值和所述第二比值分别与预设的准确率阈值进行比较，若所述第一比值和所述第二比值都大于或等于所述准确率阈值，则所述可信度阈值有效。

本发明的社交僵尸网络控制节点的检测方法及装置，能够在无需对僵尸程序进行逆向的情况下，快速准确地检测出NGA生成的伪随机昵称，能够为进一步推动社交僵尸网络积极防御技术的发展提供重要帮助。

附图说明

图1为本发明实施例中社交僵尸网络控制节点的检测方法的流程图；

图2a为本发明实施例中社交僵尸网络控制节点的检测方法中采集昵称样本的流程图；

图2b为本发明实施例中社交僵尸网络控制节点的检测方法中挖掘频繁表的流程图；

图2c为候选表C_k的生成示意图；

图2d为本发明实施例中社交僵尸网络控制节点的检测方法中基于频繁表获取可信度阈值的流程图；

图2e为腾讯微博与AndBot昵称分类实验图；

图2f为腾讯微博与AndBot检测结果图；

图2g为本发明实施例中社交僵尸网络控制节点的检测方法中利用可信度阈值α进行检测的流程图；

图3为本发明实施例中社交僵尸网络控制节点的检测装置的结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例中社交僵尸网络控制节点的检测方法的流程图。如图1所示，本实施例中，社交僵尸网络控制节点的检测方法包括如下步骤：

步骤S101，采集合法昵称样本和恶意昵称样本并保存，并将合法昵称样本的集合随机划分为第一合法昵称样本子集T1、第二合法昵称样本子集T2和第三合法昵称样本子集T3，将恶意昵称样本的集合随机划分为第一恶意昵称样本子集F1、第二恶意昵称样本子集F2，其中，昵称为字符串，昵称样本的数量就是字符串的个数；

在划分T1、T2、T3时，可以使T1所占的比例适当大一些。

针对不同的昵称来源，可以使用不同的采集方法。例如，针对新浪微博、腾讯微博等社交网络，可以利用微博公开的API（Application ProgrammingInterface，应用程序编程接口），爬取合法用户的昵称字段，而针对AndBot、CoolBot等僵尸网络，则可以以日期为种子，这样可以在一定程度上重现其昵称生成算法，批量生成恶意昵称。

步骤S102，基于改进的Aprior算法，从第一合法昵称样本子集T1中挖掘出所有出现频数超过设定频数阈值的各阶子字符串，将挖掘出的各阶子字符串及其频数按阶保存在频繁表中，其中，改进的Aprior算法是指调整了生成候选表的连接规则和剪枝规则的Aprior算法，阶是指字符串的长度，频数是指次数；

这里，各阶子字符串是指划分T1中字符串得到的子字符串，比如字符串abc是T1中原有的，那么可将字符串abc划分为两个2阶子字符串：ab，bc。

本步骤中，设定频数阈值等于SIZE与MIN_SUP的乘积，其中，SIZE为第一合法昵称样本子集T1的样本规模，SIZE等于T1中昵称的数量，MIN_SUP为最小相对支持度，最小相对支持度是指算法支持的某个字符串出现次数与样本数量的最小比值。

其中，最小相对支持度MIN_SUP的值可以根据经验来设定，也可以应用自适应算法对最小相对支持度MIN_SUP的值进行动态调整，此时挖掘效果会更好。

假设最大阶数为k，则频繁表为L_i(i=1,2,…,k)。这里，频繁表就是指用于保存第一合法昵称样本子集T1中挖掘出的所有出现频数超过设定频数阈值的各阶子字符串及其频数的表。

本步骤中，改进的Aprior算法对原有用于频繁项无序挖掘的Aprior算法做了改进，调整了其生成候选表的连接规则和剪枝规则，使之适用于频繁字符串有序的挖掘，并进一步降低了计算开销。

步骤S103，基于频繁表，利用第二合法昵称样本子集T2和第一恶意昵称样本子集F1，根据预设的可信度计算函数和阈值生成规则，获得可信度阈值；

步骤S104，根据可信度计算函数，利用第三合法昵称样本子集T3和第二恶意昵称样本子集F2，检验可信度阈值是否有效；

步骤S105，若经检验，可信度阈值有效，则将社交网络中节点对应的昵称作为待检测昵称，根据所述可信度计算函数计算待所述检测昵称的可信度，若待检测昵称的可信度小于该可信度阈值，则该待检测昵称为恶意昵称，与该待检测昵称对应的节点为社交僵尸网络控制节点，否则待检测昵称为合法昵称。

其中，步骤S103可以包括如下子步骤：

S103a，根据预设的可信度计算函数P(X)，分别计算出第二合法昵称样本子集T2和第一恶意昵称样本子集F1的可信度，其中，第二合法昵称样本子集T2的可信度为第二合法昵称样本子集T2中各个昵称的可信度的集合，所述第一恶意昵称样本子集F1的可信度为第一恶意昵称样本子集F1中各个昵称的可信度的集合，其中，可信度计算函数P(X)的表达式如下：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{{x &Element; X}_{i}} L_{i} (x)}{N - i + 1}

其中，X代表昵称，k代表频繁表的最大阶数，X_i代表X的第i阶子序列，L_i(x)代表昵称字符串x在第i阶频繁表L_i中对应的频数，若不存在，则置为0,N表示昵称X的长度;

昵称的可信度越大，则其为合法昵称的概率越高。

S103b，归一化第二合法昵称样本子集T2和第一恶意昵称样本子集F1的可信度，Max(*)表示昵称样本集合*中昵称的最大可信度值，Min(*)表示昵称样本集合*中昵称的最小可信度值，表示T2和F1的可信度P(X)归一化到区间[0,1]的结果，则的表达式为：

P (X) |_{0}^{1} = \frac{P (X)}{Max {Max (T_{2}), Max (F_{1})} - Min {Min (T_{2}), Min (F_{1})}};

S103c，统计生成可信度阈值，使得所述第二合法昵称样本子集T2中可信度小于可信度阈值的昵称数量与第一恶意昵称样本子集F1中可信度大于可信度阈值的昵称数量之差的绝对值最小。

其中，步骤S104可以包括如下子步骤：

S104a，根据预设的可信度计算函数P(X)，分别计算出所述第三合法昵称样本子集和所述第二恶意昵称样本子集的可信度，其中，所述第三合法昵称样本子集的可信度为所述第三合法昵称样本子集中各个昵称的可信度的集合，所述第二恶意昵称样本子集的可信度为所述第二恶意昵称样本子集中各个昵称的可信度的集合，其中，可信度计算函数P(X)的表达式如下：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{{x &Element; X}_{i}} L_{i} (x)}{N - i + 1}

其中，昵称子串就是昵称的子字符串。

S104b，计算所述第三合法昵称样本子集中可信度大于或等于所述可信度阈值的昵称数量占所述第三合法昵称样本子集中昵称总数的比值，称为第一比值，计算所述第二恶意昵称样本子集中可信度小于所述可信度阈值的昵称数量占所述第二恶意昵称样本子集中昵称总数的比值，称为第二比值；

S104c，将所述第一比值和所述第二比值分别与预设的准确率阈值进行比较，若所述第一比值和所述第二比值都大于或等于所述准确率阈值，则所述可信度阈值有效。

下面以腾讯微博和AndBot为例，对本发明的社交僵尸网络控制节点的检测方法作进一步详细说明。

本实施例包括如下步骤：

第一步，采集昵称样本，如图2a所示，第一步具体包括如下子步骤：

步骤a1，汇聚数据源，这里数据源为腾讯微博和AndBot；

事先在数据库中建好表T1、T2、T3、F1和F2。

步骤a2，判断数据源是否为腾讯微博，若是执行步骤a3，否则执行步骤a5；

本实施例中，针对腾讯微博，采集部分利用其公开的API，爬取合法用户的昵称字段；针对AndBot僵尸网络，则以日期为种子，一定程度上重现了其NGA，批量生成恶意昵称。

步骤a3，调用公开的API；

步骤a4，采集合法昵称样本，转至步骤a7；

步骤a5，重现NGA；

步骤a6，采集恶意昵称样本，转至步骤a7；

步骤a7，分组汇入数据库表，结束。

步骤a7将采集到的不同源头的昵称样本分组导入数据库中相应表中保存。

第二步，挖掘频繁表，如图2b所示，第二步具体包括如下子步骤：

步骤b1，构造字符表;

根据腾讯微博的昵称命名规则，字符表由字母(不区分大小写)、数字、下划线、连接符构成。

步骤b2，导出表T1，将表T1的样本中的字母统一大小写后，存放在样本表SampleList中;

步骤b3，生成1阶频繁表L₁;

遍历SampleList，统计字符表中各字符出现的频数，从中挑选频数不低于SIZE*MIN_SUP的字符，将该字符及其频数添加到L₁中。

步骤b4，令k=2;

步骤b5，判断频繁表L_k-1是否为空，若是执行步骤b9，否则执行步骤b6；

步骤b6，生成k阶候选表C_k；

任取L_k-1中的两个子串，若满足剪枝规则：其中一个子串的后缀与另一个子串的前缀相同，则按图2c所示规则拼接成新的k阶字符串，并添加到候选表C_k中。注：步骤b6中的剪枝规则有效避免了生成的候选表C_k过大的问题，降低了算法的复杂度，其中，剪枝规则基于如下两个观测结论：一个k阶字符串仅能被拆分为两个k-1阶子字符串，且其中一个子字符串的后缀必然与另一子字符串的前缀相同；若一个字符串为k阶频繁字符串，则其任意k-1阶子串均为频繁字符串。

步骤b7，生成k阶频繁表L_k；

遍历SampleList，统计C_k中各字符串出现的频数，从中挑选频数不低于SIZE*MIN_SUP的字符串，将该字符串及其频数添加到频繁表L_k中。

步骤b8，令k=k+1，返回步骤b5;

步骤b9，向下一步（即第三步）发送所有频繁表，结束。

第三步，基于频繁表获取可信度阈值α，如图2d所示，第三步具体包括如下子步骤：

步骤d1，接收频繁表；

步骤d2，导出表T2、表F1；

步骤d3，构造1～k阶子序列；

假设接收到的频繁表的最大阶数为k（k≥1），将样本中的字符串依次分割为1～k阶子序列。表1给出了字符串“ab12”的1～4阶子序列划分结果。

表1字符串“ab12’的子序列划分表

步骤d4，计算样本可信度；

调用可信度计算函数P(X)，计算T2和F1中昵称的可信度；

步骤d5，根据阈值生成规则，获取可信度阈值α；

实际实验时，采集到T2和F1的规模（即样本个数）均为50000，经过反复实验后，当设置最小相对支持度MIN_SUP=0.03时，分类结果最佳，统计得到阈值α＝0.055，如图2e所示。

步骤d6，向下一步发送可信度阈值，结束。

第四步，测试可信度阈值α的检测效果；

实际试验时，采集到T3和F2的规模均为100，构成测试样本，用于测试可信度阈值α的检测效果，测试结果如图2f所示。共检测出96个异常昵称，其中，包括93个AndBot昵称和3个腾讯微博昵称，召回率为93.00%，准确率为96.88%。实验结果表明，利用可信度阈值α可有效检测出社交僵尸网络生成的伪随机恶意昵称。

第五步，利用可信度阈值α进行检测，如图2g所示，第五步具体包括如下子步骤：

步骤g1，接收可信度阈值α;

步骤g2，调用可信度计算函数P(X)，计算待检测昵称可信度;

步骤g3，判断待检测昵称可信度是否小于可信度阈值，若是执行步骤g4，否则执行步骤g5；

步骤g4，判定为恶意昵称，则该昵称对应的节点为社交僵尸网络控制节点，结束；

步骤g5，判定为合法昵称，则该昵称对应的节点不是社交僵尸网络控制节点，结束。

与现有技术相比，本发明的社交僵尸网络控制节点的检测方法有如下优点：

(1)面向新型环境：社交网络已成为倍受攻击者青睐的新型攻击平台，越来越多的网络攻击借助社交平台发动，本发明可有效地检测社交僵尸网络中的控制节点，为进一步推动社交僵尸网络积极防御技术的发展提供了重要帮助。

(2)实时性强：假设昵称样本中最长昵称的长度为m，待检测昵称的长度为n，频繁表的最大阶数为k(1≤k≤m)，计算可信度时，查询频繁表的时间开销为O(1)，查询次数为[n+(n-1)+…+(n-k+1)]，可信度与可信度阈值做比较的时间开销为O(1)。因此，检测一个昵称的时间复杂度为：

T(n)＝[n+(n-1)+…+(n-k+1)]·O(1)+O(1)＝O(kn)

最坏情况下，时间复杂度为O(mn)。

可见，本发明的社交僵尸网络控制节点的检测方法，能够在无需对僵尸程序进行逆向的情况下，快速准确地检测出NGA生成的伪随机昵称，能够为进一步推动社交僵尸网络积极防御技术的发展提供重要帮助。

本发明还提出了一种社交僵尸网络控制节点的检测装置，该装置用以执行上述的社交僵尸网络控制节点的检测方法。

图3为本发明实施例中社交僵尸网络控制节点的检测装置的结构框图。如图3所示，本实施例中，社交僵尸网络控制节点的检测装置包括顺次相连的采集模块310、挖掘模块320、获取模块330、验证模块340和检测模块350。其中，采集模块310用于采集合法昵称样本和恶意昵称样本并保存，并将所述合法昵称样本的集合随机划分为第一合法昵称样本子集T1、第二合法昵称样本子集T2和第三合法昵称样本子集T3，将所述恶意昵称样本的集合随机划分为第一恶意昵称样本子集F1、第二恶意昵称样本子集F2，其中，昵称为字符串。挖掘模块320用于基于改进的Aprior算法，从所述第一合法昵称样本子集T1中挖掘出所有出现频数超过设定频数阈值的各阶子字符串，将所述各阶子字符串及其出现频数按阶保存在频繁表中，其中，所述改进的Aprior算法，是指调整了生成候选表的连接规则和剪枝规则的Aprior算法，阶是指字符串的长度，出现频数是指出现次数。获取模块330用于基于所述频繁表，利用所述第二合法昵称样本子集T2和所述第一恶意昵称样本子集F1，根据预设的可信度计算函数和阈值生成规则，获得可信度阈值。验证模块340用于根据所述可信度计算函数，利用所述第三合法昵称样本子集T3和所述第二恶意昵称样本子集F2，验证所述可信度阈值是否有效。检测模块350用于在经检验该可信度阈值有效时，将社交网络中节点对应的昵称作为待检测昵称，根据该可信度计算函数计算该待检测昵称的可信度，若待检测昵称的可信度小于该可信度阈值，则待检测昵称为恶意昵称，与待检测昵称对应的节点为社交僵尸网络控制节点，否则待检测昵称为合法昵称。

其中，设定频数阈值等于SIZE与MIN_SUP的乘积，其中，SIZE为第一合法昵称样本子集T1的样本规模，SIZE等于T1中昵称的数量，MIN_SUP为最小相对支持度，最小相对支持度是指算法支持的某个字符串出现次数与样本数量的最小比值。

在本发明实施例中，获取模块330可以进一步包括计算单元、归一化单元和生成单元。计算单元用于根据预设的可信度计算函数P(X)，分别计算出第二合法昵称样本子集和第一恶意昵称样本子集的可信度，其中，第二合法昵称样本子集T2的可信度为第二合法昵称样本子集T2中各个昵称的可信度的集合，所述第一恶意昵称样本子集F1的可信度为第一恶意昵称样本子集F1中各个昵称的可信度的集合，其中，可信度计算函数P(X)的表达式如下：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{{x &Element; X}_{i}} L_{i} (x)}{N - i + 1}

其中，X代表昵称，k代表频繁表的最大阶数，X_i代表X的第i阶子序列，L_i(x)代表昵称字符串x在第i阶频繁表L_i中对应的频数，若不存在，则置为0，N表示昵称X的长度。

归一化单元用于归一化所述第二合法昵称样本子集和所述第一恶意昵称样本子集的可信度。设第二合法昵称样本子集为T2，第一恶意昵称样本子集为F1，Max(*)表示昵称样本集合*中昵称的最大可信度值，Min(*)表示昵称样本集合*中昵称的最小可信度值，表示T2和F1的可信度P(X)归一化到区间[0,1]的结果，则的表达式为：

P (X) |_{0}^{1} = \frac{P (X)}{Max {Max (T_{2}), Max (F_{1})} - Min {Min (T_{2}), Min (F_{1})}};

生成单元用于统计生成可信度阈值，使得所述第二合法昵称样本子集中可信度小于所述可信度阈值的昵称数量与中所述第一恶意昵称样本子集中可信度大于所述可信度阈值的昵称数量之差的绝对值最小。

在本发明实施例中，验证模块340可以进一步包括可信度计算单元、比值计算单元和比较单元。其中，可信度计算单元用于根据预设的可信度计算函数P(X)，分别计算出所述第三合法昵称样本子集和所述第二恶意昵称样本子集的可信度，其中，所述第三合法昵称样本子集的可信度为所述第三合法昵称样本子集中各个昵称的可信度的集合，所述第二恶意昵称样本子集的可信度为所述第二恶意昵称样本子集中各个昵称的可信度的集合，其中，可信度计算函数P(X)的表达式如下：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{{x &Element; X}_{i}} L_{i} (x)}{N - i + 1}

其中，X代表昵称，k代表频繁表的最大阶数，X_i代表X的第i阶子序列，L_i(x)代表昵称子串x在第i阶频繁表L_i中对应的频数，若不存在，则置为0，N表示昵称X的长度。

比值计算单元用于计算所述第三合法昵称样本子集中可信度大于或等于所述可信度阈值的昵称数量占所述第三合法昵称样本子集中昵称总数的比值，称为第一比值，计算所述第二恶意昵称样本子集中可信度小于所述可信度阈值的昵称数量占所述第二恶意昵称样本子集中昵称总数的比值，称为第二比值。

比较单元用于将所述第一比值和所述第二比值分别与预设的准确率阈值进行比较，若所述第一比值和所述第二比值都大于或等于所述准确率阈值，则所述可信度阈值有效。

本发明的社交僵尸网络控制节点的检测装置，能够在无需对僵尸程序进行逆向的情况下，快速准确地检测出NGA生成的伪随机昵称，能够为进一步推动社交僵尸网络积极防御技术的发展提供重要帮助。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种社交僵尸网络控制节点的检测方法，其特征在于，包括：

所述步骤三包括：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{x &Element; X_{i}} L_{i} (x)}{N - i + 1}

其中，X代表昵称，k代表频繁表的最大阶数，X_i代表X的第i阶子序列，L_i(x)代表昵称字符串x在第i阶频繁表L_i中对应的频数，若不存在，则置为0，N表示昵称X的长度；

P (X) |_{0}^{1} = \frac{P (X)}{M a x {M a x (T_{2}), M a x (F_{1})} - M i n {M i n (T_{2}), M i n (F_{1})}};

统计生成可信度阈值，使得所述第二合法昵称样本子集中可信度小于所述可信度阈值的昵称数量与所述第一恶意昵称样本子集中可信度大于所述可信度阈值的昵称数量之差的绝对值最小；

步骤五，若经检验，所述可信度阈值有效，则将社交网络中节点对应的昵称作为待检测昵称，根据所述可信度计算函数计算所述待检测昵称的可信度，若所述待检测昵称的可信度小于所述可信度阈值，则所述待检测昵称为恶意昵称，与所述待检测昵称对应的节点为社交僵尸网络控制节点，否则所述待检测昵称为合法昵称。

2.根据权利要求1所述的社交僵尸网络控制节点的检测方法，其特征在于，所述步骤二中，设定频数阈值等于SIZE与MIN_SUP的乘积，其中，SIZE为所述第一合法昵称样本子集的样本规模，SIZE等于所述第一合法昵称样本子集中昵称的数量，MIN_SUP为最小相对支持度，最小相对支持度是指算法支持的某个字符串出现次数与样本数量的最小比值。

3.根据权利要求2所述的社交僵尸网络控制节点的检测方法，其特征在于，所述最小相对支持度MIN_SUP的值能够应用自适应算法进行动态调整。

4.根据权利要求1所述的社交僵尸网络控制节点的检测方法，其特征在于，所述步骤四包括：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{x &Element; X_{i}} L_{i} (x)}{N - i + 1}

其中，X代表昵称，k代表频繁表的最大阶数，X_i代表X的第i阶子序列，L_i(x)代表昵称子串x在第i阶频繁表L_i中对应的频数，若不存在，则置为0，N表示昵称X的长度；

5.一种社交僵尸网络控制节点的检测装置，其特征在于，包括顺次相连的采集模块、挖掘模块、获取模块、验证模块和检测模块，其中：

挖掘模块，用于基于改进的Aprior算法，从所述第一合法昵称样本子集中挖掘出所有出现频数超过设定频数阈值的各阶子字符串，将所述各阶子字符串及其出现频数按阶保存在频繁表中，其中，所述改进的Aprior算法，是指调整了生成候选表的连接规则和剪枝规则的Aprior算法，阶是指字符串的长度，出现频数是指出现次数；

所述获取模块包括：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{x &Element; X_{i}} L_{i} (x)}{N - i + 1}

P (X) |_{0}^{1} = \frac{P (X)}{M a x {M a x (T_{2}), M a x (F_{1})} - M i n {M i n (T_{2}), M i n (F_{1})}};

生成单元，用于统计生成可信度阈值，使得所述第二合法昵称样本子集中可信度小于所述可信度阈值的昵称数量与所述第一恶意昵称样本子集中可信度大于所述可信度阈值的昵称数量之差的绝对值最小；

检测模块，用于在经检验所述可信度阈值有效时，将社交网络中节点对应的昵称作为待检测昵称，根据所述可信度计算函数计算所述待检测昵称的可信度，若所述待检测昵称的可信度小于所述可信度阈值，则所述待检测昵称为恶意昵称，与所述待检测昵称对应的节点为社交僵尸网络控制节点，否则所述待检测昵称为合法昵称。

6.根据权利要求5所述的社交僵尸网络控制节点的检测装置，其特征在于，所述设定频数阈值等于SIZE与MIN_SUP的乘积，其中，SIZE为所述第一合法昵称样本子集的样本规模，SIZE等于所述第一合法昵称样本子集中昵称的数量，MIN_SUP为最小相对支持度，最小相对支持度是指算法支持的某个字符串出现次数与样本数量的最小比值。

7.根据权利要求6所述的社交僵尸网络控制节点的检测装置，其特征在于，所述最小相对支持度MIN_SUP的值能够应用自适应算法进行动态调整。

8.根据权利要求5所述的社交僵尸网络控制节点的检测装置，其特征在于，所述验证模块包括：

P (X) = Σ_{i = 1}^{k} \frac{Σ_{x &Element; X_{i}} L_{i} (x)}{N - i + 1}