CN116896478A

CN116896478A - 一种用于对僵尸主机进行检测的方法及系统

Info

Publication number: CN116896478A
Application number: CN202311100083.7A
Authority: CN
Inventors: 马娜; 白红霞; 王潇; 甄小丽; 李海亮; 徐剑南; 刘瑞全
Original assignee: Jiang Nan Information Security Beijing Technology Co ltd
Current assignee: Jiang Nan Information Security Beijing Technology Co ltd
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-10-17
Anticipated expiration: 2043-08-29
Also published as: CN116896478B

Abstract

本发明提供了一种用于对僵尸主机进行检测的方法及系统，其中方法包括：获取源僵尸主机所发送的第一预定数量的历史数据包；获取待检测的目标主机所发送的第二预定数量的历史数据包；基于源僵尸主机的标识符和待检测的目标主机的标识符，确定源僵尸主机与待检测的目标主机的标识相似度；将源僵尸主机所发送的第一预定数量的历史数据包构成第一数据序列，并且将待检测的目标主机所发送的第二预定数量的历史数据包构成第二数据序列，确定第一数据序列和第二数据序列的数据相似度；以及基于标识相似度和数据相似度，确定源僵尸主机和待检测的目标主机的主机相似度，并基于主机相似度确定待检测的目标主机是否为僵尸主机。

Description

一种用于对僵尸主机进行检测的方法及系统

技术领域

本发明涉及网络信息安全技术领域，并且更具体地，涉及一种用于对僵尸主机进行检测的方法及系统、计算机可读存储介质以及电子设备。

背景技术

随着网络技术的不断发展，越来越多的网络设备被用于提供各种类型的服务。出于不同的目的，网络恶意攻击者利用网络漏洞来攻击不同的网络设备。例如，利用僵尸主机来攻击重要的网络，从而为网络恶意攻击者提供利益。为此，利用诸如入侵检测的网络安全防护技术被广泛用于提供网络安全。

现有技术中，对僵尸主机的检测方案通常采用单一的检测手段，无法满足目前僵尸主机的网络行为越来越复杂的情况。

发明内容

为了解决现有技术中的问题，本申请提出了一种用于对僵尸主机进行检测的方法及系统、计算机可读存储介质以及电子设备，基于多个维度或多个属性，准确地确定待检测的目标主机和源僵尸主机之间的匹配度，从而提升僵尸主机的识别准确率。

根据本发明的一个发明，提供一种用于对僵尸主机进行检测的方法，所述方法包括：

从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机，获取所述源僵尸主机的标识符，并基于所述源僵尸主机的标识符获取所述源僵尸主机所发送的第一预定数量的历史数据包；

确定待检测的目标主机并获取所述待检测的目标主机的标识符，基于所述待检测的目标主机的标识符获取待检测的目标主机所发送的第二预定数量的历史数据包；

基于所述源僵尸主机的标识符和所述待检测的目标主机的标识符，确定所述源僵尸主机与所述待检测的目标主机的标识相似度；

将所述源僵尸主机所发送的第一预定数量的历史数据包构成第一数据序列，并且将待检测的目标主机所发送的第二预定数量的历史数据包构成第二数据序列，确定所述第一数据序列和第二数据序列的数据相似度；以及

基于标识相似度和数据相似度，确定所述源僵尸主机和待检测的目标主机的主机相似度，并基于所述主机相似度确定待检测的目标主机是否为僵尸主机。

优选地，其中，从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机，包括：

从入侵检测系统或入侵检测程序获取所述已知的僵尸网络内多个僵尸主机中每个僵尸主机的运行数据；以及

基于每个僵尸主机的运行数据，从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机；

其中，所述运行数据包括：第一统计时间段内发送到每个目的主机的数据包的数量和第二统计时间段内发送到每个目的主机的数据包的数量，其中第一统计时间段和第二统计时间段的时间长度相同并且第一统计时间段和第二统计时间段是时间上相邻的两个统计时间段，第一统计时间段在时间上比第二统计时间段更接近当前时间；

其中，所述运行数据还包括：每个僵尸主机在第一统计时间段内发送的数据包所涉及的目的主机的数量，以及每个僵尸主机在第二统计时间段内发送的数据包所涉及的目的主机的数量。

优选地，其中，基于每个僵尸主机的运行数据，从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机，包括：

基于每个僵尸主机的运行数据，确定每个僵尸主机的网络攻击参数值；以及

将已知的僵尸网络内的多个僵尸主机中，网络攻击参数值最大的僵尸主机选择作为源僵尸主机。

优选地，其中，基于每个僵尸主机的运行数据，确定每个僵尸主机的网络攻击参数值，包括：

基于以下公式确定每个僵尸主机的网络攻击参数值：

其中

其中，AttackPara_v为已知的僵尸网络内第v个僵尸主机的网络攻击参数值；

1≤k≤fn_v，k和fn_v为自然数，fn_v为第v个僵尸主机在第一统计时间段内发送的数据包所涉及的目的主机的数量，FDestHostPackage_v,k为第一统计时间段内第v个僵尸主机发送到第k个目的主机的数据包的数量；

1≤h≤sn_v，h和sn_v为自然数，sn_v为第v个僵尸主机在第二统计时间段内发送的数据包所涉及的目的主机的数量，SDestHostPackage_v,h为第二统计时间段内第v个僵尸主机发送到第h个目的主机的数据包的数量；

R_v为第v个僵尸主机的比率参数，1≤v≤n_bothost，v和n_bothost为自然数，n_bothost为已知的僵尸网络内僵尸主机的数量，α为第一调节系数，β为第二调节系数，γ为第三调节系数；0<α<1，0<β<1和0<γ<1并且α+β+γ＝1。

优选地，其中，基于所述源僵尸主机的标识符获取所述源僵尸主机所发送的第一预定数量的历史数据包，包括：

基于所述源僵尸主机的标识符，在入侵检测系统中或由入侵检测程序获取所述源僵尸主机所发送的第一预定数量的历史数据包。

优选地，确定待检测的目标主机，包括：

当希望对多个主机中选定的主机进行检测时，将所述选定的主机确定为待检测的目标主机。

优选地，基于所述待检测的目标主机的标识符获取待检测的目标主机所发送的第二预定数量的历史数据包，包括：

基于所述待检测的目标主机的标识符，在入侵检测系统中或由入侵检测程序获取待检测的目标主机所发送的第二预定数量的历史数据包。

根据本发明的另一个发明，提供一种用于对僵尸主机进行检测的系统，所述系统包括：

选择装置，用于从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机，获取所述源僵尸主机的标识符，并基于所述源僵尸主机的标识符获取所述源僵尸主机所发送的第一预定数量的历史数据包；

获取装置，用于确定待检测的目标主机并获取所述待检测的目标主机的标识符，基于所述待检测的目标主机的标识符获取待检测的目标主机所发送的第二预定数量的历史数据包；

第一确定装置，用于基于所述源僵尸主机的标识符和所述待检测的目标主机的标识符，确定所述源僵尸主机与所述待检测的目标主机的标识相似度；

构成装置，用于将所述源僵尸主机所发送的第一预定数量的历史数据包构成第一数据序列，并且将待检测的目标主机所发送的第二预定数量的历史数据包构成第二数据序列，确定所述第一数据序列和第二数据序列的数据相似度；以及

第二确定装置，用于基于标识相似度和数据相似度，确定所述源僵尸主机和待检测的目标主机的主机相似度，并基于所述主机相似度确定待检测的目标主机是否为僵尸主机。

根据本发明的再一方面，提供一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行任意实施例所述的方法。

根据本发明的再一方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现任意实施例所述的方法。

根据本发明的技术方案，首先选择作为基准的源僵尸主机并随后获取源僵尸主机所发送的第一预定数量的历史数据包；随后，为了进行准确的匹配，取待检测的目标主机所发送的第二预定数量的历史数据包。为了能够提升僵尸主机的识别准确率，一方面，基于所述源僵尸主机的标识符和所述待检测的目标主机的标识符，确定所述源僵尸主机与所述待检测的目标主机的标识相似度；另一方面，确定述源僵尸主机所发送的第一预定数量的历史数据包和待检测的目标主机所发送的第二预定数量的历史数据包的数据相似度；最后，基于标识相似度和数据相似度，确定所述源僵尸主机和待检测的目标主机的主机相似度，并基于所述主机相似度确定待检测的目标主机是否为僵尸主机。通过本发明的技术方案，能够准确地确定待检测的目标主机和源僵尸主机之间的匹配度，从而提升僵尸主机的识别准确率

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的用于对僵尸主机进行检测的方法的流程图；

图2为根据本发明实施方式的网络系统的结构示意图；以及

图3为根据本发明实施方式的用于对僵尸主机进行检测的系统的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的用于对僵尸主机进行检测的方法的流程图。方法100包括：

步骤101，从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机，获取源僵尸主机的标识符，并基于源僵尸主机的标识符获取源僵尸主机所发送的第一预定数量的历史数据包。图2为根据本发明实施方式的网络系统的结构示意图。如图2所示，僵尸网络中包括多个僵尸主机。僵尸网络例如是被入侵检测系统或其它网络安全系统检测到并确定的多个网络主机的集合。通常，恶意攻击者利用僵尸网络(具体地，僵尸网络中的多个主机，也被称为僵尸主机)来攻击特定的网络设备或网络主机。由于僵尸网络中的僵尸主机的硬件配置或设备性能通常并不相同，为此，在对特定的网络设备或网络主机进行攻击时，不同的僵尸主机会呈现不同的攻击效果(例如，攻击频次、攻击频率、攻击效果等)。为此，在确定或识别待检测的目标主机是否为僵尸主机时，为了获得更高的识别或确定准确率，在一个实施例中，从已知的僵尸网络内的多个僵尸主机中选择最具有代表性或最能体现僵尸主机特点的源僵尸主机。其中源僵尸主机的标识符为符合互联网中继聊天IRC(Internet Relay Chat)协议的标识符。

在一个实施例中，从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机，包括：从入侵检测系统或入侵检测程序获取已知的僵尸网络内多个僵尸主机中每个僵尸主机的运行数据；以及基于每个僵尸主机的运行数据，从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机。其中，运行数据包括：第一统计时间段内发送到每个目的主机的数据包的数量和第二统计时间段内发送到每个目的主机的数据包的数量，其中第一统计时间段和第二统计时间段的时间长度相同并且第一统计时间段和第二统计时间段是时间上相邻的两个统计时间段，第一统计时间段在时间上比第二统计时间段更接近当前时间。例如，当前时间为2023年3月11日，第一统计时间段为2023年3月1日(包含3月1日)至2023年3月10日(包含3月10日)(第一统计时间段共包括10个自然日)，第二统计时间段为2023年2月19日(包含2月19日)至2023年2月28日(包含2月28日)(第二统计时间段共包括10个自然日)。应当了解的是，统计时间段的时间长度可以是任意合理的数值，并且可以过去的时间划分为多个统计时间段，例如每10天为一个统计时间段。

优选地，运行数据还包括：每个僵尸主机在第一统计时间段内发送的数据包所涉及的目的主机的数量，以及每个僵尸主机在第二统计时间段内发送的数据包所涉及的目的主机的数量。发送的数据包所涉及的目的主机的数量例如是僵尸主机在第一统计时间段或第二统计时间段内所攻击的目的主机的数量。

在一个实施例中，基于每个僵尸主机的运行数据，从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机，包括：基于每个僵尸主机的运行数据，确定每个僵尸主机的网络攻击参数值；以及将已知的僵尸网络内的多个僵尸主机中，网络攻击参数值最大的僵尸主机选择作为源僵尸主机。其中，网络攻击参数值可以用于表征僵尸主机的网络攻击能力或网络攻击强度等。为此，本申请将网络攻击参数值最大的僵尸主机选择作为源僵尸主机。

在一个实施例中，基于每个僵尸主机的运行数据，确定每个僵尸主机的网络攻击参数值，包括：

基于以下公式确定每个僵尸主机的网络攻击参数值：

其中

其中，AttackPara_v为已知的僵尸网络内第v个僵尸主机的网络攻击参数值；1≤k≤fn_v，k和fn_v为自然数，fn_v为第v个僵尸主机在第一统计时间段内发送的数据包所涉及的目的主机的数量，FDestHostPackage_v,k为第一统计时间段内第v个僵尸主机发送到第k个目的主机的数据包的数量；1≤h≤sn_v，h和sn_v为自然数，sn_v为第v个僵尸主机在第二统计时间段内发送的数据包所涉及的目的主机的数量，SDestHostPackage_v,h为第二统计时间段内第v个僵尸主机发送到第h个目的主机的数据包的数量；R_v为第v个僵尸主机的比率参数，1≤v≤n_bothost，v和n_bothost为自然数，n_bothost为已知的僵尸网络内僵尸主机的数量，α为第一调节系数，β为第二调节系数，γ为第三调节系数；0<α<1，0<β<1和0<γ<1并且α+β+γ＝1。

在一个实施例中，基于源僵尸主机的标识符获取源僵尸主机所发送的第一预定数量的历史数据包，包括：基于源僵尸主机的标识符，在入侵检测系统中或由入侵检测程序获取源僵尸主机所发送的第一预定数量的历史数据包。应当了解的是，入侵检测系统或入侵检测程序对网络中的入侵行为进行检测，这些入侵行为通常是通过发送数据包来完成的，因此入侵检测系统或入侵检测程序会将僵尸网络中每个僵尸主机在预定时间长度内所发送的历史数据包进行存储，从而便于对网络攻击行为进行分析或统计等。

步骤102，确定待检测的目标主机并获取待检测的目标主机的标识符，基于待检测的目标主机的标识符获取待检测的目标主机所发送的第二预定数量的历史数据包。如图2所示，僵尸网络是被恶意攻击者控制并且能够利用其中的多个僵尸主机对僵尸网络外部的主机进行攻击的网络区域或主机的集合。僵尸网络的外部可以具有多个主机，并且任意一个主机可能是僵尸主机。为了确定主机是否为僵尸主机，需要在多个主机中确定待检测的目标主机。其中，确定待检测的目标主机，包括：当希望对多个主机中选定的主机进行检测时，将选定的主机确定为待检测的目标主机。优选地，基于待检测的目标主机的标识符获取待检测的目标主机所发送的第二预定数量的历史数据包，包括：基于待检测的目标主机的标识符，在入侵检测系统中或由入侵检测程序获取待检测的目标主机所发送的第二预定数量的历史数据包。优选地，第一预定数量和第二预定数量相同。此外，在某些情况下，第一预定数量和第二预定数量可以不同。待检测的目标主机的标识符为符合IRC协议的标识符。

步骤103，基于源僵尸主机的标识符和待检测的目标主机的标识符，确定源僵尸主机与待检测的目标主机的标识相似度。如图2所示，为了确定待检测的目标主机是否为僵尸主机，需要确定源僵尸主机和待检测的目标主机的主机相似度。根据本申请的实施例，为了确定源僵尸主机和待检测的目标主机的主机相似度，需要确定源僵尸主机和待检测的目标主机的基于标识相似度和数据相似度。

在一个实施例中，基于源僵尸主机的标识符和待检测的目标主机的标识符，确定源僵尸主机与待检测的目标主机的标识相似度，包括：确定源僵尸主机的标识符和待检测的目标主机的标识符的字符相似度；确定源僵尸主机的标识符和待检测的目标主机的标识符的结构相似度；确定源僵尸主机的标识符和待检测的目标主机的标识符的内容相似度；利用字符相似度、结构相似度和内容相似度，构成源僵尸主机与待检测的目标主机的标识相似度；其中源僵尸主机的标识符为符合互联网中继聊天IRC协议的标识符，并且待检测的目标主机的标识符为符合IRC协议的标识符。

在一个实施例中，确定源僵尸主机的标识符和待检测的目标主机的标识符的字符相似度，包括：

获取源僵尸主机的标识符和待检测的目标主机的标识符的公共子串集合K：

K＝substring(X,Y,n_s)

其中，公共子串集合K包括源僵尸主机的标识符和待检测的目标主机的标识符的多个公共子串并且每个公共子串的字符数量均大于n_s，X为源僵尸主机的标识符，Y为待检测的目标主机的标识符，substring(X,Y,n_s)为用于获取源僵尸主机的标识符X和待检测的目标主机的标识符Y之间字符数量大于n_s的公共子串集合；n_s为预先设置的字符数量并且n_s为自然数；

基于公共子串集合K，确定源僵尸主机的标识符和待检测的目标主机的标识符的字符相似度：

在一个实施例中，确定源僵尸主机的标识符和待检测的目标主机的标识符的结构相似度，包括：

确定源僵尸主机的标识符的结构四元组，确定待检测的目标主机的标识符的结构四元组，其中结构四元组包括四个元素：字母数量、符号数量、数字数量和附加字符数量；

确定源僵尸主机的标识符的熵值H(X)，

其中，H(X)为源僵尸主机的标识符的熵值，ic和nf为自然数，1≤ic≤nf并且nf为结构四元组所包括的元素的数量，nf＝4；p(x_ic)为源僵尸主机的标识符的结构四元组中第ic个元素的数量比率；x_ic为源僵尸主机的标识符的结构四元组中第ic个元素的数量值；

确定待检测的目标主机的标识符的熵值H(Y)，

其中，H(Y)为待检测的目标主机的标识符的熵值，p(y_ic)为待检测的目标主机的标识符的结构四元组中第ic个元素的数量比率y_ic为待检测的目标主机的标识符的结构四元组中第ic个元素的数量值；

基于源僵尸主机的标识符的熵值和待检测的目标主机的标识符的熵值，确定源僵尸主机的标识符和待检测的目标主机的标识符的结构相似度：

b＝|H(X)-H(Y)|

其中，b为源僵尸主机的标识符和待检测的目标主机的标识符的结构相似度，|H(X)-H(Y)|为源僵尸主机的标识符的熵值和待检测的目标主机的标识符的熵值的差值的绝对值。

在一个实施例中，确定源僵尸主机的标识符和待检测的目标主机的标识符的内容相似度，包括：

对源僵尸主机的标识符进行单词提取，以获取第一单词集合：

U_X＝countname(X)

其中，U_X为第一单词集合，X为源僵尸主机的标识符，countname()为单词提取函数；其中U_X包括多个单词；

对待检测的目标主机的标识符进行单词提取，以获取第二单词集合：

U_Y＝countname(Y)

其中，U_Y为第二单词集合，Y为待检测的目标主机的标识符，其中U_Y包括多个单词；

基于以下公式计算源僵尸主机的标识符和待检测的目标主机的标识符的内容相似度：

其中，c为源僵尸主机的标识符和待检测的目标主机的标识符的内容相似度，U_xi为第一单词集合U_X中的第i个单词，U_yj为第二单词集合U_Y中的第j个单词；

其中，是取(|wordtovector(U_xi)-wordtovector(U_yj)|)中第一单词集合U_X中的第i个单词与第二单词集合U_Y中每个单词的多个模中的最小值；

其中，|wordtovector(U_xi)-wordtovector(U_yj)|为取wordtovector(U_xi)和wordtovector(U_yj)的差值的模；wordtovector为将单词转换为向量。

在一个实施例中，利用字符相似度、结构相似度和内容相似度，构成源僵尸主机与待检测的目标主机的标识相似度，包括：利用字符相似度、结构相似度和内容相似度构成第一相似度集合，将第一相似度集合作为源僵尸主机与待检测的目标主机的标识相似度。第一相似度集合包括三个元素，即源僵尸主机与待检测的目标主机的字符相似度、结构相似度和内容相似度。

步骤104，将源僵尸主机所发送的第一预定数量的历史数据包构成第一数据序列，并且将待检测的目标主机所发送的第二预定数量的历史数据包构成第二数据序列，确定第一数据序列和第二数据序列的数据相似度。

在一个实施例中，将源僵尸主机所发送的第一预定数量的历史数据包构成第一数据序列，包括：将源僵尸主机所发送的第一预定数量的历史数据包中每个历史数据包转换为字符串，以获得与第一预定数量的历史数据包相对应的多个字符串；以及将与第一预定数量的历史数据包相对应的多个字符串按照第一时间顺序进行字符串连接，以构成第一数据序列，第一时间顺序为按照时间流逝方向的顺序。例如，第一预定数量的历史数据包按照时间顺序为：数据包a1(时间最早)、数据包a2、……、数据包aN(时间最晚)。将第一预定数量的历史数据包分别转换为字符串，得到字符串s(a1)、字符串s(a2)、……、字符串s(aN)。由此可知，将字符串s(a1)、字符串s(a2)、……、字符串s(aN)进行字符串连接，以构成第一数据序列，即，s(a1)+s(a2)+、……、+s(aN)。

在一个实施例中，将待检测的目标主机所发送的第二预定数量的历史数据包构成第二数据序列，包括：将待检测的目标主机所发送的第二预定数量的历史数据中每个历史数据包转换为字符串，以获得与第二预定数量的历史数据包相对应的多个字符串；以及将与第二预定数量的历史数据包相对应的多个字符串按照第一时间顺序进行字符串连接，以构成第二数据序列，第一时间顺序为按照时间流逝方向的顺序。例如，第二预定数量的历史数据包按照时间顺序为：数据包b1(时间最早)、数据包b2、……、数据包bN(时间最晚)。将第二预定数量的历史数据包分别转换为字符串，得到字符串s(b1)、字符串s(b2)、……、字符串s(bN)。由此可知，将字符串s(b1)、字符串s(b2)、……、字符串s(bN)进行字符串连接，以构成第二数据序列，即，s(b1)+s(b2)+、……、+s(bN)。

在一个实施例中，确定第一数据序列和第二数据序列的数据相似度，包括：确定第一数据序列和第二数据序列的长度相似度；确定第一数据序列和第二数据序列的内容相似度；基于长度相似度和内容相似度，确定第一数据序列和第二数据序列的数据相似度。

在一个实施例中，其中，确定第一数据序列和第二数据序列的长度相似度，包括：

基于以下公式计算第一数据序列和第二数据序列的长度相似度

其中，d为第一数据序列和第二数据序列的长度相似度；

Z_i为第一数据序列中的第i个历史数据包；P_i为第二数据序列中的第i个历史数据包；|Z_i|为第一数据序列中的第i个历史数据包所包括的字节的数量；|P_i|为第一数据序列中的第i个历史数据包所包括的字节的数量；

||Z_i|-|P_i||为|Z_i|和|P_i|的差值的绝对值；

第一数据序列中的历史数据包的数量与第二数据序列中的历史数据包的数量相同，均为t；其中1≤i≤t；i和t为自然数。

在可替代的实施例中，t为第一数据序列Z和P的元素内容的最小值，|Zi|为第i个数据序列所包括的字符的数量。数据包长度相似性，是指由于僵尸网络的主机需要等待相似的命令，发起相似的主机，因此，数据包长度具有一定的相似性。

在一个实施例中，确定第一数据序列和第二数据序列的内容相似度，包括：

基于以下公式计算第一数据序列和第二数据序列的内容相似度：

其中，e为第一数据序列和第二数据序列的内容相似度；

H(Z_i)为Z_i的熵值；H(P_i)为P_i的熵值；

Z_i为第一数据序列中的第i个历史数据包；P_i为第二数据序列中的第i个历史数据包；

Z_ij为第一数据序列的第i个历史数据包的第j个字符；

P_ij为第二数据序列的第i个历史数据包的第j个字符；

其中第一数据序列中的历史数据包的数量与第二数据序列中的历史数据包的数量相同，均为t，1≤i≤t；i和t均为自然数；

r为第i个历史数据包的字符数量，1≤j≤r；j和r均为自然数；

σ为第四调节系数，φ为第五调节系数，σ+φ＝1，0<σ<1，0<φ<1。

在一个实施例中，基于长度相似度和内容相似度，确定第一数据序列和第二数据序列的数据相似度，包括：将长度相似度和内容相似度构成第二相似度集合，将第二相似度集合作为第一数据序列和第二数据序列的数据相似度。例如，第二相似度集合中包括两个元素，即源僵尸主机与待检测的目标主机的数据相似度和内容相似度

步骤105，基于标识相似度和数据相似度，确定源僵尸主机和待检测的目标主机的主机相似度，并基于主机相似度确定待检测的目标主机是否为僵尸主机。

在一个实施例中，基于标识相似度和数据相似度，确定源僵尸主机和待检测的目标主机的主机相似度，包括：从标识相似度中获取，源僵尸主机的标识符和待检测的目标主机的标识符的字符相似度a、结构相似度b和内容相似度c；从数据相似度中获取，第一数据序列和第二数据序列的长度相似度d和第一数据序列和第二数据序列的内容相似度e；

基于以下公式计算源僵尸主机和待检测的目标主机的主机相似度：

其中，Result为源僵尸主机和待检测的目标主机的主机相似度，a为源僵尸主机的标识符和待检测的目标主机的标识符的字符相似度，b为源僵尸主机的标识符和待检测的目标主机的标识符的结构相似度，c为源僵尸主机的标识符和待检测的目标主机的标识符的内容相似度；

d为第一数据序列和第二数据序列的长度相似度以及e为第一数据序列和第二数据序列的内容相似度；θ为第六调节系数；μ为第七调节系数；θ+μ＝1，0<θ<1，0<μ<1。

在一个实施例中，其中基于主机相似度确定待检测的目标主机是否为僵尸主机，包括：当主机相似度大于或等于相似度阈值时，确定待检测的目标主机为僵尸主机；当主机相似度小于相似度阈值时，确定待检测的目标主机不是僵尸主机。优选地，可以预先设置相似度阈值。此外，可以根据需求对相似度阈值进行调整。

图3为根据本发明实施方式的用于对僵尸主机进行检测的系统的结构示意图。系统300包括：选择装置301、获取装置302、第一确定装置303、构成装置304以及第二确定装置305。

选择装置301，用于从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机，获取源僵尸主机的标识符，并基于源僵尸主机的标识符获取源僵尸主机所发送的第一预定数量的历史数据包。图2为根据本发明实施方式的网络系统的结构示意图。如图2所示，僵尸网络中包括多个僵尸主机。僵尸网络例如是被入侵检测系统或其它网络安全系统检测到并确定的多个网络主机的集合。通常，恶意攻击者利用僵尸网络(具体地，僵尸网络中的多个主机，也被称为僵尸主机)来攻击特定的网络设备或网络主机。由于僵尸网络中的僵尸主机的硬件配置或设备性能通常并不相同，为此，在对特定的网络设备或网络主机进行攻击时，不同的僵尸主机会呈现不同的攻击效果(例如，攻击频次、攻击频率、攻击效果等)。为此，在确定或识别待检测的目标主机是否为僵尸主机时，为了获得更高的识别或确定准确率，在一个实施例中，选择装置301用于从已知的僵尸网络内的多个僵尸主机中选择最具有代表性或最能体现僵尸主机特点的源僵尸主机。其中源僵尸主机的标识符为符合互联网中继聊天IRC(Internet Relay Chat)协议的标识符。

在一个实施例中，选择装置301具体用于从入侵检测系统或入侵检测程序获取已知的僵尸网络内多个僵尸主机中每个僵尸主机的运行数据；以及基于每个僵尸主机的运行数据，从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机。其中，运行数据包括：第一统计时间段内发送到每个目的主机的数据包的数量和第二统计时间段内发送到每个目的主机的数据包的数量，其中第一统计时间段和第二统计时间段的时间长度相同并且第一统计时间段和第二统计时间段是时间上相邻的两个统计时间段，第一统计时间段在时间上比第二统计时间段更接近当前时间。例如，当前时间为2023年3月11日，第一统计时间段为2023年3月1日(包含3月1日)至2023年3月10日(包含3月10日)(第一统计时间段共包括10个自然日)，第二统计时间段为2023年2月19日(包含2月19日)至2023年2月28日(包含2月28日)(第二统计时间段共包括10个自然日)。应当了解的是，统计时间段的时间长度可以是任意合理的数值，并且可以过去的时间划分为多个统计时间段，例如每10天为一个统计时间段。

在一个实施例中，选择装置301具体用于基于每个僵尸主机的运行数据，确定每个僵尸主机的网络攻击参数值；以及将已知的僵尸网络内的多个僵尸主机中，网络攻击参数值最大的僵尸主机选择作为源僵尸主机。其中，网络攻击参数值可以用于表征僵尸主机的网络攻击能力或网络攻击强度等。为此，本申请将网络攻击参数值最大的僵尸主机选择作为源僵尸主机。

在一个实施例中，选择装置301具体用于基于以下公式确定每个僵尸主机的网络攻击参数值：

其中

在一个实施例中，选择装置301具体用于基于源僵尸主机的标识符，在入侵检测系统中或由入侵检测程序获取源僵尸主机所发送的第一预定数量的历史数据包。应当了解的是，入侵检测系统或入侵检测程序对网络中的入侵行为进行检测，这些入侵行为通常是通过发送数据包来完成的，因此入侵检测系统或入侵检测程序会将僵尸网络中每个僵尸主机在预定时间长度内所发送的历史数据包进行存储，从而便于对网络攻击行为进行分析或统计等。

获取装置302，用于确定待检测的目标主机并获取待检测的目标主机的标识符，基于待检测的目标主机的标识符获取待检测的目标主机所发送的第二预定数量的历史数据包。如图2所示，僵尸网络是被恶意攻击者控制并且能够利用其中的多个僵尸主机对僵尸网络外部的主机进行攻击的网络区域或主机的集合。僵尸网络的外部可以具有多个主机，并且任意一个主机可能是僵尸主机。为了确定主机是否为僵尸主机，需要在多个主机中确定待检测的目标主机。其中，确定待检测的目标主机，包括：当希望对多个主机中选定的主机进行检测时，将选定的主机确定为待检测的目标主机。优选地，基于待检测的目标主机的标识符获取待检测的目标主机所发送的第二预定数量的历史数据包，包括：基于待检测的目标主机的标识符，在入侵检测系统中或由入侵检测程序获取待检测的目标主机所发送的第二预定数量的历史数据包。优选地，第一预定数量和第二预定数量相同。此外，在某些情况下，第一预定数量和第二预定数量可以不同。待检测的目标主机的标识符为符合IRC协议的标识符。

第一确定装置303用于基于源僵尸主机的标识符和待检测的目标主机的标识符，确定源僵尸主机与待检测的目标主机的标识相似度。如图2所示，为了确定待检测的目标主机是否为僵尸主机，需要确定源僵尸主机和待检测的目标主机的主机相似度。根据本申请的实施例，为了确定源僵尸主机和待检测的目标主机的主机相似度，需要确定源僵尸主机和待检测的目标主机的基于标识相似度和数据相似度。

在一个实施例中，第一确定装置303具体用于确定源僵尸主机的标识符和待检测的目标主机的标识符的字符相似度；确定源僵尸主机的标识符和待检测的目标主机的标识符的结构相似度；确定源僵尸主机的标识符和待检测的目标主机的标识符的内容相似度；利用字符相似度、结构相似度和内容相似度，构成源僵尸主机与待检测的目标主机的标识相似度；其中源僵尸主机的标识符为符合互联网中继聊天IRC协议的标识符，并且待检测的目标主机的标识符为符合IRC协议的标识符。

在一个实施例中，第一确定装置303具体用于获取源僵尸主机的标识符和待检测的目标主机的标识符的公共子串集合K：

K＝substring(X,Y,ns)

在一个实施例中，第一确定装置303具体用于确定源僵尸主机的标识符的结构四元组，确定待检测的目标主机的标识符的结构四元组，其中结构四元组包括四个元素：字母数量、符号数量、数字数量和附加字符数量；

确定源僵尸主机的标识符的熵值H(X)，

确定待检测的目标主机的标识符的熵值H(Y)，

b＝|H(X)-H(Y)|

在一个实施例中，第一确定装置303具体用于对源僵尸主机的标识符进行单词提取，以获取第一单词集合：

U_X＝countname(X)

U_Y＝countname(Y)

在一个实施例中，第一确定装置303具体用于利用字符相似度、结构相似度和内容相似度构成第一相似度集合，将第一相似度集合作为源僵尸主机与待检测的目标主机的标识相似度。第一相似度集合包括三个元素，即源僵尸主机与待检测的目标主机的字符相似度、结构相似度和内容相似度。

构成装置304，用于将源僵尸主机所发送的第一预定数量的历史数据包构成第一数据序列，并且将待检测的目标主机所发送的第二预定数量的历史数据包构成第二数据序列，确定第一数据序列和第二数据序列的数据相似度。

在一个实施例中，构成装置304具体用于将源僵尸主机所发送的第一预定数量的历史数据包中每个历史数据包转换为字符串，以获得与第一预定数量的历史数据包相对应的多个字符串；以及将与第一预定数量的历史数据包相对应的多个字符串按照第一时间顺序进行字符串连接，以构成第一数据序列，第一时间顺序为按照时间流逝方向的顺序。例如，第一预定数量的历史数据包按照时间顺序为：数据包a1(时间最早)、数据包a2、……、数据包aN(时间最晚)。将第一预定数量的历史数据包分别转换为字符串，得到字符串s(a1)、字符串s(a2)、……、字符串s(aN)。由此可知，将字符串s(a1)、字符串s(a2)、……、字符串s(aN)进行字符串连接，以构成第一数据序列，即，s(a1)+s(a2)+、……、+s(aN)。

在一个实施例中，构成装置304具体用于将待检测的目标主机所发送的第二预定数量的历史数据中每个历史数据包转换为字符串，以获得与第二预定数量的历史数据包相对应的多个字符串；以及将与第二预定数量的历史数据包相对应的多个字符串按照第一时间顺序进行字符串连接，以构成第二数据序列，第一时间顺序为按照时间流逝方向的顺序。例如，第二预定数量的历史数据包按照时间顺序为：数据包b1(时间最早)、数据包b2、……、数据包bN(时间最晚)。将第二预定数量的历史数据包分别转换为字符串，得到字符串s(b1)、字符串s(b2)、……、字符串s(bN)。由此可知，将字符串s(b1)、字符串s(b2)、……、字符串s(bN)进行字符串连接，以构成第二数据序列，即，s(b1)+s(b2)+、……、+s(bN)。

在一个实施例中，构成装置304具体用于确定第一数据序列和第二数据序列的长度相似度；确定第一数据序列和第二数据序列的内容相似度；基于长度相似度和内容相似度，确定第一数据序列和第二数据序列的数据相似度。

在一个实施例中，构成装置304具体用于基于以下公式计算第一数据序列和第二数据序列的长度相似度，包括：

其中，d为第一数据序列和第二数据序列的长度相似度；

||Z_i|-|P_i||为|Z_i|和|P_i|的差值的绝对值；

在一个实施例中，构成装置304具体用于基于以下公式计算第一数据序列和第二数据序列的内容相似度，包括：

其中，e为第一数据序列和第二数据序列的内容相似度；

H(Z_i)为Z_i的熵值；H(P_i)为P_i的熵值；

Z_ij为第一数据序列的第i个历史数据包的第j个字符；

P_ij为第二数据序列的第i个历史数据包的第j个字符；

r为第i个历史数据包的字符数量，1≤j≤r；j和r均为自然数；

在一个实施例中，构成装置304具体用于将长度相似度和内容相似度构成第二相似度集合，将第二相似度集合作为第一数据序列和第二数据序列的数据相似度。例如，第二相似度集合中包括两个元素，即源僵尸主机与待检测的目标主机的数据相似度和内容相似度

第二确定装置305，用于基于标识相似度和数据相似度，确定源僵尸主机和待检测的目标主机的主机相似度，并基于主机相似度确定待检测的目标主机是否为僵尸主机。

在一个实施例中，第二确定装置305具体用于从标识相似度中获取，源僵尸主机的标识符和待检测的目标主机的标识符的字符相似度a、结构相似度b和内容相似度c；从数据相似度中获取，第一数据序列和第二数据序列的长度相似度d和第一数据序列和第二数据序列的内容相似度e；

在一个实施例中，第二确定装置305具体用于当主机相似度大于或等于相似度阈值时，确定待检测的目标主机为僵尸主机；当主机相似度小于相似度阈值时，确定待检测的目标主机不是僵尸主机。优选地，可以预先设置相似度阈值。此外，可以根据需求对相似度阈值进行调整。

Claims

1.一种用于对僵尸主机进行检测的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机，包括：

3.根据权利要求2所述的方法，其中，基于每个僵尸主机的运行数据，从已知的僵尸网络内的多个僵尸主机中选择源僵尸主机，包括：

4.根据权利要求3所述的方法，其中，基于每个僵尸主机的运行数据，确定每个僵尸主机的网络攻击参数值，包括：

基于以下公式确定每个僵尸主机的网络攻击参数值：

其中

5.根据权利要求1所述的方法，其中，基于所述源僵尸主机的标识符获取所述源僵尸主机所发送的第一预定数量的历史数据包，包括：

6.根据权利要求1所述的方法，其中，确定待检测的目标主机，包括：

7.根据权利要求1所述的方法，其中，基于所述待检测的目标主机的标识符获取待检测的目标主机所发送的第二预定数量的历史数据包，包括：

8.一种用于对僵尸主机进行检测的系统，所述系统包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行权利要求1-7中任一项所述的方法。

10.一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现权利要求1-7中任一项所述的方法。