CN117395162B

CN117395162B - 利用加密流量识别操作系统的方法、系统、设备及介质

Info

Publication number: CN117395162B
Application number: CN202311694303.3A
Authority: CN
Inventors: 麻宇航; 刘洋洋; 于通
Original assignee: Zhongfu Information Co Ltd
Current assignee: Zhongfu Information Co Ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-02-23
Anticipated expiration: 2043-12-12
Also published as: CN117395162A

Abstract

本申请公开了一种利用加密流量识别操作系统的方法、系统、设备及介质，主要涉及识别操作系统技术领域，用以解决现有的识别操作系统的工具容易受返回的数据报文准确性的影响、频繁使用识别工具对其他主机进行扫描，会影响部分网络系统的正常使用、判断操作系统依赖指纹库的问题。包括：获取样本加密流量数据以及样本加密流量数据对应的操作系统，获得训练好的聚类算法和训练好的SVM算法模型；获得各个训练好的SVM算法模型进行二分类的两个操作系统的具体名称；将测试加密流量数据输入2K+1个训练好的聚类算法，进而获得去重后的预测操作系统名称数据集，确定对应的训练好的SVM算法模型，进而获得输出的操作系统名称。

Description

利用加密流量识别操作系统的方法、系统、设备及介质

技术领域

本申请涉及操作系统识别技术领域，尤其涉及一种利用加密流量识别操作系统的方法、系统、设备及介质。

背景技术

随着网络与大数据技术的发展，大多数企业构建了自己的一套网络系统。系统中往往存在诸多终端、服务器、网络设备等，要想更好的维护网络系统安全，对终端、服务器、网络设备对应的操作系统中的资产进行合理的管理尤为重要，因此，需要识别操作系统。

现有的，识别操作系统的方法有：使用ICMP协议PING同一局域网内的目标机器，根据返回的TTL值判断操作系统类型；使用主动探测的操作系统识别工具，如Nmap；使用基于网络流量进行被动分析的操作系统识别工具，如P0f、xprobe2等，其实原理类似，都是基于网络流量中的数据包特征，生成操作系统指纹，再与操作系统指纹库进行比对，最终确认操作系统。

但是，现有的识别操作系统的方法存在以下问题：（1）主流的网络防护产品（例如，入侵检测系统、入侵防御系统）返回的数据报文存在不准确的问题，进而会影响识别工具的识别。（2）频繁使用识别工具对其他主机进行大量扫描，会占用部分网络资源，导致网络开销增大，严重时可能会出现网络阻塞，会影响部分网络系统的正常使用。（3）判断操作系统基本是依据自己维护的系统指纹库进行判断，如果在指纹库中没有匹配的操作系统，就无法识别。

发明内容

针对现有技术的上述不足，本申请提供一种利用加密流量识别操作系统的方法、系统、设备及介质，以解决现有的识别操作系统的工具容易受返回的数据报文准确性的影响、频繁使用识别工具对其他主机进行扫描，会影响部分网络系统的正常使用、判断操作系统依赖指纹库的问题。

第一方面，本申请提供了一种利用加密流量识别操作系统的方法，方法包括：获取操作系统的类型数量N，以创建个初始SVM算法模型；获取样本加密流量数据以及样本加密流量数据对应的操作系统，从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征；将样本加密流量数据对应的预设包级特征、预设会话特征、预设统计特征和操作系统，分别输入2K+1个初始聚类算法和初始SVM算法模型，以获得训练好的聚类算法和训练好的SVM算法模型；其中，K为大于1的整数；获得各个训练好的SVM算法模型进行二分类的两个操作系统的具体名称；获得测试加密流量数据，将测试加密流量数据输入2K+1个训练好的聚类算法，进而获得去重后的预测操作系统名称数据集；确定预测操作系统名称数据集中预测操作系统名称的数量；在数量为1时，确定唯一的预测操作系统名称为最终操作系统名称；在数量大于1时，基于预测操作系统名称数据集，确定对应的训练好的SVM算法模型，进而获得输出的操作系统名称。

进一步地，预设包级特征至少包括源端口、目的端口、包长度、有效载荷字节、TCP窗口大小、TCP窗口流向、支持的加密套件、网络协议选项、到达时间间隔，预设会话特征至少包括：应用层协议、协议参数、接收与发送数据包个数、会话持续时间以及会话有效负载，预设统计特征至少包括：平均数据包长度、平均延误时间间隔以及平均上下行数据比例、前向与后向的数据包大小。

进一步地，在获得训练好的聚类算法和训练好的SVM算法模型之前，方法还包括：通过损失函数，检测聚类算法和SVM算法模型的准确率；在准确率大于预设阈值时，获得训练好的聚类算法和训练好的SVM算法模型。

进一步地，从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征，具体包括：通过预设特征提取算法从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征。

进一步地，获得测试加密流量数据，具体包括：从网络数通设备接入或使用网络抓包工具获得；其中，网络数通设备至少包括交换机、防火墙。

第二方面，本申请提供了一种利用加密流量识别操作系统的系统，系统包括：获取模块，用于获取操作系统的类型数量N，以创建个初始SVM算法模型；获取样本加密流量数据以及样本加密流量数据对应的操作系统，从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征；训练模块，用于将样本加密流量数据对应的预设包级特征、预设会话特征、预设统计特征和操作系统，分别输入2K+1个初始聚类算法和初始SVM算法模型，以获得训练好的聚类算法和训练好的SVM算法模型；其中，K为大于1的整数；获得模块，用于获得各个训练好的SVM算法模型进行二分类的两个操作系统的具体名称；获得测试加密流量数据，将测试加密流量数据输入2K+1个训练好的聚类算法，进而获得去重后的预测操作系统名称数据集；确定预测操作系统名称数据集中预测操作系统名称的数量；在数量为1时，确定唯一的预测操作系统名称为最终操作系统名称；在数量大于1时，基于预测操作系统名称数据集，确定对应的训练好的SVM算法模型，进而获得输出的操作系统名称。

进一步地，训练模块包括检测单元，用于通过损失函数，检测聚类算法和SVM算法模型的准确率；在准确率大于预设阈值时，获得训练好的聚类算法和训练好的SVM算法模型。

进一步地，获得模块包括获得单元，用于从网络数通设备接入或使用网络抓包工具获得；其中，网络数通设备至少包括交换机、防火墙。

第三方面，本申请提供了一种利用加密流量识别操作系统的设备，设备包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被执行时，使得处理器执行如上述任一项的一种利用加密流量识别操作系统的方法。

第四方面，本申请提供了一种非易失性计算机存储介质，其上存储有计算机指令，计算机指令在被执行时实现如上述任一项的一种利用加密流量识别操作系统的方法。

本领域技术人员能够理解的是，本申请至少具有如下有益效果：

本申请通过聚类算法+SVM算法模型识别操作系统的，相较于传统的基于操作系统指纹库方式，具有更好的灵活性和易扩展性，并能够提高操作系统识别的效率。相较于以往的普通流量数据，本申请提出的操作系统识别方法可以扩展识别加密流量数据中的操作系统，在识别能力上更具有扩展性，另外，基于加密流量数据进行被动分析识别，识别过程在网络中几乎不可见，不会被网络内的IDS/IPS/防火墙等网络设备发现，避免了因防火墙等其他网络防护产品设备的网络策略等出现网络连通性问题而无法获取请求及返回报文信息的情况，从而提高操作系统的识别准确率。也就是，解决了现有的识别操作系统的工具容易受返回的数据报文准确性的影响的问题。本申请采用被动分析加密流量数据的方式，其分析识别过程无需连通网络环境，一方面节省了大量网络开销和负载，另一方面也可以避免网络中出现大量主机扫描流量，减轻网络防护产品压力。也就是，解决了频繁使用识别工具对其他主机进行扫描，会影响部分网络系统的正常使用的问题。

附图说明

下面参照附图来描述本公开的部分实施例，附图中：

图1是本申请实施例提供的一种利用加密流量识别操作系统的方法流程图。

图2是本申请实施例提供的一种利用加密流量识别操作系统的系统内部结构示意图。

图3是本申请实施例提供的一种利用加密流量识别操作系统的设备内部结构示意图。

具体实施方式

本领域技术人员应当理解的是，下文所描述的实施例仅仅是本公开的优选实施例，并不表示本公开仅能通过该优选实施例实现，该优选实施例仅仅是用于解释本公开的技术原理，并非用于限制本公开的保护范围。基于本公开提供的优选实施例，本领域普通技术人员在没有付出创造性劳动的情况下所获得的其它所有实施例，仍应落入到本公开的保护范围之内。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

下面通过附图对本申请实施例提出的技术方案进行详细的说明。

本申请实施例提供了一种利用加密流量识别操作系统的方法，如图1所示，本申请实施例提供的方法，主要包括以下步骤：

步骤110、获取操作系统的类型数量N，以创建个初始SVM算法模型；获取样本加密流量数据以及样本加密流量数据对应的操作系统，从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征。

需要说明的是，SVM（support vector machines 支持向量机）算法模型是一种二分类模型。预设包级特征至少包括源端口、目的端口、包长度、有效载荷字节、TCP窗口大小、TCP窗口流向、支持的加密套件、网络协议选项、到达时间间隔，预设会话特征至少包括：应用层协议、协议参数、接收与发送数据包个数、会话持续时间以及会话有效负载，预设统计特征至少包括：平均数据包长度、平均延误时间间隔以及平均上下行数据比例、前向与后向的数据包大小。

其中，从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征，具体可以为：

通过预设特征提取算法从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征。

步骤120、将样本加密流量数据对应的预设包级特征、预设会话特征、预设统计特征和操作系统，分别输入2K+1个初始聚类算法和初始SVM算法模型，以获得训练好的聚类算法和训练好的SVM算法模型。

需要说明的是，K为大于1的整数。

另外，在获得训练好的聚类算法和训练好的SVM算法模型之前，方法可以包括：通过损失函数，检测聚类算法和SVM算法模型的准确率；在准确率大于预设阈值时，获得训练好的聚类算法和训练好的SVM算法模型。

步骤130、获得各个训练好的SVM算法模型进行二分类的两个操作系统的具体名称；获得测试加密流量数据，将测试加密流量数据输入2K+1个训练好的聚类算法，进而获得去重后的预测操作系统名称数据集；确定预测操作系统名称数据集中预测操作系统名称的数量；在数量为1时，确定唯一的预测操作系统名称为最终操作系统名称；在数量大于1时，基于预测操作系统名称数据集，确定对应的训练好的SVM算法模型，进而获得输出的操作系统名称。

需要补充说明的是，K小于N。SVM算法模型为二值分类器，本领域技术人员可以通过输入数据或现有的任意可行的方法确定SVM算法模型进行二值分类的操作系统的具体名称。

步骤中，获得测试加密流量数据，具体可以为：从网络数通设备接入或使用网络抓包工具获得；其中，网络数通设备至少包括交换机、防火墙，网络抓包工具可以为tcpdump工具或wireshark工具。

本步骤需要补充说明的是，聚类算法为确定测试加密流量数据对应的操作系统的聚类算法，为了避免大量（个）SVM算法模型的运算，本申请通过少量的聚类算法，获得首次预测的操作系统名称，在预测的操作系统名称一致时，避免了SVM算法模型的运算。

除此之外，图2为本申请实施例提供的一种利用加密流量识别操作系统的系统。如图2所示，本申请实施例提供的系统，主要包括：

获取模块210，用于获取操作系统的类型数量N，以创建个初始SVM算法模型；获取样本加密流量数据以及样本加密流量数据对应的操作系统，从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征。

需要说明的是，获取模块210为任意可行的能够根据操作系统的类型数量，创建SVM算法模型，进行数据获取和提取的设备或装置。

训练模块220，用于将样本加密流量数据对应的预设包级特征、预设会话特征、预设统计特征和操作系统，分别输入2K+1个初始聚类算法和初始SVM算法模型，以获得训练好的聚类算法和训练好的SVM算法模型；其中，K为大于1的整数。

需要说明的是，训练模块220为任意可行的能够获得训练好的聚类算法和训练好的SVM算法模型的设备或装置。

训练模块220包括检测单元221，用于通过损失函数，检测聚类算法和SVM算法模型的准确率；在准确率大于预设阈值时，获得训练好的聚类算法和训练好的SVM算法模型。

获得模块230，用于获得各个训练好的SVM算法模型进行二分类的两个操作系统的具体名称；获得测试加密流量数据，将测试加密流量数据输入2K+1个训练好的聚类算法，进而获得去重后的预测操作系统名称数据集；确定预测操作系统名称数据集中预测操作系统名称的数量；在数量为1时，确定唯一的预测操作系统名称为最终操作系统名称；在数量大于1时，基于预测操作系统名称数据集，确定对应的训练好的SVM算法模型，进而获得输出的操作系统名称。

需要说明的是，获得模块230为任意可行的能够获得最终的操作系统名称的设备或装置。

获得模块230包括获得单元231，用于从网络数通设备接入或使用网络抓包工具获得；其中，网络数通设备至少包括交换机、防火墙，网络抓包工具可以为tcpdump工具或wireshark工具。

以上为本申请中的方法实施例，基于同样的发明构思，本申请实施例还提供了一种利用加密流量识别操作系统的设备。如图3所示，该设备包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被执行时，使得处理器执行如上述实施例中的一种利用加密流量识别操作系统的方法。

具体地，服务器端获取操作系统的类型数量N，以创建个初始SVM算法模型；获取样本加密流量数据以及样本加密流量数据对应的操作系统，从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征；将样本加密流量数据对应的预设包级特征、预设会话特征、预设统计特征和操作系统，分别输入2K+1个初始聚类算法和初始SVM算法模型，以获得训练好的聚类算法和训练好的SVM算法模型；其中，K为大于1的整数；获得各个训练好的SVM算法模型进行二分类的两个操作系统的具体名称；获得测试加密流量数据，将测试加密流量数据输入2K+1个训练好的聚类算法，进而获得去重后的预测操作系统名称数据集；确定预测操作系统名称数据集中预测操作系统名称的数量；在数量为1时，确定唯一的预测操作系统名称为最终操作系统名称；在数量大于1时，基于预测操作系统名称数据集，确定对应的训练好的SVM算法模型，进而获得输出的操作系统名称。

除此之外，本申请实施例还提供了一种非易失性计算机存储介质，其上存储有可执行指令，在该可执行指令被执行时，实现如上述的一种利用加密流量识别操作系统的方法。

至此，已经结合前文的多个实施例描述了本公开的技术方案，但是，本领域技术人员容易理解的是，本公开的保护范围并不仅限于这些具体实施例。在不偏离本公开技术原理的前提下，本领域技术人员可以对上述各个实施例中的技术方案进行拆分和组合，也可以对相关技术特征作出等同的更改或替换，凡在本公开的技术构思和/或技术原理之内所做的任何更改、等同替换、改进等都将落入本公开的保护范围之内。

Claims

1.一种利用加密流量识别操作系统的方法，其特征在于，所述方法包括：

获取操作系统的类型数量N，以创建个初始SVM算法模型；获取样本加密流量数据以及样本加密流量数据对应的操作系统，从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征；

将样本加密流量数据对应的预设包级特征、预设会话特征、预设统计特征和操作系统，分别输入2K+1个初始聚类算法和初始SVM算法模型，以获得训练好的聚类算法和训练好的SVM算法模型；其中，K为大于1的整数；

获得各个训练好的SVM算法模型进行二分类的两个操作系统的具体名称；获得测试加密流量数据，将测试加密流量数据输入2K+1个训练好的聚类算法，进而获得去重后的预测操作系统名称数据集；确定预测操作系统名称数据集中预测操作系统名称的数量；在数量为1时，确定唯一的预测操作系统名称为最终操作系统名称；在数量大于1时，基于预测操作系统名称数据集，确定对应的训练好的SVM算法模型，进而获得输出的操作系统名称。

2.根据权利要求1所述的利用加密流量识别操作系统的方法，其特征在于，

预设包级特征至少包括源端口、目的端口、包长度、有效载荷字节、TCP窗口大小、TCP窗口流向、支持的加密套件、网络协议选项、到达时间间隔，预设会话特征至少包括：应用层协议、协议参数、接收与发送数据包个数、会话持续时间以及会话有效负载，预设统计特征至少包括：平均数据包长度、平均延误时间间隔以及平均上下行数据比例、前向与后向的数据包大小。

3.根据权利要求1所述的利用加密流量识别操作系统的方法，其特征在于，在获得训练好的聚类算法和训练好的SVM算法模型之前，所述方法还包括：

通过损失函数，检测聚类算法和SVM算法模型的准确率；

在准确率大于预设阈值时，获得训练好的聚类算法和训练好的SVM算法模型。

4.根据权利要求1所述的利用加密流量识别操作系统的方法，其特征在于，从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征，具体包括：

5.根据权利要求1所述的利用加密流量识别操作系统的方法，其特征在于，获得测试加密流量数据，具体包括：

从网络数通设备接入或使用网络抓包工具获得；

其中，网络数通设备至少包括交换机、防火墙。

6.一种利用加密流量识别操作系统的系统，其特征在于，所述系统包括：

获取模块，用于获取操作系统的类型数量N，以创建个初始SVM算法模型；获取样本加密流量数据以及样本加密流量数据对应的操作系统，从样本加密流量数据中提取出预设包级特征、预设会话特征和预设统计特征；

训练模块，用于将样本加密流量数据对应的预设包级特征、预设会话特征、预设统计特征和操作系统，分别输入2K+1个初始聚类算法和初始SVM算法模型，以获得训练好的聚类算法和训练好的SVM算法模型；其中，K为大于1的整数；

获得模块，用于获得各个训练好的SVM算法模型进行二分类的两个操作系统的具体名称；获得测试加密流量数据，将测试加密流量数据输入2K+1个训练好的聚类算法，进而获得去重后的预测操作系统名称数据集；确定预测操作系统名称数据集中预测操作系统名称的数量；在数量为1时，确定唯一的预测操作系统名称为最终操作系统名称；在数量大于1时，基于预测操作系统名称数据集，确定对应的训练好的SVM算法模型，进而获得输出的操作系统名称。

7.根据权利要求6所述的利用加密流量识别操作系统的系统，其特征在于，训练模块包括检测单元，

用于通过损失函数，检测聚类算法和SVM算法模型的准确率；

8.根据权利要求6所述的利用加密流量识别操作系统的系统，其特征在于，获得模块包括获得单元，

用于从网络数通设备接入或使用网络抓包工具获得；

其中，网络数通设备至少包括交换机、防火墙。

9.一种利用加密流量识别操作系统的设备，其特征在于，所述设备包括：

处理器；

以及存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-5任一项所述的一种利用加密流量识别操作系统的方法。

10.一种非易失性计算机存储介质，其特征在于，其上存储有计算机指令，所述计算机指令在被执行时实现如权利要求1-5任一项所述的一种利用加密流量识别操作系统的方法。