CN115118519B

CN115118519B - 一种基于Hadoop平台的网络主机漏洞扫描新方法

Info

Publication number: CN115118519B
Application number: CN202210864734.9A
Authority: CN
Inventors: 张广兴; 姜海洋; 朱连涛; 田利荣; 涂楚; 夏可强; 李博
Original assignee: Jiangsu Future Networks Innovation Institute
Current assignee: Jiangsu Future Networks Innovation Institute
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2023-07-28
Anticipated expiration: 2042-07-21
Also published as: CN115118519A

Abstract

本发明提供了一种基于Hadoop平台的网络主机漏洞扫描新方法，其特征在于，包括一种基于Hadoop平台的一种数据清洗器，能够将大量扫描报文中重复、无效、误报的数据快速清洗掉，最后按照Hbase定义的格式分布式存储在集群中；一种基于MapReduce引擎的任务调度器，能够动态地分配计算资源，将任务分发到空闲的计算资源中，能够增加任务的可靠性，错误的任务会通过任务调度器重新下发至空闲资源；本发明过清洗器的清洗处理可以大大降低一次任务探测结果堆积的大量重复无效数据，能够充分利用各节点的CPU、内存等硬件资源，充分发挥分布式集群优势、提高扫描速度和容错率。

Description

一种基于Hadoop平台的网络主机漏洞扫描新方法

技术领域

本发明涉及网络安全技术领域，具体地说是一种基于Hadoop平台的网络主机漏洞扫描新方法。

背景技术

当今互联网产业快速扩张，物联网、企业网、校园网、政务网等快速发展，企业、校园和政府都大力建设自己的网站和内部网络，纷纷联通内部网Intranet与互联网Internet。云政务、云商务、云办公等已成为政府办公、企业发展不可多得的方式。然而当人们在享受网络带来的快捷同时，全球互联网也正接受着它带来的安全问题的挑战，随着国内经济快速发展，互联网全面普及，国内面临的安全问题正日益严峻。具体表现为：各种病毒肆意入侵和破坏计算机网络系统；计算机黑客破坏行为日益猖狂；各类网络基础设施受到网络安全的威胁日益增强；信息系统在预测、反应、防范和恢复能力方面存在许多薄弱环节等。因此，现有的网络安全系统虽然起到了较好的防护作用，但并不能完全解决整个骨干网络系统的安全问题。另外，必须有一套完整有效的备份方案和应急预案。

随着漏扫扫描系统的诞生，其在网络安全体系中扮演的重要角色越发重要。漏洞扫描系统，其工作原理是当用户通过控制平台发出了扫描命令之后，控制平台即向扫描模块发出相应的扫描请求，扫描模块在接到请求之后立即启动相应的子功能块，对被扫描主机进行扫描，通过对从被扫描主机返回的信息进行分析判断，扫描模块将扫描结果返回给控制平台，再由控制平台最终呈现给用户。

当前大部分漏洞扫描系统都是单机版或者采用传统关系型数据库的分布式部署，单机版受单机硬件限制，扫描大型网络时会出现扫描速度较慢、硬件成本高、无法扩展等问题，然而基于传统关系型数据库分布式部署的方案虽然可以解决单机版无法扩展的问题，但是传统的方式高可用性差，一个节点的宕机就有可能造成数据的大量丢失，造成检验结果不准确，轻则造成网络中未被发现的漏洞被利用，重则可能造成整个网络系统的瘫痪。

发明内容

本发明的目的在于提出一种基于Hadoop平台的网络主机漏洞扫描新方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供以下技术方案：

一种基于Hadoop平台的一种数据清洗器，将大量扫描报文中重复、无效、误报的数据快速清洗掉，最后按照Hbase定义的格式分布式存储在集群中，具体包括以下步骤：

S11、根据用户下发的配置，构建MapReduce任务，Hadoop会根据任务量分布式下发多个MapReduce任务，这些任务会对相应的主机发起探测，并接受探测的结果，接受的结果有ip(IP地址)、port(端口)、protocol(端口协议)、application(应用/服务)、version(应用版本)、result_key(各协议访问返回结果key)、result_cache(访问结果缓存)；

S12、提取历史数据的各相关的IP、端口、应用、版本、扫描结果，通过TF-IDF算法提取出各对应的关键字，并保存到存储集群中；

S13、缺失值数据的处理，这里使用热卡填充法对缺失值处理，当前某IP、端口、应用对应的扫描结果缺失时，使用Levenshtein距离算法计算出缺失值与历史库中距离最近的关键词，然后将距离最近并排在缺失值前的值作为代替方案；

S14、异常值数据的处理，基于历史扫描数据，建立了各种端口、服务、版本对应key的探测结果关键字库基线集合，比如key1关键字集合包含value1、value2等关键字集合，属于异常值的直接删除，并且会持续不断更新历史基线集合；

S15、去重处理，删除掉相同IP、端口、应用、版本所对应的扫描结果，做去重处理；

S16、入库处理，将清洗完成的数据格式化入库存储集群中。

所述步骤S12中，所述TF-IDF算法具体包括如下内容：

设某词数量为A，该段扫描结果单词数量为B，计算TF＝A/B，设语料库文档总数C，包含改词的文档数D，计算IDF＝log(C/(D+1))，计算每个词的(TF-IDF)值，并降序排序，取排在前面的几个词。

所述步骤S13中，所述Levenshtein距离算法具体包括如下内容：

设A单词各字母为A1、A2、A3至AN，B单词各字母为B1、B2、B3至BN，构造矩阵[Ai,Bj]，A[1…i]修改到B[1…j]所需操作数为op1+1，删掉字符A[i]的操作数op2+1，A[i]A[i]替换成A[i′]＝B[j]的操作数op3+1，字符串A[1…i]修改成字符串B[1…j]所需操作数为min{op1+1,op2+1,op3+1(ai≠bi)}，选择操作数最小的补充缺失值。

一种基于MapReduce引擎的任务调度器，能够动态地分配计算资源，将任务分发到空闲的计算资源中，能够增加任务的可靠性，错误的任务会通过任务调度器重新下发至空闲资源，具体包括以下步骤：

S21、基于MapReduce计算引擎，读取配置库的任务列表，获取各节点计算资源，包括cpu数量、内存数量；

S22、根据上述步骤S13中IP总数量(numIps)、各节点剩余cpu数量(c1、c2、c3)、各节点内存大小(m1、m2、m3)，根据公式计算需要分割的IP细粒度，公式为：numIps/(a*(c1+c2+c3)+b*(m1+m2+m3))，其中a，b为cpu与内存的权重系数，本文中该计算方法称为IP细粒度均衡算法；

S23、计算IP细粒度后，再根据DRF资源分配算法，依次将拆分的子任务提交MapReduce；

S24、每个子任务会加载被分配的脚本插件，每个运行插件会根据需要去上述存储集群中取需要的扫描缓存结果，一个子任务完成会通知任务分配器并将漏洞检测结果入库；

S25、如上述的子任务扫描过程中因为网络或者程序异常等报错，会通知任务管理器任务失败，任务管理器发现任务列表中数量够多或者等待时间到，会再次执行上述步骤S21，这样依次递推直到任务完成为止。

与现有技术相比，本发明有益效果如下：

本发明提供了一种基于Hadoop平台的网络主机漏洞扫描新方法，通过清洗器的清洗处理可以大大降低一次任务探测结果堆积的大量重复无效数据，能够充分利用各节点的CPU、内存等硬件资源，充分发挥分布式集群优势、提高扫描速度和容错率。

传统的扫描，每次任务单个IP的扫描中间缓存数据堆积严重，严重地拖慢了系统运行速度，本发明方法通过构建流程化的清洗器，将数据中缺失数据进行补全，可以增加扫描准确度，通过对历史数据构建基线数据集，可以将异常数据筛选并删除掉，还将重复的数据去掉，这些都大大降低数据存储量，提高扫描效率。

本发明能够通过动态变化的算法，分析当前适合的IP细粒度，当前硬件资源较多时，就会增加子任务个数，保证最大效率地运行扫描，当硬件资源较少时，就会减少子任务数，保证程序正常运行，而且在运行完一定数量子任务后会重新计算各节点资源，动态调整保证最大化运行。

本发明能够将扫描过程中的扫描结果做容错化备份，根据节点数量和主动配置，复制每个IP扫描结果到其他备份节点，防止扫描过程中数据丢失，提高容错率；由于每个IP探测结果需要临时存储，使用该方法可以灵活存储各种类型的数据，基于HBASE的特性，可以按需动态定义表的列，既提高了读写速度，又能应对大吞吐量的情况。

附图说明

图1为本发明中数据清洗器处理流程图；

图2为本发明中任务调度器处理流程图；

图3为本发明中相关组件总体流程图。

具体实施方式

为阐明技术问题、技术方案、实施过程及性能展示，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释。本发明，并不用于限定本发明。以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

实施例1

如图1所示，一种基于Hadoop平台的一种数据清洗器，包括将大量扫描报文中重复、无效、误报的数据快速清洗掉，最后按照Hbase定义的格式分布式存储在集群中，具体包括以下步骤：

S16、入库处理，将清洗完成的数据格式化入库存储集群中。

所述步骤S12中，所述TF-IDF算法具体包括如下内容：

所述步骤S13中，所述Levenshtein距离算法具体包括如下内容：

如图2所示，一种基于MapReduce引擎的任务调度器，包括能够动态地分配计算资源，将任务分发到空闲的计算资源中，能够增加任务的可靠性，错误的任务会通过任务调度器重新下发至空闲资源，具体包括以下步骤：

使用时，本发明数据清洗器部署流程为：

①首先是Hadoop和Hbase的部署，试验环境准备三台Cenos7.9的机器，确保JDK、MySql安装完成；

②三台机器都关闭防火墙，实现免密登录，具体包括修改主机名、修改/etc/hosts文件、生成秘钥；

③三台机器都创建文件夹、上传安装包以及配置文件的修改，具体包括core-site.xml、hadoop-env.sh、hdfs-site.xml、mapred-site.xml、slaves、yarn-site.xml、yarn-env.sh等配置文件修改；

④主节点初始化，并启动Hadoop；

⑤三台机器都安装zookeeper、Hbase；

⑥构建关键字表、历史数据基线集合表、中间数据表、扫描结果表；

⑦将清洗器代码打包到Hadoop集群中，用户下发扫描配置时会给将根据配置下发带参数的任务至Hadoop集群。

本发明任务调度器部署流程：

①调度器部署需要在上述清洗器需要的组件部署安装完成后，继续构建任务列表的表，权重系数表、插件表、检测结果表；

②将调度器代码打包Hadoop集群中；

③构建插件目录并将准备好的插件信息载入redis数据库；

④建立调度器与redis之间的sock心跳；

⑤调度器等待任务下发，当检测到有任务下发时，调度器会计算当前资源，合理分配任务。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于MapReduce引擎的任务调度器，其特征在于，包括能够动态地分配计算资源，将任务分发到空闲的计算资源中，能够增加任务的可靠性，错误的任务会通过任务调度器重新下发至空闲资源；

具体包括以下步骤：

S22、部署基于Hadoop平台的数据清洗器，包括将大量扫描报文中重复、无效、误报的数据快速清洗掉，最后按照Hbase定义的格式分布式存储在集群中；

该数据清洗器具体包括以下步骤：

S11、根据用户下发的配置，构建MapReduce任务，Hadoop会根据任务量分布式下发多个MapReduce任务，这些任务会对相应的主机发起探测，并接受探测的结果，接受的结果有ip（IP地址）、port（端口）、protocol（端口协议）、application（应用/服务）、version（应用版本）、result_key(各协议访问返回结果key)、result_cache（访问结果缓存）；

S13、缺失值数据的处理，这里使用热卡填充法对缺失值处理，当前某IP、端口、应用对应的扫描结果缺失时，使用Levenshtein 距离算法计算出缺失值与历史库中距离最近的关键词，然后将距离最近并排在缺失值前的值作为代替方案；

S16、入库处理，将清洗完成的数据格式化入库存储集群中；

根据步骤S13中IP总数量（numIps）、各节点剩余cpu数量（c1、c2、c3）、各节点内存大小（m1、m2、m3），根据公式计算需要分割的IP细粒度，公式为：numIps/（a*(c1+c2+c3)+b*(m1+m2+m3)），其中a，b为cpu与内存的权重系数，本文中该计算方法称为IP细粒度均衡算法；

S25、如上述的子任务扫描过程中因为网络或者程序异常报错，会通知任务管理器任务失败，任务管理器发现任务列表中数量够多或者等待时间到，会再次执行上述步骤S21，这样依次递推直到任务完成为止。

2.根据权利要求1所述的一种基于MapReduce引擎的任务调度器，其特征在于，所述步骤S12中，所述TF-IDF算法具体包括如下内容：

设某词数量为A，该段扫描结果单词数量为B，计算TF=A/B，设语料库文档总数C，包含改词的文档数D，计算IDF=log(C/(D+1))，计算每个词的（TF−IDF）值，并降序排序，取排在前面的几个词。

3. 根据权利要求1所述的一种基于MapReduce引擎的任务调度器，其特征在于，所述步骤S13中，所述Levenshtein 距离算法具体包括如下内容：

设A单词各字母为A1、A2、A3至AN，B单词各字母为B1、B2、B3至BN，构造矩阵[Ai,Bj]，A[1…i]修改到B[1…j]所需操作数为op1 +1，删掉字符A[i]的操作数op2 +1，A[i]A[i]替换成A[i′]=B[j]的操作数op3 +1，字符串A[1…i]修改成字符串B[1…j]所需操作数为min {op1 +1, op2 +1, op3+1(ai ≠bi) }，选择操作数最小的补充缺失值。