CN113158001B

CN113158001B - 一种网络空间ip资产归属及相关性判别方法及系统

Info

Publication number: CN113158001B
Application number: CN202110318389.4A
Authority: CN
Inventors: 袁帅; 黄国忠; 郑苑文; 陈达鑫
Original assignee: Shenzhen Leagsoft Technology Co ltd
Current assignee: Shenzhen Leagsoft Technology Co ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2024-05-14
Anticipated expiration: 2041-03-25
Also published as: CN113158001A

Abstract

本发明提供了网络空间IP资产归属及相关性判别方法及系统，方法包括以下步骤：接收企业录入的一级域名，获取一级域名下的IP资产数据；从IP资产数据中提取IP资产属性的数据化特征词；根据数据化特征词构建机器学习训练数据集；对机器学习训练数据集进行机器学习，得到判别模型；获取企业的待识别IP资产数据，将待识别IP资产数据输入至判别模型，由判别模型输出与企业相关联的IP资产。该方法只需要企业在首次使用时进行一级域名的配置和训练集的设定，后续即可以自动化地进行企业公网IP资产相关性判别，减少了日常工作中重复机械的投入。

Description

一种网络空间IP资产归属及相关性判别方法及系统

技术领域

本发明属于网络信息安全技术领域，具体涉及一种网络空间IP资产归属及相关性判别方法及系统。

背景技术

随着企业规模越来越大，承载企业业务的资产也会越来越多。IT资产分布在各种网络环境中，企业业务的发展呈现多变和快速迭代的特质，直接导致线上生产环境、内部开发测试环境的快速变动，企业的IT资产处于一个动态的变化过程。业务的上线、版本更迭，所依赖的系统、网络和应用环境在不断变更，违规操作时有发生。例如部分开发人员以及供应商私自将内部系统或测试环境搭建在外网遭到黑客攻击，黑客团伙冒用企业信息搭建的钓鱼网站等，这些信息出现浩瀚的IPV4空间网络之内，使得安全管理员无法真实了解真实的网络安全状况，无法进行安全管控和处置，从而带来一系列的安全问题。

综上所述，如何快速、自动地对网络空间上的IP资产识别用途及相关性并进行监测是目前迫切需要解决的问题。

目前在网络空间之内寻找企业组织相关资产的方式还较为原始，一般是手工构建出来一部分与企业数关的关键字，如企业名称、域名、ICP备案号等关键词，通过调用网络空间资产测绘的引擎如shodan、Censys、zoomeye的API的查询接口将企业相关的数据拉取回来,然后手工对相关内容进行识别与判定，周期性进行这项目工作时，都需要重新开始，该种方法需要大量重复性的人工工作，同时缺乏对已经数据的关联对比，成本较高且准确性无法得到保证。

发明内容

针对现有技术中的缺陷，本发明提供一种网络空间IP资产归属及相关性判别方法及系统，能够实现企业公网IP资产自动化的相关性判别。

第一方面，一种网络空间IP资产归属及相关性判别方法，包括以下步骤：

S1：接收企业录入的一级域名，获取一级域名下的IP资产数据；

S2：从IP资产数据中提取IP资产属性的数据化特征词；

S3：根据数据化特征词构建机器学习训练数据集；

S4：对机器学习训练数据集进行机器学习，得到判别模型；

S5：获取企业的待识别IP资产数据，将待识别IP资产数据输入至判别模型，由判别模型输出与企业相关联的IP资产。

优选地，所述数据化特征词包括静态数字化特征词和动态数字化特征词；

静态数字化特征词通过预设的关键词及所述IP资产数据中的banner信息确定；

动态数字化特征词为利用TF-IDF算法对所述IP资产数据进行分析得到。

优选地，所述动态数字化特征词通过以下方法得到：

对所述IP资产数据进行分词，以得到分词词组；

分别计算分词词组的词频TF和逆文档频率idf；

根据词频TF和逆文档频率idf分别计算分词词组的重要程度；

根据重要程度选取出部分分词词组，定义为所述动态数字化特征词。

优选地，所述根据数据化特征词构建机器学习训练数据集具体包括：

根据所述数据化特征词检索公网的网络空间测绘引擎API，用于构建疑似数据集合；

根据所述静态数字化特征词检索公网的网络空间测绘引擎API，用于构建相关数据集；

在预设的网站库中搜索不包含静态数据化特征词的网页数据，根据该网页数据构建非相关数据集；

使用中文分词和中文常用停用词表对疑似数据集合、相关数据集和非相关数据集进行处理。

优选地，所述对机器学习训练数据集进行机器学习，得到判别模型具体包括：

加载所述机器学习训练数据集，并进行label标记；

将机器学习训练数据集划分为训练数据与测试数据；

提取训练数据的文本特征向量，并在训练数据中配置停用词，以得到原始数据；

使用朴素贝叶斯分类器对原始数据进行机器学习训练；

利用测试数据对训练好的模型进行评估，设置评估通过的模型为所述判别模型。

第二方面，一种网络空间IP资产归属及相关性判别系统，包括：

采集单元：用于接收企业录入的一级域名，获取一级域名下的IP资产数据；

提取单元：用于从IP资产数据中提取IP资产属性的数据化特征词；

构建单元：用于根据数据化特征词构建机器学习训练数据集；

学习单元：用于对机器学习训练数据集进行机器学习，得到判别模型；

判别单元：用于获取企业的待识别IP资产数据，将待识别IP资产数据输入至判别模型，由判别模型输出与企业相关联的IP资产。

优选地，所述提取单元具体用于：

对所述IP资产数据进行分词，以得到分词词组；

分别计算分词词组的词频TF和逆文档频率idf；

根据词频TF和逆文档频率idf分别计算分词词组的重要程度；

优选地，所述构建单元具体用于：

优选地，所述学习单元具体用于：

加载所述机器学习训练数据集，并进行label标记；

将机器学习训练数据集划分为训练数据与测试数据；

使用朴素贝叶斯分类器对原始数据进行机器学习训练；

由上述技术方案可知，本发明提供的一种网络空间IP资产归属及相关性判别方法及系统，只需要企业在首次使用时进行一级域名的配置和训练集的设定，后续即可以自动化地进行企业公网IP资产相关性判别，减少了日常工作中重复机械的投入。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明实施例一提供的方法的原理图。

图2为本发明实施例一提供的方法的流程图。

图3为本发明实施例二提供的系统的模块框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

实施例一：

一种网络空间IP资产归属及相关性判别方法，参见图1、2，包括以下步骤：

S2：从IP资产数据中提取IP资产属性的数据化特征词；

S3：根据数据化特征词构建机器学习训练数据集；

S4：对机器学习训练数据集进行机器学习，得到判别模型；

具体地，该方法首先构建企业IP资产相关属性的数字化特征，利用数字化特征通过公网上的网络空间测绘引擎获取相关数据，然后使用基于机器学习的判别算法进行数据的准确判别。该方法在步骤S5之后，还可以设有人工干预接口，这样在数据发生不稳定时，通过人工干预接口进行人工复核，可持续提升数据质量，还可以将人工复核结果加入到机器学习训练数据集中，用于后续模型的优化。

该方法只需要企业在首次使用时进行一级域名的配置和训练集的设定，后续即可以自动化地进行企业公网IP资产相关性判别，减少了日常工作中重复机械的投入，实现了自动化、快速、准确地解决了通过IP资产属性判定企业相关性及资产归属的功能。

具体地，IP是一个企业互联网资产的网络表现属性，IP与端口服务存在关联关系，一个IP可能开放的端口范围为1-65535。每个端口服务都可以对外提供服务。在端口服务的交互过程中，banner信息是可解读的，并且经常与企业信息存在某种关联。IP资产属性的数据化特征词可分为静态数字化特征词和动态数字化特征词。

静态数字化特征词为通过某些关键词及banner信息确定的IP资产归属。静态数字化特征词主要有以下两个应用：1、用于通过API获取数据时提供检索项；2、用于机器学习时定位确定的相关数据训练集。

由于IP资产属性变化范围较大且不稳定，所以静态数字化特征词可能会存在漏报的可能性，且无法适应复杂的环境，所以需要生成动态数字化特征词。动态数字化特征词可以使用TF-IDF算法得到。TF-IDF(Term Frequency-InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法，根据字词的在文本中出现的次数和在整个语料中出现的文档频率，计算字词在整个语料中的重要程度。TF-IDF的优点是能过滤掉一些常见的却无关紧要本的词语，同时保留影响整个文本的重要字词。计算方法是通过局部分量(词频TF)和全局分量(逆文档频率idf)相乘得到重要程度，并将所得文档标准化为单位长度。公式如下：

其中，所述动态数字化特征词通过以下方法得到：

引入相关库函数及依赖numpy、pandas；

对所述IP资产数据进行分词，以得到分词词组；

分别计算分词词组的词频TF和逆文档频率idf；

根据词频TF和逆文档频率idf分别计算分词词组的重要程度；

具体地，机器学习训练数据集包括疑似数据集合、相关数据集和非相关数据集。网站库主要包含Alexa网站排名的TOP1000网站。

加载所述机器学习训练数据集，并进行label标记；

将机器学习训练数据集划分为训练数据与测试数据；

采用TfidfVectorizer提取训练数据的文本特征向量，并在训练数据中配置停用词，以得到原始数据；

使用朴素贝叶斯分类器对原始数据进行机器学习训练；

具体地，机器学习算法模型可以选择朴素贝叶斯分类。贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。贝叶斯公式中，P(A)称为"先验概率"(Prior probability)，即在B事件发生之前，对A事件概率的一个判断。P(A|B)称为"后验概率"(Posterior probability)，即在B事件发生之后，对A事件概率的重新评估。P(B|A)/P(B)称为"可能性函数"(Likelyhood)，这是一个调整因子，使得预估概率更接近真实概率。

该方法可以先预估一个"先验概率"，然后加入实验结果，看这个实验结果是增强还是削弱了"先验概率"，由此得到更接近事实的"后验概率"。因为在分类中，只需要找出可能性最大的那个选项，而不需要知道具体那个类别的概率是多少。而朴素贝叶斯是在贝叶斯的基础上，对条件概率分布做了条件独立性的假设。因此可得朴素贝叶斯分类器的表达式如下：

该方法模型评估的准确性超过98％，简单，运算量小，在拥有大量分类的数据集上仍然表现很好。当数据的各个属性互相独立的假设成立时，朴素贝叶斯比逻辑回归等模型表现更好，并且朴素贝叶斯需要更少的训练数据，因此在对小型企业进行归类，数据集不多的情况下，具有更好的效果。与数值变量相比，朴素贝叶斯在非数值变量的训练集上表现更好，因为对于数值型变量，一般假设数据符合正态分布。

实施例二：

一种网络空间IP资产归属及相关性判别系统，参见图3，包括：

优选地，所述提取单元具体用于：

对所述IP资产数据进行分词，以得到分词词组；

分别计算分词词组的词频TF和逆文档频率idf；

根据词频TF和逆文档频率idf分别计算分词词组的重要程度；

优选地，所述构建单元具体用于：

优选地，所述学习单元具体用于：

加载所述机器学习训练数据集，并进行label标记；

将机器学习训练数据集划分为训练数据与测试数据；

使用朴素贝叶斯分类器对原始数据进行机器学习训练；

该系统只需要企业在首次使用时进行一级域名的配置和训练集的设定，后续即可以自动化地进行企业公网IP资产相关性判别，减少了日常工作中重复机械的投入，实现了自动化、快速、准确地解决了通过IP资产属性判定企业相关性及资产归属的功能。

本发明实施例所提供的系统，为简要描述，实施例部分未提及之处，可参考前述实施例中相应内容。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种网络空间IP资产归属及相关性判别方法，其特征在于，包括以下步骤：

S2：从IP资产数据中提取IP资产属性的数据化特征词；

S3：根据数据化特征词构建机器学习训练数据集；

S4：对机器学习训练数据集进行机器学习，得到判别模型；

S5：获取企业的待识别IP资产数据，将待识别IP资产数据输入至判别模型，由判别模型输出与企业相关联的IP资产；

所述数据化特征词包括静态数字化特征词和动态数字化特征词；

动态数字化特征词为利用TF-IDF算法对所述IP资产数据进行分析得到；

所述动态数字化特征词通过以下方法得到：

对所述IP资产数据进行分词，以得到分词词组；

分别计算分词词组的词频TF和逆文档频率idf；

根据词频TF和逆文档频率idf分别计算分词词组的重要程度；

2.根据权利要求1所述网络空间IP资产归属及相关性判别方法，其特征在于，所述根据数据化特征词构建机器学习训练数据集具体包括：

3.根据权利要求1所述网络空间IP资产归属及相关性判别方法，其特征在于，所述对机器学习训练数据集进行机器学习，得到判别模型具体包括：

加载所述机器学习训练数据集，并进行label标记；

将机器学习训练数据集划分为训练数据与测试数据；

使用朴素贝叶斯分类器对原始数据进行机器学习训练；

4.一种网络空间IP资产归属及相关性判别系统，其特征在于，包括：

判别单元：用于获取企业的待识别IP资产数据，将待识别IP资产数据输入至判别模型，由判别模型输出与企业相关联的IP资产；

所述提取单元具体用于：

对所述IP资产数据进行分词，以得到分词词组；

分别计算分词词组的词频TF和逆文档频率idf；

根据词频TF和逆文档频率idf分别计算分词词组的重要程度；

5.根据权利要求4所述网络空间IP资产归属及相关性判别系统，其特征在于，所述构建单元具体用于：

6.根据权利要求4所述网络空间IP资产归属及相关性判别系统，其特征在于，所述学习单元具体用于：

加载所述机器学习训练数据集，并进行label标记；

将机器学习训练数据集划分为训练数据与测试数据；

使用朴素贝叶斯分类器对原始数据进行机器学习训练；