CN113158001A - 一种网络空间ip资产归属及相关性判别方法及系统 - Google Patents
一种网络空间ip资产归属及相关性判别方法及系统 Download PDFInfo
- Publication number
- CN113158001A CN113158001A CN202110318389.4A CN202110318389A CN113158001A CN 113158001 A CN113158001 A CN 113158001A CN 202110318389 A CN202110318389 A CN 202110318389A CN 113158001 A CN113158001 A CN 113158001A
- Authority
- CN
- China
- Prior art keywords
- asset
- data
- data set
- machine learning
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000010801 machine learning Methods 0.000 claims abstract description 56
- 230000011218 segmentation Effects 0.000 claims description 30
- 230000003068 static effect Effects 0.000 claims description 28
- 238000013507 mapping Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000009616 inductively coupled plasma Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011981 development test Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了网络空间IP资产归属及相关性判别方法及系统,方法包括以下步骤:接收企业录入的一级域名,获取一级域名下的IP资产数据;从IP资产数据中提取IP资产属性的数据化特征词;根据数据化特征词构建机器学习训练数据集;对机器学习训练数据集进行机器学习,得到判别模型;获取企业的待识别IP资产数据,将待识别IP资产数据输入至判别模型,由判别模型输出与企业相关联的IP资产。该方法只需要企业在首次使用时进行一级域名的配置和训练集的设定,后续即可以自动化地进行企业公网IP资产相关性判别,减少了日常工作中重复机械的投入。
Description
技术领域
本发明属于网络信息安全技术领域,具体涉及一种网络空间IP资产归属及相关性判别方法及系统。
背景技术
随着企业规模越来越大,承载企业业务的资产也会越来越多。IT资产分布在各种网络环境中,企业业务的发展呈现多变和快速迭代的特质,直接导致线上生产环境、内部开发测试环境的快速变动,企业的IT资产处于一个动态的变化过程。业务的上线、版本更迭,所依赖的系统、网络和应用环境在不断变更,违规操作时有发生。例如部分开发人员以及供应商私自将内部系统或测试环境搭建在外网遭到黑客攻击,黑客团伙冒用企业信息搭建的钓鱼网站等,这些信息出现浩瀚的IPV4空间网络之内,使得安全管理员无法真实了解真实的网络安全状况,无法进行安全管控和处置,从而带来一系列的安全问题。
综上所述,如何快速、自动地对网络空间上的IP资产识别用途及相关性并进行监测是目前迫切需要解决的问题。
目前在网络空间之内寻找企业组织相关资产的方式还较为原始,一般是手工构建出来一部分与企业数关的关键字,如企业名称、域名、ICP备案号等关键词,通过调用网络空间资产测绘的引擎如shodan、Censys、zoomeye的API的查询接口将企业相关的数据拉取回来,然后手工对相关内容进行识别与判定,周期性进行这项目工作时,都需要重新开始,该种方法需要大量重复性的人工工作,同时缺乏对已经数据的关联对比,成本较高且准确性无法得到保证。
发明内容
针对现有技术中的缺陷,本发明提供一种网络空间IP资产归属及相关性判别方法及系统,能够实现企业公网IP资产自动化的相关性判别。
第一方面,一种网络空间IP资产归属及相关性判别方法,包括以下步骤:
S1:接收企业录入的一级域名,获取一级域名下的IP资产数据;
S2:从IP资产数据中提取IP资产属性的数据化特征词;
S3:根据数据化特征词构建机器学习训练数据集;
S4:对机器学习训练数据集进行机器学习,得到判别模型;
S5:获取企业的待识别IP资产数据,将待识别IP资产数据输入至判别模型,由判别模型输出与企业相关联的IP资产。
优选地,所述数据化特征词包括静态数字化特征词和动态数字化特征词;
静态数字化特征词通过预设的关键词及所述IP资产数据中的banner信息确定;
动态数字化特征词为利用TF-IDF算法对所述IP资产数据进行分析得到。
优选地,所述动态数字化特征词通过以下方法得到:
对所述IP资产数据进行分词,以得到分词词组;
分别计算分词词组的词频TF和逆文档频率idf;
根据词频TF和逆文档频率idf分别计算分词词组的重要程度;
根据重要程度选取出部分分词词组,定义为所述动态数字化特征词。
优选地,所述根据数据化特征词构建机器学习训练数据集具体包括:
根据所述数据化特征词检索公网的网络空间测绘引擎API,用于构建疑似数据集合;
根据所述静态数字化特征词检索公网的网络空间测绘引擎API,用于构建相关数据集;
在预设的网站库中搜索不包含静态数据化特征词的网页数据,根据该网页数据构建非相关数据集;
使用中文分词和中文常用停用词表对疑似数据集合、相关数据集和非相关数据集进行处理。
优选地,所述对机器学习训练数据集进行机器学习,得到判别模型具体包括:
加载所述机器学习训练数据集,并进行label标记;
将机器学习训练数据集划分为训练数据与测试数据;
提取训练数据的文本特征向量,并在训练数据中配置停用词,以得到原始数据;
使用朴素贝叶斯分类器对原始数据进行机器学习训练;
利用测试数据对训练好的模型进行评估,设置评估通过的模型为所述判别模型。
第二方面,一种网络空间IP资产归属及相关性判别系统,包括:
采集单元:用于接收企业录入的一级域名,获取一级域名下的IP资产数据;
提取单元:用于从IP资产数据中提取IP资产属性的数据化特征词;
构建单元:用于根据数据化特征词构建机器学习训练数据集;
学习单元:用于对机器学习训练数据集进行机器学习,得到判别模型;
判别单元:用于获取企业的待识别IP资产数据,将待识别IP资产数据输入至判别模型,由判别模型输出与企业相关联的IP资产。
优选地,所述数据化特征词包括静态数字化特征词和动态数字化特征词;
静态数字化特征词通过预设的关键词及所述IP资产数据中的banner信息确定;
动态数字化特征词为利用TF-IDF算法对所述IP资产数据进行分析得到。
优选地,所述提取单元具体用于:
对所述IP资产数据进行分词,以得到分词词组;
分别计算分词词组的词频TF和逆文档频率idf;
根据词频TF和逆文档频率idf分别计算分词词组的重要程度;
根据重要程度选取出部分分词词组,定义为所述动态数字化特征词。
优选地,所述构建单元具体用于:
根据所述数据化特征词检索公网的网络空间测绘引擎API,用于构建疑似数据集合;
根据所述静态数字化特征词检索公网的网络空间测绘引擎API,用于构建相关数据集;
在预设的网站库中搜索不包含静态数据化特征词的网页数据,根据该网页数据构建非相关数据集;
使用中文分词和中文常用停用词表对疑似数据集合、相关数据集和非相关数据集进行处理。
优选地,所述学习单元具体用于:
加载所述机器学习训练数据集,并进行label标记;
将机器学习训练数据集划分为训练数据与测试数据;
提取训练数据的文本特征向量,并在训练数据中配置停用词,以得到原始数据;
使用朴素贝叶斯分类器对原始数据进行机器学习训练;
利用测试数据对训练好的模型进行评估,设置评估通过的模型为所述判别模型。
由上述技术方案可知,本发明提供的一种网络空间IP资产归属及相关性判别方法及系统,只需要企业在首次使用时进行一级域名的配置和训练集的设定,后续即可以自动化地进行企业公网IP资产相关性判别,减少了日常工作中重复机械的投入。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明实施例一提供的方法的原理图。
图2为本发明实施例一提供的方法的流程图。
图3为本发明实施例二提供的系统的模块框图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
实施例一:
一种网络空间IP资产归属及相关性判别方法,参见图1、2,包括以下步骤:
S1:接收企业录入的一级域名,获取一级域名下的IP资产数据;
S2:从IP资产数据中提取IP资产属性的数据化特征词;
S3:根据数据化特征词构建机器学习训练数据集;
S4:对机器学习训练数据集进行机器学习,得到判别模型;
S5:获取企业的待识别IP资产数据,将待识别IP资产数据输入至判别模型,由判别模型输出与企业相关联的IP资产。
具体地,该方法首先构建企业IP资产相关属性的数字化特征,利用数字化特征通过公网上的网络空间测绘引擎获取相关数据,然后使用基于机器学习的判别算法进行数据的准确判别。该方法在步骤S5之后,还可以设有人工干预接口,这样在数据发生不稳定时,通过人工干预接口进行人工复核,可持续提升数据质量,还可以将人工复核结果加入到机器学习训练数据集中,用于后续模型的优化。
该方法只需要企业在首次使用时进行一级域名的配置和训练集的设定,后续即可以自动化地进行企业公网IP资产相关性判别,减少了日常工作中重复机械的投入,实现了自动化、快速、准确地解决了通过IP资产属性判定企业相关性及资产归属的功能。
优选地,所述数据化特征词包括静态数字化特征词和动态数字化特征词;
静态数字化特征词通过预设的关键词及所述IP资产数据中的banner信息确定;
动态数字化特征词为利用TF-IDF算法对所述IP资产数据进行分析得到。
具体地,IP是一个企业互联网资产的网络表现属性,IP与端口服务存在关联关系,一个IP可能开放的端口范围为1-65535。每个端口服务都可以对外提供服务。在端口服务的交互过程中,banner信息是可解读的,并且经常与企业信息存在某种关联。IP资产属性的数据化特征词可分为静态数字化特征词和动态数字化特征词。
静态数字化特征词为通过某些关键词及banner信息确定的IP资产归属。静态数字化特征词主要有以下两个应用:1、用于通过API获取数据时提供检索项;2、用于机器学习时定位确定的相关数据训练集。
由于IP资产属性变化范围较大且不稳定,所以静态数字化特征词可能会存在漏报的可能性,且无法适应复杂的环境,所以需要生成动态数字化特征词。动态数字化特征词可以使用TF-IDF算法得到。TF-IDF(Term Frequency-InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法,根据字词的在文本中出现的次数和在整个语料中出现的文档频率,计算字词在整个语料中的重要程度。TF-IDF的优点是能过滤掉一些常见的却无关紧要本的词语,同时保留影响整个文本的重要字词。计算方法是通过局部分量(词频TF)和全局分量(逆文档频率idf)相乘得到重要程度,并将所得文档标准化为单位长度。公式如下:
其中,所述动态数字化特征词通过以下方法得到:
引入相关库函数及依赖numpy、pandas;
对所述IP资产数据进行分词,以得到分词词组;
分别计算分词词组的词频TF和逆文档频率idf;
根据词频TF和逆文档频率idf分别计算分词词组的重要程度;
根据重要程度选取出部分分词词组,定义为所述动态数字化特征词。
优选地,所述根据数据化特征词构建机器学习训练数据集具体包括:
根据所述数据化特征词检索公网的网络空间测绘引擎API,用于构建疑似数据集合;
根据所述静态数字化特征词检索公网的网络空间测绘引擎API,用于构建相关数据集;
在预设的网站库中搜索不包含静态数据化特征词的网页数据,根据该网页数据构建非相关数据集;
使用中文分词和中文常用停用词表对疑似数据集合、相关数据集和非相关数据集进行处理。
具体地,机器学习训练数据集包括疑似数据集合、相关数据集和非相关数据集。网站库主要包含Alexa网站排名的TOP1000网站。
优选地,所述对机器学习训练数据集进行机器学习,得到判别模型具体包括:
加载所述机器学习训练数据集,并进行label标记;
将机器学习训练数据集划分为训练数据与测试数据;
采用TfidfVectorizer提取训练数据的文本特征向量,并在训练数据中配置停用词,以得到原始数据;
使用朴素贝叶斯分类器对原始数据进行机器学习训练;
利用测试数据对训练好的模型进行评估,设置评估通过的模型为所述判别模型。
具体地,机器学习算法模型可以选择朴素贝叶斯分类。贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。贝叶斯公式中,P(A)称为"先验概率"(Prior probability),即在B事件发生之前,对A事件概率的一个判断。P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,对A事件概率的重新评估。P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。
该方法可以先预估一个"先验概率",然后加入实验结果,看这个实验结果是增强还是削弱了"先验概率",由此得到更接近事实的"后验概率"。因为在分类中,只需要找出可能性最大的那个选项,而不需要知道具体那个类别的概率是多少。而朴素贝叶斯是在贝叶斯的基础上,对条件概率分布做了条件独立性的假设。因此可得朴素贝叶斯分类器的表达式如下:
该方法模型评估的准确性超过98%,简单,运算量小,在拥有大量分类的数据集上仍然表现很好。当数据的各个属性互相独立的假设成立时,朴素贝叶斯比逻辑回归等模型表现更好,并且朴素贝叶斯需要更少的训练数据,因此在对小型企业进行归类,数据集不多的情况下,具有更好的效果。与数值变量相比,朴素贝叶斯在非数值变量的训练集上表现更好,因为对于数值型变量,一般假设数据符合正态分布。
实施例二:
一种网络空间IP资产归属及相关性判别系统,参见图3,包括:
采集单元:用于接收企业录入的一级域名,获取一级域名下的IP资产数据;
提取单元:用于从IP资产数据中提取IP资产属性的数据化特征词;
构建单元:用于根据数据化特征词构建机器学习训练数据集;
学习单元:用于对机器学习训练数据集进行机器学习,得到判别模型;
判别单元:用于获取企业的待识别IP资产数据,将待识别IP资产数据输入至判别模型,由判别模型输出与企业相关联的IP资产。
优选地,所述数据化特征词包括静态数字化特征词和动态数字化特征词;
静态数字化特征词通过预设的关键词及所述IP资产数据中的banner信息确定;
动态数字化特征词为利用TF-IDF算法对所述IP资产数据进行分析得到。
优选地,所述提取单元具体用于:
对所述IP资产数据进行分词,以得到分词词组;
分别计算分词词组的词频TF和逆文档频率idf;
根据词频TF和逆文档频率idf分别计算分词词组的重要程度;
根据重要程度选取出部分分词词组,定义为所述动态数字化特征词。
优选地,所述构建单元具体用于:
根据所述数据化特征词检索公网的网络空间测绘引擎API,用于构建疑似数据集合;
根据所述静态数字化特征词检索公网的网络空间测绘引擎API,用于构建相关数据集;
在预设的网站库中搜索不包含静态数据化特征词的网页数据,根据该网页数据构建非相关数据集;
使用中文分词和中文常用停用词表对疑似数据集合、相关数据集和非相关数据集进行处理。
优选地,所述学习单元具体用于:
加载所述机器学习训练数据集,并进行label标记;
将机器学习训练数据集划分为训练数据与测试数据;
提取训练数据的文本特征向量,并在训练数据中配置停用词,以得到原始数据;
使用朴素贝叶斯分类器对原始数据进行机器学习训练;
利用测试数据对训练好的模型进行评估,设置评估通过的模型为所述判别模型。
该系统只需要企业在首次使用时进行一级域名的配置和训练集的设定,后续即可以自动化地进行企业公网IP资产相关性判别,减少了日常工作中重复机械的投入,实现了自动化、快速、准确地解决了通过IP资产属性判定企业相关性及资产归属的功能。
本发明实施例所提供的系统,为简要描述,实施例部分未提及之处,可参考前述实施例中相应内容。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种网络空间IP资产归属及相关性判别方法,其特征在于,包括以下步骤:
S1:接收企业录入的一级域名,获取一级域名下的IP资产数据;
S2:从IP资产数据中提取IP资产属性的数据化特征词;
S3:根据数据化特征词构建机器学习训练数据集;
S4:对机器学习训练数据集进行机器学习,得到判别模型;
S5:获取企业的待识别IP资产数据,将待识别IP资产数据输入至判别模型,由判别模型输出与企业相关联的IP资产。
2.根据权利要求1所述网络空间IP资产归属及相关性判别方法,其特征在于,
所述数据化特征词包括静态数字化特征词和动态数字化特征词;
静态数字化特征词通过预设的关键词及所述IP资产数据中的banner信息确定;
动态数字化特征词为利用TF-IDF算法对所述IP资产数据进行分析得到。
3.根据权利要求2所述网络空间IP资产归属及相关性判别方法,其特征在于,所述动态数字化特征词通过以下方法得到:
对所述IP资产数据进行分词,以得到分词词组;
分别计算分词词组的词频TF和逆文档频率idf;
根据词频TF和逆文档频率idf分别计算分词词组的重要程度;
根据重要程度选取出部分分词词组,定义为所述动态数字化特征词。
4.根据权利要求2所述网络空间IP资产归属及相关性判别方法,其特征在于,所述根据数据化特征词构建机器学习训练数据集具体包括:
根据所述数据化特征词检索公网的网络空间测绘引擎API,用于构建疑似数据集合;
根据所述静态数字化特征词检索公网的网络空间测绘引擎API,用于构建相关数据集;
在预设的网站库中搜索不包含静态数据化特征词的网页数据,根据该网页数据构建非相关数据集;
使用中文分词和中文常用停用词表对疑似数据集合、相关数据集和非相关数据集进行处理。
5.根据权利要求2所述网络空间IP资产归属及相关性判别方法,其特征在于,所述对机器学习训练数据集进行机器学习,得到判别模型具体包括:
加载所述机器学习训练数据集,并进行label标记;
将机器学习训练数据集划分为训练数据与测试数据;
提取训练数据的文本特征向量,并在训练数据中配置停用词,以得到原始数据;
使用朴素贝叶斯分类器对原始数据进行机器学习训练;
利用测试数据对训练好的模型进行评估,设置评估通过的模型为所述判别模型。
6.一种网络空间IP资产归属及相关性判别系统,其特征在于,包括:
采集单元:用于接收企业录入的一级域名,获取一级域名下的IP资产数据;
提取单元:用于从IP资产数据中提取IP资产属性的数据化特征词;
构建单元:用于根据数据化特征词构建机器学习训练数据集;
学习单元:用于对机器学习训练数据集进行机器学习,得到判别模型;
判别单元:用于获取企业的待识别IP资产数据,将待识别IP资产数据输入至判别模型,由判别模型输出与企业相关联的IP资产。
7.根据权利要求6所述网络空间IP资产归属及相关性判别系统,其特征在于,
所述数据化特征词包括静态数字化特征词和动态数字化特征词;
静态数字化特征词通过预设的关键词及所述IP资产数据中的banner信息确定;
动态数字化特征词为利用TF-IDF算法对所述IP资产数据进行分析得到。
8.根据权利要求7所述网络空间IP资产归属及相关性判别系统,其特征在于,所述提取单元具体用于:
对所述IP资产数据进行分词,以得到分词词组;
分别计算分词词组的词频TF和逆文档频率idf;
根据词频TF和逆文档频率idf分别计算分词词组的重要程度;
根据重要程度选取出部分分词词组,定义为所述动态数字化特征词。
9.根据权利要求7所述网络空间IP资产归属及相关性判别系统,其特征在于,所述构建单元具体用于:
根据所述数据化特征词检索公网的网络空间测绘引擎API,用于构建疑似数据集合;
根据所述静态数字化特征词检索公网的网络空间测绘引擎API,用于构建相关数据集;
在预设的网站库中搜索不包含静态数据化特征词的网页数据,根据该网页数据构建非相关数据集;
使用中文分词和中文常用停用词表对疑似数据集合、相关数据集和非相关数据集进行处理。
10.根据权利要求7所述网络空间IP资产归属及相关性判别系统,其特征在于,所述学习单元具体用于:
加载所述机器学习训练数据集,并进行label标记;
将机器学习训练数据集划分为训练数据与测试数据;
提取训练数据的文本特征向量,并在训练数据中配置停用词,以得到原始数据;
使用朴素贝叶斯分类器对原始数据进行机器学习训练;
利用测试数据对训练好的模型进行评估,设置评估通过的模型为所述判别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110318389.4A CN113158001B (zh) | 2021-03-25 | 2021-03-25 | 一种网络空间ip资产归属及相关性判别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110318389.4A CN113158001B (zh) | 2021-03-25 | 2021-03-25 | 一种网络空间ip资产归属及相关性判别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158001A true CN113158001A (zh) | 2021-07-23 |
CN113158001B CN113158001B (zh) | 2024-05-14 |
Family
ID=76884881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110318389.4A Active CN113158001B (zh) | 2021-03-25 | 2021-03-25 | 一种网络空间ip资产归属及相关性判别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158001B (zh) |
Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070250468A1 (en) * | 2006-04-24 | 2007-10-25 | Captive Traffic, Llc | Relevancy-based domain classification |
US20080104276A1 (en) * | 2006-10-25 | 2008-05-01 | Arcsight, Inc. | Real-Time Identification of an Asset Model and Categorization of an Asset to Assist in Computer Network Security |
US20150088846A1 (en) * | 2013-09-25 | 2015-03-26 | Go Daddy Operating Company, LLC | Suggesting keywords for search engine optimization |
CN106096040A (zh) * | 2016-06-29 | 2016-11-09 | 中国人民解放军国防科学技术大学 | 基于搜索引擎的机构网站归属地判别方法及其装置 |
US20170142143A1 (en) * | 2013-12-19 | 2017-05-18 | Splunk Inc. | Identifying notable events based on execution of correlation searches |
CN108449345A (zh) * | 2018-03-22 | 2018-08-24 | 深信服科技股份有限公司 | 一种网络资产持续安全监控方法、系统、设备及存储介质 |
CN109033471A (zh) * | 2018-09-05 | 2018-12-18 | 中国信息安全测评中心 | 一种信息资产识别方法及装置 |
CN109040155A (zh) * | 2017-06-08 | 2018-12-18 | 中国移动通信集团浙江有限公司 | 资产识别方法和计算机设备 |
CN109034222A (zh) * | 2018-07-13 | 2018-12-18 | 杭州安恒信息技术股份有限公司 | 一种硬件资产分类方法、系统、装置及可读存储介质 |
CN109783719A (zh) * | 2018-12-29 | 2019-05-21 | 北京奇安信科技有限公司 | 基于单位名称的资产数据查找方法、装置、设备及介质 |
CN109977990A (zh) * | 2019-01-21 | 2019-07-05 | 中国电子科技集团公司第三十研究所 | 一种基于概念格的网络资产相似性度量方法 |
CN110166289A (zh) * | 2019-05-15 | 2019-08-23 | 北京奇安信科技有限公司 | 一种识别目标信息资产的方法及装置 |
CN110334904A (zh) * | 2019-05-30 | 2019-10-15 | 北京理工大学 | 基于LightGBM的关键信息基础设施类型单位归属判定方法 |
CN110427628A (zh) * | 2019-08-02 | 2019-11-08 | 杭州安恒信息技术股份有限公司 | 基于神经网络算法的web资产分类检测方法及装置 |
CN110535727A (zh) * | 2019-09-02 | 2019-12-03 | 杭州安恒信息技术股份有限公司 | 资产识别方法和装置 |
CN110781299A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN110991509A (zh) * | 2019-11-25 | 2020-04-10 | 杭州安恒信息技术股份有限公司 | 基于人工智能技术的资产识别与信息分类方法 |
CN111104579A (zh) * | 2019-12-31 | 2020-05-05 | 北京神州绿盟信息安全科技股份有限公司 | 一种公网资产的识别方法、装置及存储介质 |
CN111369010A (zh) * | 2020-03-31 | 2020-07-03 | 绿盟科技集团股份有限公司 | 一种信息资产类别识别方法、装置、介质和设备 |
CN111444961A (zh) * | 2020-03-26 | 2020-07-24 | 国家计算机网络与信息安全管理中心黑龙江分中心 | 一种通过聚类算法判定互联网网站归属的方法 |
CN111967063A (zh) * | 2020-09-02 | 2020-11-20 | 开普云信息科技股份有限公司 | 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质 |
CN111985513A (zh) * | 2019-05-22 | 2020-11-24 | 国家计算机网络与信息安全管理中心 | 一种快速判识网络资产归属系统及其识别分析方法 |
CN112003857A (zh) * | 2020-08-20 | 2020-11-27 | 深信服科技股份有限公司 | 一种网络资产搜集方法、装置、设备及存储介质 |
CN112468360A (zh) * | 2020-11-13 | 2021-03-09 | 北京安信天行科技有限公司 | 一种基于指纹的资产发现识别和检测方法及系统 |
CN112511501A (zh) * | 2020-11-12 | 2021-03-16 | 成都思维世纪科技有限责任公司 | 一种面向5g应用的数据安全监测系统 |
-
2021
- 2021-03-25 CN CN202110318389.4A patent/CN113158001B/zh active Active
Patent Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070250468A1 (en) * | 2006-04-24 | 2007-10-25 | Captive Traffic, Llc | Relevancy-based domain classification |
US20080104276A1 (en) * | 2006-10-25 | 2008-05-01 | Arcsight, Inc. | Real-Time Identification of an Asset Model and Categorization of an Asset to Assist in Computer Network Security |
US20150088846A1 (en) * | 2013-09-25 | 2015-03-26 | Go Daddy Operating Company, LLC | Suggesting keywords for search engine optimization |
US20170142143A1 (en) * | 2013-12-19 | 2017-05-18 | Splunk Inc. | Identifying notable events based on execution of correlation searches |
CN106096040A (zh) * | 2016-06-29 | 2016-11-09 | 中国人民解放军国防科学技术大学 | 基于搜索引擎的机构网站归属地判别方法及其装置 |
CN109040155A (zh) * | 2017-06-08 | 2018-12-18 | 中国移动通信集团浙江有限公司 | 资产识别方法和计算机设备 |
CN108449345A (zh) * | 2018-03-22 | 2018-08-24 | 深信服科技股份有限公司 | 一种网络资产持续安全监控方法、系统、设备及存储介质 |
CN109034222A (zh) * | 2018-07-13 | 2018-12-18 | 杭州安恒信息技术股份有限公司 | 一种硬件资产分类方法、系统、装置及可读存储介质 |
CN109033471A (zh) * | 2018-09-05 | 2018-12-18 | 中国信息安全测评中心 | 一种信息资产识别方法及装置 |
CN109783719A (zh) * | 2018-12-29 | 2019-05-21 | 北京奇安信科技有限公司 | 基于单位名称的资产数据查找方法、装置、设备及介质 |
CN109977990A (zh) * | 2019-01-21 | 2019-07-05 | 中国电子科技集团公司第三十研究所 | 一种基于概念格的网络资产相似性度量方法 |
CN110166289A (zh) * | 2019-05-15 | 2019-08-23 | 北京奇安信科技有限公司 | 一种识别目标信息资产的方法及装置 |
CN111985513A (zh) * | 2019-05-22 | 2020-11-24 | 国家计算机网络与信息安全管理中心 | 一种快速判识网络资产归属系统及其识别分析方法 |
CN110334904A (zh) * | 2019-05-30 | 2019-10-15 | 北京理工大学 | 基于LightGBM的关键信息基础设施类型单位归属判定方法 |
CN110427628A (zh) * | 2019-08-02 | 2019-11-08 | 杭州安恒信息技术股份有限公司 | 基于神经网络算法的web资产分类检测方法及装置 |
CN110535727A (zh) * | 2019-09-02 | 2019-12-03 | 杭州安恒信息技术股份有限公司 | 资产识别方法和装置 |
CN110781299A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN110991509A (zh) * | 2019-11-25 | 2020-04-10 | 杭州安恒信息技术股份有限公司 | 基于人工智能技术的资产识别与信息分类方法 |
CN111104579A (zh) * | 2019-12-31 | 2020-05-05 | 北京神州绿盟信息安全科技股份有限公司 | 一种公网资产的识别方法、装置及存储介质 |
CN111444961A (zh) * | 2020-03-26 | 2020-07-24 | 国家计算机网络与信息安全管理中心黑龙江分中心 | 一种通过聚类算法判定互联网网站归属的方法 |
CN111369010A (zh) * | 2020-03-31 | 2020-07-03 | 绿盟科技集团股份有限公司 | 一种信息资产类别识别方法、装置、介质和设备 |
CN112003857A (zh) * | 2020-08-20 | 2020-11-27 | 深信服科技股份有限公司 | 一种网络资产搜集方法、装置、设备及存储介质 |
CN111967063A (zh) * | 2020-09-02 | 2020-11-20 | 开普云信息科技股份有限公司 | 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质 |
CN112511501A (zh) * | 2020-11-12 | 2021-03-16 | 成都思维世纪科技有限责任公司 | 一种面向5g应用的数据安全监测系统 |
CN112468360A (zh) * | 2020-11-13 | 2021-03-09 | 北京安信天行科技有限公司 | 一种基于指纹的资产发现识别和检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
NAZILA GOL MOHAMMADI: "Systematic Asset Identification and Modeling During Requirements Engineering", 《ISKS AND SECURITY OF INTERNET AND SYSTEMS》, 28 February 2020 (2020-02-28), pages 50 - 66, XP047549880, DOI: 10.1007/978-3-030-41568-6_4 * |
马帅: "企业安全运营中心管理系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技》, 15 January 2020 (2020-01-15), pages 138 - 428 * |
Also Published As
Publication number | Publication date |
---|---|
CN113158001B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10387455B2 (en) | On-the-fly pattern recognition with configurable bounds | |
AU2013329525B2 (en) | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data | |
WO2021098648A1 (zh) | 文本推荐方法、装置、设备及介质 | |
JP2013504118A (ja) | クエリのセマンティックパターンに基づく情報検索 | |
US11968162B1 (en) | Message content cleansing | |
WO2019061664A1 (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN113255370A (zh) | 基于语义相似度的行业类型推荐方法、装置、设备及介质 | |
JP5136910B2 (ja) | 情報分析装置、情報分析方法、情報分析用プログラム、及び検索システム | |
CN116089732B (zh) | 基于广告点击数据的用户偏好识别方法及系统 | |
JP2017004097A (ja) | 情報分析システム、情報分析方法 | |
CN112632528A (zh) | 威胁情报生成方法、设备、存储介质及装置 | |
CN116881962A (zh) | 一种安全监控系统、方法、装置和存储介质 | |
CN113158001B (zh) | 一种网络空间ip资产归属及相关性判别方法及系统 | |
Sanjana | Ad service detection-a comparative study using machine learning techniques | |
Aires et al. | An information theory approach to detect media bias in news websites | |
CN113626387A (zh) | 一种任务数据的导出方法、装置、电子设备及存储介质 | |
JP5971794B2 (ja) | 特許調査支援装置、特許調査支援方法、およびプログラム | |
Shin et al. | System API vectorization for malware detection | |
Airlangga | Comparative Analysis of NLP Techniques for Hate Speech Classification in Online Communications | |
CN113867785A (zh) | 一种数据筛选方法及相关装置 | |
CN118157985A (zh) | 威胁检测方法、装置、电子设备及存储介质 | |
CN116701058A (zh) | 组件的参数配置方法、装置、处理器以及电子设备 | |
CN116821953A (zh) | 基于元数据的资产分析方法及装置 | |
CN115269636A (zh) | 一种基于行为词嵌入的用户分类方法及系统 | |
CN117521069A (zh) | 漏洞分析方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |