CN111897962B - 一种物联网资产标记方法及装置 - Google Patents
一种物联网资产标记方法及装置 Download PDFInfo
- Publication number
- CN111897962B CN111897962B CN202010732683.5A CN202010732683A CN111897962B CN 111897962 B CN111897962 B CN 111897962B CN 202010732683 A CN202010732683 A CN 202010732683A CN 111897962 B CN111897962 B CN 111897962B
- Authority
- CN
- China
- Prior art keywords
- internet
- asset
- things
- data
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims abstract description 56
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000007621 cluster analysis Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 17
- 238000013145 classification model Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004806 packaging method and process Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y20/00—Information sensed or collected by the things
- G16Y20/20—Information sensed or collected by the things relating to the thing itself
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y30/00—IoT infrastructure
- G16Y30/10—Security thereof
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种物联网资产标记方法及装置,该方法包括获取网络空间资产数据,对网络空间资产数据进行预处理,得到物联网设备的资产数据,对物联网设备的资产数据进行向量化处理,得到物联网设备的资产数据对应的词向量矩阵,将物联网设备的资产数据对应的词向量矩阵进行聚类分析,得到多个类别,将多个类别中每个类别的任一物联网设备的服务页面图片输入到物联网资产类别识别模型进行识别,确定多个类别是否均为物联网资产类别,若是,则依据预设的推荐规则对多个类别进行处理,确定出优先标记的物联网资产类别,将优先标记的物联网资产类别进行标记,可以实现在物联网资产识别时可以高效精准地识别出物联网设备。
Description
技术领域
本发明实施例涉及物联网技术领域,尤其涉及一种物联网资产标记方法及装置。
背景技术
大量互联网上暴露的物联网设备和服务,已成为攻击者发动大规模DDoS(Distributed Denial of Service,分布式拒绝服务)攻击的首选。在物联网相关的安全问题越来越引起关注的背景下,对这些物联网资产进行分析和梳理是有必要的。
细粒度的识别物联网设备能够为进一步对设备的属性研究及安全分析提供数据支撑,针对不同类别、环境等因素寻找物联网设备的安全漏洞,从各个方面和角度进一步采取有效的安全措施,加强物联网设备的安全防护和修补。
在威胁狩猎方面,如果捕获了被恶意利用的物联网设备,并已经对这些物联网设备做到精准识别,就可以通过指纹搜索出互联上暴露出的该类型全部的物联网设备,从而将这些物联网设备列入重点观测对象,通过提前的预防策略来减低未来攻击带来的影响。此外,网络安全风险评估从资产识别开始,因此能否对物联网资产进行精准的识别对物联网安全研究有着重要意义。
现有的物联网资产识别方法主要是通过人工匹配来寻找指纹进行标记。即在物联网设备相关厂商官网或电商网站中进行搜索,找到这些物联网设备的产品相关信息,例如厂商、设备类型、型号/版本等。然后将收集到的产品相关信息在探测返回Banner中进行正则匹配,如果匹配成功,则识别成功并输出指纹。然而这种识别方法对新出现的设备类型或者小众厂商的物联网设备,很难做到及时发现并识别,并且人工成本投入也是巨大的。
综上,目前亟需一种物联网资产标记方法,用以实现在物联网资产识别时可以高效精准地识别出物联网设备,并提高物联网资产识别的精度和广度。
发明内容
本发明实施例提供了一种物联网资产标记方法及装置,用以实现在物联网资产识别时可以高效精准地识别出物联网设备,并提高物联网资产识别的精度和广度。
第一方面,本发明实施例提供了一种物联网资产标记方法,包括:
获取网络空间资产数据;
对所述网络空间资产数据进行预处理,得到所述物联网设备的资产数据;
对所述物联网设备的资产数据进行向量化处理,得到所述物联网设备的资产数据对应的词向量矩阵;
将所述物联网设备的资产数据对应的词向量矩阵进行聚类分析,得到多个类别;
将所述多个类别中每个类别的任一物联网设备的服务页面图片输入到物联网资产类别识别模型进行识别,确定所述多个类别是否均为物联网资产类别;所述物联网资产类别识别模型是使用物联网设备和非物联网设备的服务页面图片样本集对预设的分类模型进行训练确定的;
若是,则依据预设的推荐规则对所述多个类别进行处理,确定出优先标记的物联网资产类别;将所述优先标记的物联网资产类别进行标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹。
上述技术方案中,由于网络空间资产数据中包含的大量非物联网设备资产数据会影响聚类分析的准确度,因此需要通过对网络空间资产数据进行预处理,得到物联网设备的资产数据。再对物联网设备的资产数据进行向量化处理,得到物联网设备的资产数据对应的词向量矩阵,有助于对物联网设备的资产数据进行聚类以及对物联网设备的资产数据进行进一步分析。之后将物联网设备的资产数据对应的词向量矩阵进行聚类分析,得到多个类别,并将该多个类别中每个类别的任一物联网设备的服务页面图片输入到物联网资产类别识别模型进行识别,确定多个类别是否均为物联网资产类别,可以进一步快速精确地确定出物联网资产类别。然后在确定多个类别均为物联网资产类别时,依据预设的推荐规则对多个类别进行处理,可以快速准确地确定出优先标记的物联网资产类别,以及将优先标记的物联网资产类别进行标记,并生成与优先标记的物联网资产类别对应的物联网资产指纹,如此可以大大降低人工投入成本,并会优先标记更有价值的物联网设备的资产数据。此外,通过预设的推荐规则也可以标记网络空间中新出现的物联网设备的资产数据,对物联网资产研究有相当大的价值。从而可以实现在物联网资产识别时可以高效精准地识别出物联网设备,并提高物联网资产识别的精度和广度。
可选地,所述对所述网络空间资产数据进行预处理,得到所述物联网设备的资产数据,包括:
根据资产特征库中的资产特征,确定所述网络空间资产数据中是否存在非物联网设备的资产数据的资产特征,若是,则将所述网络空间资产数据中非物联网设备的资产数据进行过滤处理,得到处理后的所述网络空间资产数据;
对所述处理后的所述网络空间资产数据的数据格式进行标准化处理,得到所述物联网设备的资产数据。
上述技术方案中,由于网络空间资产数据中包含的大量非物联网设备资产数据会影响聚类分析的准确度,因此需要通过将网络空间资产数据的资产特征与资产特征库中的资产特征进行匹配,将网络空间资产数据中非物联网设备的资产数据进行过滤处理。之后对处理后的网络空间资产数据的数据格式进行标准化处理,得到物联网设备的资产数据,可以有助于为物联网设备的资产数据的向量化处理提供支持。
可选地,所述对所述物联网设备的资产数据进行向量化处理,得到所述物联网设备的资产数据对应的词向量矩阵,包括:
针对任一物联网设备的资产数据,使用预训练好的词向量模型,将所述物联网设备的资产数据中每条数据映射为词组向量;
所述物联网设备的资产数据中每条数据的词组向量构成所述物联网设备的资产数据对应的词向量矩阵。
上述技术方案中,通过针对任一物联网设备的资产数据,使用预训练好的词向量模型,将物联网设备的资产数据中每条数据映射为词组向量,有助于对物联网设备的资产数据进行聚类以及对物联网设备的资产数据进行进一步分析。
可选地,所述方法还包括:
在确定所述多个类别中任一类别为非物联网资产类别时,则对所述非物联网资产类别的资产数据进行特征提取处理,得到所述非物联网资产类别的资产数据的资产特征;
根据资产特征库中的资产特征确定所述非物联网资产类别的资产数据的资产特征是否存在所述非物联网设备的资产数据的资产特征,若是,则将所述非物联网资产类别的资产数据中的非物联网设备的资产数据进行过滤处理;
将过滤处理后的所述非物联网资产类别的资产数据对应的词向量矩阵和所述物联网资产类别的资产数据对应的词向量矩阵进行重新聚类分析,直至所述多个类别均为所述物联网资产类别为止。
上述技术方案中,在确定多个类别中任一类别为非物联网资产类别时,对非物联网资产类别的资产数据进行特征提取处理,得到非物联网资产类别的资产数据的资产特征,并将非物联网资产类别的资产数据的资产特征与资产特征库中的资产特征进行匹配,如此可以简便快速地过滤掉非物联网资产类别的资产数据中的非物联网设备的资产数据。再将过滤处理后的所述非物联网资产类别的资产数据对应的词向量矩阵和物联网资产类别的资产数据对应的词向量矩阵进行重新聚类分析,直至多个类别均为物联网资产类别为止,从而可以确保聚类分析的聚类结果均为物联网资产类别,进而有助于为推荐出需要优先标记的物联网资产类别提供支持。
可选地,所述使用物联网设备和非物联网设备的服务页面图片样本集对预设的分类模型进行训练确定所述物联网资产类别识别模型,包括:
获取所述物联网设备和非物联网设备的服务页面图片样本集;
将所述物联网设备和非物联网设备的服务页面图片样本集输入到预设的特征提取模型进行处理,确定出所述物联网设备和非物联网设备的服务页面图片样本集对应的特征向量集;
将所述物联网设备和非物联网设备的服务页面图片样本集对应的特征向量集输入到所述预设的分类模型进行训练,得到所述物联网资产类别识别模型。
上述技术方案中,通过将物联网设备和非物联网设备的服务页面图片样本集对应的特征向量集输入到预设的分类模型进行训练,得到物联网资产类别识别模型,可以为快速精确地确定出物联网资产类别提供支持,并提高网络空间资产数据中物联网设备的资产数据的精确识别。
可选地,所述依据预设的推荐规则对所述多个类别进行处理,确定出优先标记的物联网资产类别,包括:
针对所述多个类别中任一类别,统计出所述类别的资产数据的数量与所述多个类别的全部资产数据的数量的比值,并确定所述比值是否大于等于预设阈值,若是,则确定所述类别为所述优先标记的物联网资产类别;
若否,则确定所述类别的资产数据是否存在漏洞,若是,则确定所述类别为所述优先标记的物联网资产类别;否则在确定所述类别为新出现的类别时,确定所述类别为所述优先标记的物联网资产类别。
上述技术方案中,通过根据预设的推荐规则中的多个判断条件对多个类别中任一类别进行判断,可以准确地确定出优先标记的物联网资产类别,从而为优先标记更有价值的物联网设备的资产数据提供支持,并可以标记网络空间中新出现的物联网设备的资产数据,对物联网资产研究有相当大的价值。
可选地,所述将所述优先标记的物联网资产类别进行标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹,包括:
将所述优先标记的物联网资产类别进行打包处理,得到打包后的所述优先标记的物联网资产类别;
将所述打包后的所述优先标记的物联网资产类别进行资产指纹标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹。
上述技术方案中,通过将打包后的优先标记的物联网资产类别进行资产指纹标记,并生成与优先标记的物联网资产类别对应的物联网资产指纹,可以为物联网资产的安全研究提供支持。
第二方面,本发明实施例还提供了一种物联网资产标记装置,包括:
获取单元,用于获取网络空间资产数据;
处理单元,用于对所述网络空间资产数据进行预处理,得到所述物联网设备的资产数据;对所述物联网设备的资产数据进行向量化处理,得到所述物联网设备的资产数据对应的词向量矩阵;将所述物联网设备的资产数据对应的词向量矩阵进行聚类分析,得到多个类别;将所述多个类别中每个类别的任一物联网设备的服务页面图片输入到物联网资产类别识别模型进行识别,确定所述多个类别是否均为物联网资产类别;所述物联网资产类别识别模型是使用物联网设备和非物联网设备的服务页面图片样本集对预设的分类模型进行训练确定的;若是,则依据预设的推荐规则对所述多个类别进行处理,确定出优先标记的物联网资产类别;将所述优先标记的物联网资产类别进行标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹。
可选地,所述处理单元具体用于:
根据资产特征库中的资产特征,确定所述网络空间资产数据中是否存在非物联网设备的资产数据的资产特征,若是,则将所述网络空间资产数据中非物联网设备的资产数据进行过滤处理,得到处理后的所述网络空间资产数据;
对所述处理后的所述网络空间资产数据的数据格式进行标准化处理,得到所述物联网设备的资产数据。
可选地,所述处理单元具体用于:
针对任一物联网设备的资产数据,使用预训练好的词向量模型,将所述物联网设备的资产数据中每条数据映射为词组向量;
所述物联网设备的资产数据中每条数据的词组向量构成所述物联网设备的资产数据对应的词向量矩阵。
可选地,所述处理单元还用于:
在确定所述多个类别中任一类别为非物联网资产类别时,则对所述非物联网资产类别的资产数据进行特征提取处理,得到所述非物联网资产类别的资产数据的资产特征;
根据资产特征库中的资产特征确定所述非物联网资产类别的资产数据的资产特征是否存在所述非物联网设备的资产数据的资产特征,若是,则将所述非物联网资产类别的资产数据中的非物联网设备的资产数据进行过滤处理;
将过滤处理后的所述非物联网资产类别的资产数据对应的词向量矩阵和所述物联网资产类别的资产数据对应的词向量矩阵进行重新聚类分析,直至所述多个类别均为所述物联网资产类别为止。
可选地,所述处理单元具体用于:
获取所述物联网设备和非物联网设备的服务页面图片样本集;
将所述物联网设备和非物联网设备的服务页面图片样本集输入到预设的特征提取模型进行处理,确定出所述物联网设备和非物联网设备的服务页面图片样本集对应的特征向量集;
将所述物联网设备和非物联网设备的服务页面图片样本集对应的特征向量集输入到所述预设的分类模型进行训练,得到所述物联网资产类别识别模型。
可选地,所述处理单元具体用于:
针对所述多个类别中任一类别,统计出所述类别的资产数据的数量与所述多个类别的全部资产数据的数量的比值,并确定所述比值是否大于等于预设阈值,若是,则确定所述类别为所述优先标记的物联网资产类别;
若否,则确定所述类别的资产数据是否存在漏洞,若是,则确定所述类别为所述优先标记的物联网资产类别;否则在确定所述类别为新出现的类别时,确定所述类别为所述优先标记的物联网资产类别。
可选地,所述处理单元具体用于:
将所述优先标记的物联网资产类别进行打包处理,得到打包后的所述优先标记的物联网资产类别;
将所述打包后的所述优先标记的物联网资产类别进行资产指纹标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹。
第三方面,本发明实施例提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行物联网资产标记方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行物联网资产标记方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种系统架构的示意图;
图2为本发明实施例提供的一种物联网资产标记方法的流程示意图;
图3为本发明实施例提供的一种对网络空间资产数据进行聚类分析的流程示意图;
图4为本发明实施例提供的一种确定优先标记的物联网资产类别的流程示意图;
图5为本发明实施例提供的一种物联网资产标记装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种系统架构。如图1所示,该系统架构可以为服务器100,包括处理器110、通信接口120和存储器130。
其中,通信接口120用于与终端设备进行通信,收发该终端设备传输的信息,实现通信。
处理器110是服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2示例性的示出了本发明实施例提供的一种物联网资产标记方法的流程,该流程可以由物联网资产标记装置执行。
如图2所示,该流程具体包括:
步骤201,获取网络空间资产数据。
本发明实施例中,该网络空间资产数据可以包括物联网设备的资产数据和非物联网设备的资产数据。其中,该网络空间资产数据是根据不同的网络协议(比如TCP/IP协议、IPX/SPX协议或NetBEUI协议等)对网络空间资产进行探测,采集到存活的网络资产信息数据,并对存活的网络资产信息数据进行过滤处理,过滤掉已经标记、返回状态错误等无效资产数据所确定的,之后将过滤处理后的存活的网络资产信息数据(网络空间资产数据)存入到数据库。
步骤202,对所述网络空间资产数据进行预处理,得到所述物联网设备的资产数据。
本发明实施例中,根据资产特征库中的资产特征,确定网络空间资产数据中是否存在非物联网设备的资产数据的资产特征,若是,则将网络空间资产数据中非物联网设备的资产数据进行过滤处理,得到处理后的网络空间资产数据,再对处理后的网络空间资产数据的数据格式进行标准化处理,得到物联网设备的资产数据。其中,资产特征库包括物联网资产特征库和非物联网资产特征库。
此外,根据下述步骤确定资产特征库:先获取历史标记的网络空间资产数据,再参照已识别的物联网资产特征和已识别的非物联网资产特征,将历史标记的网络空间资产数据分别与已识别的物联网资产特征和已识别的非物联网资产特征进行匹配,从历史标记的网络空间资产数据中提取出物联网设备的资产数据的资产特征和非物联网设备的资产数据的资产特征,之后将物联网设备的资产数据的资产特征存储在物联网资产特征库中,并将非物联网设备的资产数据的资产特征存储在非物联网资产特征库中。
具体地,网络空间采集到的存活资产数据中包含大量非物联网设备资产数据,这类非物联网设备资产数据会影响到后续聚类分析的准确度,因此需要根据物联网资产特征相关的先验知识(即根据资产特征库中的资产特征)将这类非物联网设备资产数据过滤掉,尽最大可能的只保留物联网设备相关资产数据。另外,对物联网设备相关资产数据的数据格式进行标准化处理,为对物联网设备的资产数据进行向量化处理提供支持。
进一步地,根据已识别的物联网资产特征和已识别的非物联网资产特征,将历史标记的网络空间资产数据分别与已识别的物联网资产特征和已识别的非物联网资产特征进行匹配,从历史标记的网络空间资产数据中提取出物联网设备的资产数据的资产特征和非物联网设备的资产数据的资产特征,建立物联网资产特征库和非物联网资产特征库。具体地,参照已识别的物联网资产特征,从历史标记的网络空间资产数据中提取物联网设备的资产数据的资产特征有以下几个方式:
a、从协议Header中提取物联网资产特征。
传输层数据的报文头部提取物联网资产特征。物联网设备在进行有效连接后,物联网设备返回的报文头部(比如HTTP响应头部的Server字段),通常带有与产品属性相关的信息,如设备类型、品牌、型号等。
b、从协议Body中提取物联网资产特征。
物联网设备一般都是嵌入式设备,所以与传统服务相比,物联网设备响应的协议Body字符总长度不会过长。
此外,从HTTP协议传输的HTML文件内容或FTP协议传输的数据报文内容等都可以提取到物联网资产特征。比如HTML文件中的Title字段中的物联网资产特征。
c、包含物联网关键字特征。
物联网关键字包括:物联网设备厂商名称(比如Huawei、Hikvision、TP-Link等)、物联网设备类型(比如Camera、Router、Printer、Smart Home等)、物联网操作系统(比如OpenWrt、Raspbian等)。
需要说明的是,参照已识别的非物联网资产特征,从历史标记的网络空间资产数据中提取非物联网设备的资产数据的资产特征的方式与提取物联网设备的资产数据的资产特征的方式是类似的,在此不再对提取非物联网设备的资产数据的资产特征的方式进行赘述。
步骤203,对所述物联网设备的资产数据进行向量化处理,得到所述物联网设备的资产数据对应的词向量矩阵。
本发明实施例中,针对物联网设备的资产数据中任一物联网设备资产数据,使用预训练好的词向量模型,将物联网设备的资产数据中每条数据映射为词组向量,该物联网设备的资产数据中每条数据的词组向量构成物联网设备的资产数据对应的词向量矩阵。
具体地,文本向量化是将文本表示成一系列能够表达文本语义的向量,寻求一种数据层面的特征表示。通过对物联网设备的资产数据进行去停用词和文本向量化,可以将每个物联网设备的响应报文中的字符串集合转换成特有的数字向量,这有利于对物联网资产数据的聚类和进一步分析。其中,文本向量化算法可以包括Word2vec词向量模型、词袋模型、词空间模型以及神经网络语言模型等。在具体实施过程中,针对任一物联网设备的资产数据,本发明实施例使用Word2vec词向量模型,将物联网设备的资产数据中每条数据映射为词组向量。
步骤204,将所述物联网设备的资产数据对应的词向量矩阵进行聚类分析,得到多个类别。
本发明实施例中,基于物联网资产特征,通过机器学习算法对物联网资产数据进行聚类,可得到相似的物联网资产数据类别,有助于辅助研究人员识别出具体的物联网设备的资产指纹。具体地,聚类是指将具有很大相似性的对象聚合到不同的类或簇的过程。在将物联网设备的资产数据转换为文本向量后,可以根据向量化的结果进行相似性计算,并对不同的物联网设备进行聚类分析,将资产数据相似的物联网设备划分到一起,这将作为研究人员识别具体物联网设备指纹的依据之一。此外,由于当前场景无法预先得知类别的数量,因此在选择聚类算法时,必须选择不需要预先指定簇个数的聚类算法,这种聚类算法包括但不限于DBSCAN(Density-Based Spatial Clustering of Applications withNoise,密度聚类算法)算法,该DBSCAN算法可以发现任意形状的空间中的所有簇,且不需要提前指定簇的个数。
步骤205,将所述多个类别中每个类别的任一物联网设备的服务页面图片输入到物联网资产类别识别模型进行识别,确定所述多个类别是否均为物联网资产类别。
本发明实施例中,将多个类别中每个类别的任一物联网设备的服务页面图片输入到物联网资产类别识别模型进行识别,确定多个类别是否均为物联网资产类别。其中,物联网资产类别识别模型是使用物联网设备和非物联网设备的服务页面图片样本集对预设的分类模型进行训练确定的。首先获取物联网设备和非物联网设备的服务页面图片样本集,再将物联网设备和非物联网设备的服务页面图片样本集输入到预设的特征提取模型进行处理,确定出物联网设备和非物联网设备的服务页面图片样本集对应的特征向量集,之后将物联网设备和非物联网设备的服务页面图片样本集对应的特征向量集输入到预设的分类模型进行训练,得到物联网资产类别识别模型。
具体地,由于考虑到物联网资产特征不能百分百覆盖的情况,因此增加了对各个类别是否为物联网资产类别的确认。使用物联网设备服务页面图片分类器对聚类得出的物联网资产类别进行评估,确认各个类别是否是物联网资产类别。
此外,由于互联网上的物联网设备多数都会开放web服务页面,主要是为用户提供功能展示和控制。通过使用物联网设备和非物联网设备的web页面图片样本集,训练出物联网资产服务页面图像分类器,用于自动识别是否为物联网资产服务。其中,使用物联网设备和非物联网设备的服务页面图片样本集对预设的分类模型进行训练确定物联网资产类别识别模型包括以下步骤:
a、正/负图片样本收集。
正样本:通过自动化的方式获取已知的物联网资产的web页面,并截取物联网资产的web页面为图片格式进行保存。其中,通过自动化的方式获取已知的物联网资产的web页面主要包括访问已识别的物联网设备和从产品官网获取到的服务页面。
负样本:已经标记的网络空间中的非物联网设备的页面,比如企业官网、品牌网站、营销网站、电商网站、门户网站等非物联网资产web服务页面。
b、SIFT(Scale-invariant feature transform,尺度不变特征变换)算法提取图像特征。
SIFT算法提取图像特征主要包括以下步骤:
(1)多尺度空间极值点检测:搜索所有尺度上的图像位置,通过高斯微分函数来识别潜在的对于尺度和旋转不变的候选关键点。
(2)关键点的精确定位:在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度,同时关键点的选择依据于它们的稳定程度。
(3)关键点的主方向计算:基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变性。
(4)描述子的构造:在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化。
(5)输出图像的特征向量。
c、分类器训练。
使用OpenCV(Open Source Computer Vision Library,开源计算机视觉库)训练物联网资产服务图像识别的SVM(Support Vector Machine,支持向量机)分类器。首先,导入正负物联网设备页面服务特征向量集,其次设置SVM的参数,然后就开始训练SVM分类器,对训练好的分类器的XML文件进行存储,测试用部分图片测试分类器的效果,多次调优输出物联网设备页面识别分类器。
步骤206,在确定所述多个类别均为物联网资产类别时,则依据预设的推荐规则对所述多个类别进行处理,确定出优先标记的物联网资产类别;将所述优先标记的物联网资产类别进行标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹。
本发明实施例中,在确定多个类别均为物联网资产类别时,针对多个类别中任一类别,统计出类别的资产数据的数量与多个类别的全部资产数据的数量的比值,并确定比值是否大于等于预设阈值,若是,则确定类别为优先标记的物联网资产类别;若否,则确定类别的资产数据是否存在漏洞,若是,则确定类别为优先标记的物联网资产类别;否则在确定类别为新出现的类别时,确定类别为优先标记的物联网资产类别。然后将优先标记的物联网资产类别进行打包处理,得到打包后的优先标记的物联网资产类别,之后将打包后的优先标记的物联网资产类别进行资产指纹标记,并生成与优先标记的物联网资产类别对应的物联网资产指纹。其中,预设阈值可以根据经验设置。
此外,在确定多个类别中任一类别为非物联网资产类别时,则对非物联网资产类别的资产数据进行特征提取处理,得到非物联网资产类别的资产数据的资产特征。再根据资产特征库中的资产特征确定非物联网资产类别的资产数据的资产特征是否存在非物联网设备的资产数据的资产特征,若是,则将非物联网资产类别的资产数据中的非物联网设备的资产数据进行过滤处理。之后将过滤处理后的非物联网资产类别的资产数据对应的词向量矩阵和物联网资产类别的资产数据对应的词向量矩阵进行重新聚类分析,经过多次迭代,直至多个类别均为物联网资产类别为止。
具体地,在确定多个类别均为物联网资产类别后,由于考虑到互联网的物联网资产类别的数量较多,所以使用内容推荐规则推荐出高优先级标记的资产类别。其中,内容推荐规则的输入指标包括:类别中的资产数量、是否为新出现资产以及是否为存在漏洞的资产。
下面首先对内容推荐规则的输入指标进行解释说明:
(1)各个类别中的资产数量指标。
通过聚类分析得到的物联网资产类别中的资产数量越多的,则优先级越高。
(2)各个类别的脆弱性指标(任一类别中的资产是否为存在漏洞的资产)。
通过关联公开的物联网漏洞库信息,获得各个类别中的物联网资产的脆弱性。漏洞库会给出该漏洞涉及的资产指纹相关信息,包括:服务类型、版本号、其他资产指纹等信息。将各个类别中的资产信息与漏洞库提供的资产指纹进行匹配,如果类别中的资产为命中资产,则根据命中资产的漏洞危险等级的高低来确定其标记的优先级高低,比如命中资产的漏洞危险等级越高则其标记的优先级越高。其中,物联网资产的脆弱性可以反映出物联网资产存在什么样的漏洞、受攻击的程度或处于哪一种安全级别。
(3)是否为新出现资产指标。
根据不同轮次的扫描数据对物联网资产数据的聚类结果进行比对,判断各个类别是否为互联网上新出现的资产类别,若为新出现的资产类别,则新出现的资产类别优先级高。
在上述对内容推荐规则的输入指标进行解释说明后,对依据内容推荐规则确定出优先标记的物联网资产类别的过程进行描述。首先看任一物联网资产类别的资产数量是否为前n%,其中,n的值设定可以根据实际的标记能力设定,如果标记能力越强,则n值可以设置越大;其次,看该物联网资产类别的资产数据是否有脆弱性;最后,看该物联网资产类别是否为新出现的物联网资产类别。通过多层条件判定,可以推荐出需要优先标记的物联网资产类别。
在推荐出需要优先标记的物联网资产类别后,将需要优先标记的物联网资产类别打包制作成标记任务,分发给标记模块进行资产指纹标记,并在资产指纹标记完成后生成与优先标记的物联网资产类别对应的物联网资产指纹。其中标记内容包括物联网设备类型、物联网设备厂商、物联网设备型号以及其他标签等。
为了更好的解释本发明对网络空间资产数据进行聚类分析的实施例,下面通过具体的实施场景描述本发明实施例提供的一种对网络空间资产数据进行聚类分析的流程。
如图3所示,该流程包括以下步骤:
步骤301,获取网络空间资产数据。
该网络空间资产数据可以包括物联网设备的资产数据和非物联网设备的资产数据。
步骤302,对网络空间资产数据进行预处理,得到物联网设备的资产数据。
根据资产特征库中的资产特征,将网络空间资产数据中非物联网设备的资产数据进行过滤处理,得到处理后的网络空间资产数据,再对处理后的网络空间资产数据的数据格式进行标准化处理,得到物联网设备的资产数据。
步骤303,对物联网设备的资产数据进行文本向量化处理,得到物联网设备的资产数据的文本向量。
使用Word2vec词向量模型,将物联网设备的资产数据映射为文本向量。
步骤304,物联网设备的资产数据的文本向量进行聚类分析,得到多个类别。
使用DBSCAN算法,对物联网设备的资产数据的文本向量进行聚类分析,得到多个类别。
步骤305,使用物联网资产Web服务图片分类器确定多个类别是否均为物联网资产类别,若是,执行步骤306,若否,执行步骤307。
使用SIFT算法提取多个类别中每个类别的任一物联网设备的服务页面图片的图像特征,并将该图像特征输入到物联网资产Web服务图片分类器进行识别,以便确定多个类别是否均为物联网资产类别。
步骤306,输出物联网资产类别。
步骤307,提取非物联网资产类别的资产数据的资产特征。
在确定多个类别中任一类别为非物联网资产类别时,则对非物联网资产类别的资产数据进行特征提取处理,得到非物联网资产类别的资产数据的资产特征。
步骤308,确定非物联网资产类别的资产数据的资产特征是否存在非物联网设备的资产数据的资产特征,若是,执行步骤309,若否,则不做处理。
根据资产特征库中的资产特征确定非物联网资产类别的资产数据的资产特征是否存在非物联网设备的资产数据的资产特征。
步骤309,将非物联网资产类别的资产数据中的非物联网设备的资产数据进行过滤处理。
对非物联网资产类别的资产数据中的非物联网设备的资产数据进行过滤处理,并将过滤处理后的非物联网资产类别的资产数据对应的文本向量和物联网资产类别的资产数据对应的文本向量进行重新聚类分析,经过多次迭代,直至多个类别均为物联网资产类别为止。
上述实施例表明,通过对网络空间资产数据进行预处理,得到物联网设备的资产数据。再对物联网设备的资产数据进行向量化处理,得到物联网设备的资产数据对应的文本向量,有助于对物联网设备的资产数据进行聚类以及对物联网设备的资产数据进行进一步分析。之后将物联网设备的资产数据对应的文本向量进行聚类分析,得到多个类别,并将该多个类别中每个类别的任一物联网设备的服务页面图片输入到物联网资产类别识别模型进行识别,可以进一步快速精确地确定多个类别是否均为物联网资产类别。若确定多个类别中任一类别为非物联网资产类别,则提取非物联网资产类别的资产数据的资产特征,并将非物联网资产类别的资产数据的资产特征与资产特征库中的资产特征进行匹配,如此可以简便快速地过滤掉非物联网资产类别的资产数据中的非物联网设备的资产数据。再将过滤处理后的所述非物联网资产类别的资产数据对应的文本向量和物联网资产类别的资产数据对应的文本向量进行重新聚类分析,直至多个类别均为物联网资产类别为止,从而可以确保聚类分析的聚类结果均为物联网资产类别,进而有助于为推荐出需要优先标记的物联网资产类别提供支持。
为了更好的解释本发明推荐出优先标记的物联网资产类别的实施例,下面通过具体的实施场景描述本发明实施例提供的一种确定优先标记的物联网资产类别的流程。
如图4所示,该流程包括以下步骤:
步骤401,获取聚类分析得到的物联网资产类别。
步骤402,针对任一物联网资产类别,确定该物联网资产类别的资产数量是否为前n%,若是,执行步骤405,若否,执行步骤403。
针对任一物联网资产类别,确定该物联网资产类别的资产数量与聚类分析得到的所有物联网资产类别的全部资产数量的比值是否位于前n%内。其中,n的值设定可以根据实际的标记能力设定,如果标记能力越强,则n值可以设置越大。
步骤403,确定该物联网资产类别的资产数据是否存在漏洞,若是,执行步骤405,若否,执行步骤404。
将该物联网资产类别的资产数据关联公开的物联网漏洞库信息,获得该物联网资产类别的资产数据的脆弱性。因此确定该物联网资产类别的资产数据是否存在漏洞也即为判断该物联网资产类别的资产数据是否存在脆弱性。
步骤404,确定该物联网资产类别是否为新出现的物联网资产类别,若是,执行步骤405,若否,则不做处理。
根据不同轮次的扫描数据对物联网资产数据的聚类结果进行比对,判断该物联网资产类别是否为互联网上新出现的资产类别。
步骤405,确定出优先标记的物联网资产类别。
上述实施例表明,通过确定物联网资产类别的资产数量是否为前n%或确定该物联网资产类别的资产数据是否存在漏洞或确定该物联网资产类别是否为新出现的物联网资产类别等判断条件,对多个物联网资产类别中任一物联网资产类别进行判断,可以准确地确定出优先标记的物联网资产类别,从而为优先标记更有价值的物联网设备的资产数据提供支持,并可以标记网络空间中新出现的物联网设备的资产数据,对物联网资产研究有相当大的价值。
基于相同的技术构思,图5示例性的示出了本发明实施例提供的一种物联网资产标记装置,该装置可以执行物联网资产标记方法的流程。
如图5所示,该装置包括:
获取单元501,用于获取网络空间资产数据;
处理单元502,用于对所述网络空间资产数据进行预处理,得到所述物联网设备的资产数据;对所述物联网设备的资产数据进行向量化处理,得到所述物联网设备的资产数据对应的词向量矩阵;将所述物联网设备的资产数据对应的词向量矩阵进行聚类分析,得到多个类别;将所述多个类别中每个类别的任一物联网设备的服务页面图片输入到物联网资产类别识别模型进行识别,确定所述多个类别是否均为物联网资产类别;所述物联网资产类别识别模型是使用物联网设备和非物联网设备的服务页面图片样本集对预设的分类模型进行训练确定的;若是,则依据预设的推荐规则对所述多个类别进行处理,确定出优先标记的物联网资产类别;将所述优先标记的物联网资产类别进行标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹。
可选地,所述处理单元502具体用于:
根据资产特征库中的资产特征,确定所述网络空间资产数据中是否存在非物联网设备的资产数据的资产特征,若是,则将所述网络空间资产数据中非物联网设备的资产数据进行过滤处理,得到处理后的所述网络空间资产数据;
对所述处理后的所述网络空间资产数据的数据格式进行标准化处理,得到所述物联网设备的资产数据。
可选地,所述处理单元502具体用于:
针对任一物联网设备的资产数据,使用预训练好的词向量模型,将所述物联网设备的资产数据中每条数据映射为词组向量;
所述物联网设备的资产数据中每条数据的词组向量构成所述物联网设备的资产数据对应的词向量矩阵。
可选地,所述处理单元502还用于:
在确定所述多个类别中任一类别为非物联网资产类别时,则对所述非物联网资产类别的资产数据进行特征提取处理,得到所述非物联网资产类别的资产数据的资产特征;
根据资产特征库中的资产特征确定所述非物联网资产类别的资产数据的资产特征是否存在所述非物联网设备的资产数据的资产特征,若是,则将所述非物联网资产类别的资产数据中的非物联网设备的资产数据进行过滤处理;
将过滤处理后的所述非物联网资产类别的资产数据对应的词向量矩阵和所述物联网资产类别的资产数据对应的词向量矩阵进行重新聚类分析,直至所述多个类别均为所述物联网资产类别为止。
可选地,所述处理单元502具体用于:
获取所述物联网设备和非物联网设备的服务页面图片样本集;
将所述物联网设备和非物联网设备的服务页面图片样本集输入到预设的特征提取模型进行处理,确定出所述物联网设备和非物联网设备的服务页面图片样本集对应的特征向量集;
将所述物联网设备和非物联网设备的服务页面图片样本集对应的特征向量集输入到所述预设的分类模型进行训练,得到所述物联网资产类别识别模型。
可选地,所述处理单元502具体用于:
针对所述多个类别中任一类别,统计出所述类别的资产数据的数量与所述多个类别的全部资产数据的数量的比值,并确定所述比值是否大于等于预设阈值,若是,则确定所述类别为所述优先标记的物联网资产类别;
若否,则确定所述类别的资产数据是否存在漏洞,若是,则确定所述类别为所述优先标记的物联网资产类别;否则在确定所述类别为新出现的类别时,确定所述类别为所述优先标记的物联网资产类别。
可选地,所述处理单元502具体用于:
将所述优先标记的物联网资产类别进行打包处理,得到打包后的所述优先标记的物联网资产类别;
将所述打包后的所述优先标记的物联网资产类别进行资产指纹标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹。
基于相同的技术构思,本发明实施例提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行物联网资产标记方法。
基于相同的技术构思,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行物联网资产标记方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种物联网资产标记方法,其特征在于,包括:
获取网络空间资产数据;
对所述网络空间资产数据进行预处理,得到物联网设备的资产数据;
对所述物联网设备的资产数据进行向量化处理,得到所述物联网设备的资产数据对应的词向量矩阵;
将所述物联网设备的资产数据对应的词向量矩阵进行聚类分析,得到多个类别;
将所述多个类别中每个类别的任一物联网设备的服务页面图片输入到物联网资产类别识别模型进行识别,确定所述多个类别是否均为物联网资产类别;所述物联网资产类别识别模型是使用物联网设备和非物联网设备的服务页面图片样本集对预设的分类模型进行训练确定的;
若是,则依据预设的推荐规则对所述多个类别进行处理,确定出优先标记的物联网资产类别;将所述优先标记的物联网资产类别进行标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹;
所述依据预设的推荐规则对所述多个类别进行处理,确定出优先标记的物联网资产类别,包括:
针对所述多个类别中任一类别,统计出所述类别的资产数据的数量与所述多个类别的全部资产数据的数量的比值,并确定所述比值是否大于等于预设阈值,若是,则确定所述类别为所述优先标记的物联网资产类别;
若否,则确定所述类别的资产数据是否存在漏洞,若是,则确定所述类别为所述优先标记的物联网资产类别;否则在确定所述类别为新出现的类别时,确定所述类别为所述优先标记的物联网资产类别。
2.如权利要求1所述的方法,其特征在于,所述对所述网络空间资产数据进行预处理,得到物联网设备的资产数据,包括:
根据资产特征库中的资产特征,确定所述网络空间资产数据中是否存在非物联网设备的资产数据的资产特征,若是,则将所述网络空间资产数据中非物联网设备的资产数据进行过滤处理,得到处理后的所述网络空间资产数据;
对所述处理后的所述网络空间资产数据的数据格式进行标准化处理,得到所述物联网设备的资产数据。
3.如权利要求1所述的方法,其特征在于,所述对所述物联网设备的资产数据进行向量化处理,得到所述物联网设备的资产数据对应的词向量矩阵,包括:
针对任一物联网设备的资产数据,使用预训练好的词向量模型,将所述物联网设备的资产数据中每条数据映射为词组向量;
所述物联网设备的资产数据中每条数据的词组向量构成所述物联网设备的资产数据对应的词向量矩阵。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
在确定所述多个类别中任一类别为非物联网资产类别时,则对所述非物联网资产类别的资产数据进行特征提取处理,得到所述非物联网资产类别的资产数据的资产特征;
根据资产特征库中的资产特征确定所述非物联网资产类别的资产数据的资产特征是否存在所述非物联网设备的资产数据的资产特征,若是,则将所述非物联网资产类别的资产数据中的非物联网设备的资产数据进行过滤处理;
将过滤处理后的所述非物联网资产类别的资产数据对应的词向量矩阵和所述物联网资产类别的资产数据对应的词向量矩阵进行重新聚类分析,直至所述多个类别均为所述物联网资产类别为止。
5.如权利要求1所述的方法,其特征在于,所述使用物联网设备和非物联网设备的服务页面图片样本集对预设的分类模型进行训练确定所述物联网资产类别识别模型,包括:
获取所述物联网设备和非物联网设备的服务页面图片样本集;
将所述物联网设备和非物联网设备的服务页面图片样本集输入到预设的特征提取模型进行处理,确定出所述物联网设备和非物联网设备的服务页面图片样本集对应的特征向量集;
将所述物联网设备和非物联网设备的服务页面图片样本集对应的特征向量集输入到所述预设的分类模型进行训练,得到所述物联网资产类别识别模型。
6.如权利要求1至5任一项所述的方法,其特征在于,所述将所述优先标记的物联网资产类别进行标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹,包括:
将所述优先标记的物联网资产类别进行打包处理,得到打包后的所述优先标记的物联网资产类别;
将所述打包后的所述优先标记的物联网资产类别进行资产指纹标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹。
7.一种物联网资产标记装置,其特征在于,包括:
获取单元,用于获取网络空间资产数据;
处理单元,用于对所述网络空间资产数据进行预处理,得到物联网设备的资产数据;对所述物联网设备的资产数据进行向量化处理,得到所述物联网设备的资产数据对应的词向量矩阵;将所述物联网设备的资产数据对应的词向量矩阵进行聚类分析,得到多个类别;将所述多个类别中每个类别的任一物联网设备的服务页面图片输入到物联网资产类别识别模型进行识别,确定所述多个类别是否均为物联网资产类别;所述物联网资产类别识别模型是使用物联网设备和非物联网设备的服务页面图片样本集对预设的分类模型进行训练确定的;若是,则依据预设的推荐规则对所述多个类别进行处理,确定出优先标记的物联网资产类别;将所述优先标记的物联网资产类别进行标记,并生成与所述优先标记的物联网资产类别对应的物联网资产指纹;
所述处理单元具体用于:
针对所述多个类别中任一类别,统计出所述类别的资产数据的数量与所述多个类别的全部资产数据的数量的比值,并确定所述比值是否大于等于预设阈值,若是,则确定所述类别为所述优先标记的物联网资产类别;
若否,则确定所述类别的资产数据是否存在漏洞,若是,则确定所述类别为所述优先标记的物联网资产类别;否则在确定所述类别为新出现的类别时,确定所述类别为所述优先标记的物联网资产类别。
8.一种计算设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010732683.5A CN111897962B (zh) | 2020-07-27 | 2020-07-27 | 一种物联网资产标记方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010732683.5A CN111897962B (zh) | 2020-07-27 | 2020-07-27 | 一种物联网资产标记方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111897962A CN111897962A (zh) | 2020-11-06 |
CN111897962B true CN111897962B (zh) | 2024-03-15 |
Family
ID=73190136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010732683.5A Active CN111897962B (zh) | 2020-07-27 | 2020-07-27 | 一种物联网资产标记方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111897962B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113079052B (zh) * | 2021-04-29 | 2023-04-07 | 恒安嘉新(北京)科技股份公司 | 模型训练、物联网数据识别方法、装置、设备及存储介质 |
CN113191149B (zh) * | 2021-05-12 | 2023-04-07 | 北京交通大学 | 一种自动化提取物联网设备信息的方法 |
CN113468391B (zh) * | 2021-07-13 | 2024-05-28 | 杭州安恒信息技术股份有限公司 | 网站信息聚类方法、装置、电子装置和计算机设备 |
CN113949582B (zh) * | 2021-10-25 | 2023-05-30 | 绿盟科技集团股份有限公司 | 一种网络资产的识别方法、装置、电子设备及存储介质 |
CN114244824B (zh) * | 2021-11-25 | 2024-05-03 | 国家计算机网络与信息安全管理中心河北分中心 | 一种网络空间WEB类资产风险Server同性快速识别的方法 |
CN114724069B (zh) * | 2022-04-09 | 2023-04-07 | 北京天防安全科技有限公司 | 一种视频设备型号确认方法、装置、设备及介质 |
CN115146712B (zh) * | 2022-06-15 | 2023-04-28 | 北京天融信网络安全技术有限公司 | 物联网资产识别方法、装置、设备及存储介质 |
CN115146191A (zh) * | 2022-07-21 | 2022-10-04 | 北京天防安全科技有限公司 | 基于ai进行视频监控资产识别的方法、装置及电子设备 |
CN117851835B (zh) * | 2024-01-24 | 2024-05-28 | 广州科韵智慧科技有限公司 | 一种深度学习的物联网识别系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425740A (zh) * | 2013-07-11 | 2013-12-04 | 南京邮电大学 | 一种面向物联网的基于语义聚类的物资信息检索方法 |
CN106254403A (zh) * | 2015-06-09 | 2016-12-21 | 中兴通讯股份有限公司 | 数据的迁移方法及装置 |
CN109858254A (zh) * | 2019-01-15 | 2019-06-07 | 西安电子科技大学 | 基于日志分析的物联网平台攻击检测系统及方法 |
CN110427628A (zh) * | 2019-08-02 | 2019-11-08 | 杭州安恒信息技术股份有限公司 | 基于神经网络算法的web资产分类检测方法及装置 |
CN110502677A (zh) * | 2019-04-18 | 2019-11-26 | 杭州海康威视数字技术股份有限公司 | 一种设备识别方法、装置及设备、存储介质 |
CN110766273A (zh) * | 2019-09-16 | 2020-02-07 | 杭州电子科技大学 | 一种优化特征权值的半监督聚类教学资产分类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090216775A1 (en) * | 2008-02-22 | 2009-08-27 | Marc Gregory Ratliff | Platform for real-time tracking and analysis |
US20150120346A1 (en) * | 2013-10-30 | 2015-04-30 | International Business Machines Corporation | Clustering-Based Learning Asset Categorization and Consolidation |
US20190155941A1 (en) * | 2017-11-21 | 2019-05-23 | International Business Machines Corporation | Generating asset level classifications using machine learning |
US11025486B2 (en) * | 2018-10-19 | 2021-06-01 | Cisco Technology, Inc. | Cascade-based classification of network devices using multi-scale bags of network words |
-
2020
- 2020-07-27 CN CN202010732683.5A patent/CN111897962B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425740A (zh) * | 2013-07-11 | 2013-12-04 | 南京邮电大学 | 一种面向物联网的基于语义聚类的物资信息检索方法 |
CN106254403A (zh) * | 2015-06-09 | 2016-12-21 | 中兴通讯股份有限公司 | 数据的迁移方法及装置 |
CN109858254A (zh) * | 2019-01-15 | 2019-06-07 | 西安电子科技大学 | 基于日志分析的物联网平台攻击检测系统及方法 |
CN110502677A (zh) * | 2019-04-18 | 2019-11-26 | 杭州海康威视数字技术股份有限公司 | 一种设备识别方法、装置及设备、存储介质 |
CN110427628A (zh) * | 2019-08-02 | 2019-11-08 | 杭州安恒信息技术股份有限公司 | 基于神经网络算法的web资产分类检测方法及装置 |
CN110766273A (zh) * | 2019-09-16 | 2020-02-07 | 杭州电子科技大学 | 一种优化特征权值的半监督聚类教学资产分类方法 |
Non-Patent Citations (2)
Title |
---|
Multiple Base station and Packet Priority-based clustering scheme in Internet of Things;Nidal Nasser.et al;2014 International Conference on Computing, Management and Telecommunications;第58-61页 * |
物联网环境下移动高维异常数据自动挖掘仿真;杨敬民等;计算机仿真;第441-444页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111897962A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897962B (zh) | 一种物联网资产标记方法及装置 | |
TWI673625B (zh) | 統一資源定位符(url)攻擊檢測方法、裝置以及電子設備 | |
CN105354307B (zh) | 一种图像内容识别方法及装置 | |
CN104156490A (zh) | 基于文字识别检测可疑钓鱼网页的方法及装置 | |
CN109194677A (zh) | 一种sql注入攻击检测方法、装置及设备 | |
CN110647895B (zh) | 一种基于登录框图像的钓鱼页面识别方法及相关设备 | |
CN112989348A (zh) | 攻击检测方法、模型训练方法、装置、服务器及存储介质 | |
CN110020161B (zh) | 数据处理方法、日志处理方法和终端 | |
CN115086004A (zh) | 一种基于异质图的安全事件识别方法及系统 | |
US11797617B2 (en) | Method and apparatus for collecting information regarding dark web | |
CN112199569A (zh) | 一种违禁网址识别方法、系统、计算机设备及存储介质 | |
CN114650176A (zh) | 钓鱼网站的检测方法、装置、计算机设备及存储介质 | |
CN110650108A (zh) | 一种基于icon图标的钓鱼页面识别方法及相关设备 | |
CN109064067B (zh) | 基于互联网的金融风险运营主体判定方法及装置 | |
CN114372267A (zh) | 一种基于静态域的恶意网页识别检测方法、计算机及存储介质 | |
CN107786529B (zh) | 网站的检测方法、装置及系统 | |
CN113434857A (zh) | 一种应用深度学习的用户行为安全解析方法及系统 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN115544342A (zh) | 一种基于网站内容搜索引擎的方法及系统 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN111488800B (zh) | 一种模型训练及图像处理方法、装置、终端及存储介质 | |
CN114241195A (zh) | 一种目标识别方法、装置、电子设备及存储介质 | |
CN111611981A (zh) | 信息识别方法和装置及信息识别神经网络训练方法和装置 | |
CN116612501B (zh) | 对象识别方法、装置、电子设备和计算机可读存储介质 | |
Lu et al. | An IoT Device Recognition Method based on Convolutional Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |