CN111314109A - 一种基于弱密钥的大规模物联网设备固件识别方法 - Google Patents

一种基于弱密钥的大规模物联网设备固件识别方法 Download PDF

Info

Publication number
CN111314109A
CN111314109A CN202010042231.4A CN202010042231A CN111314109A CN 111314109 A CN111314109 A CN 111314109A CN 202010042231 A CN202010042231 A CN 202010042231A CN 111314109 A CN111314109 A CN 111314109A
Authority
CN
China
Prior art keywords
equipment
webpage
firmware
content
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010042231.4A
Other languages
English (en)
Inventor
陈永乐
马垚
于丹
杨玉丽
张利隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN202010042231.4A priority Critical patent/CN111314109A/zh
Publication of CN111314109A publication Critical patent/CN111314109A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0815Network architectures or network communication protocols for network security for authentication of entities providing single-sign-on or federations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于弱密钥的大规模物联网设备固件识别方法,引入聚类的方法,使用设备登录页面的特征,聚类出设备类型和品牌,通过分类的方法识别出设备详细信息所在的导航栏。再通过分块的方法过滤网页中的冗余信息,获取主内容页面,提取出设备型号和固件版本,实现了设备信息的完整性获取,包括设备类型、品牌、型号和固件版本。通过本发明,能够借助弱密钥技术对大量在线设备的普适性,实现对包含设备固件信息网页的获取与分析。识别出了设备的型号和固件版本,避免了解析固件,提高了识别效率,实现了大规模的物联网设备固件识别。

Description

一种基于弱密钥的大规模物联网设备固件识别方法
技术领域
本发明涉及工业控制系统安全技术领域,更具体地说,涉及一种基于弱密钥的大规模物联网设备固件识别方法。
背景技术
物联网设备扫描通常使用主动扫描方式。主动扫描是向网络主机或设备发送探测包,然后通过查看其响应结果来识别网络服务。其发送的探测包可以是通用的,也可以根据特有协议进行更改,提高识别的精确度。ZMap是一种模块化的开源网络扫描器,理论上每秒可以发送137万个包,能够在45分钟内探测整个IPv4地址空间,但是在实际网络中需要花费更多的时间。Shodan是最早的物联网设备搜索引擎,不停的搜寻所有联网的服务器、摄像头、打印机、路由器等设备,将其结果显示在其平台上。
在对物联网设备固件进行识别时,往往无法通过流量直接准确识别出设备固件信息,同时分析固件提取设备特征,工程量较大,而且难以精确识别设备固件版本。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于弱密钥的大规模物联网设备固件识别方法。
本发明解决其技术问题所采用的技术方案是:构造一种基于弱密钥的大规模物联网设备固件识别方法,包括步骤:
1)使用Zmap扫描全网的IP地址,如果探测到使用http协议的活跃主机,将活跃主机IP地址存入数据库;
2)通过http get请求从全网获取活跃主机登录网页内容以及响应报头,然后使用BeautifulSoup网页分析工具提取登录网页的DOM树和文本内容;
3)计算不同设备登录网页之间的相似距离,使用最长公共子序列算法计算网页间DOM树的距离值dist_D;使用simhash算法来计算登录网页的文本相似距离dist_T;使用余弦相似度的思想来计算响应报头的相似距离dist_H;i和j表示两个不同的登录网页,根据欧式距离的思想,距离值的计算公式为:
Figure BDA0002368153980000021
4)根据计算出的相似距离值使用DBSCAN算法进行聚类,对于设备类型品牌的获取,根据已知样本被聚类到的簇,则该簇的类型品牌即为已知样本的类型品牌,若多个已知样本被聚类到同一个簇,则已知同类标记样本数量最多的为该簇的类型品牌;
5)采用弱密钥登录设备,获取设备详细信息所在导航栏;
6)获取设备详细信息所在的页面后,采用BoM算法对登录网页进行分块,基于登录网页的DOM树、内容和逻辑三种结构之间的关系进行分块;
7)根据分块后获取的主内容块,解析主内容块中的内容,使用自然语言处理提取出设备型号和固件版本,进行标准化处理获得设备型号和固件版本。
在本发明所述的基于弱密钥的大规模物联网设备固件识别方法中,在获取设备详细信息所在导航栏的步骤中,使用单类支持向量机算法定位出设备固件信息所在的导航栏,单类支持向量机需要最大化分离超平面到零点的距离,需要找出最合适的w和ρ:
Figure BDA0002368153980000022
其中,w是标准向量,ρ是间隔,ξi是松弛变量,v∈(0,1]是一个平衡参数,提供了异常点个数的一个上界,同时提供了支持向量个数的一个下界;
采用拉格朗日乘子法进行转换,由此得到的决策函数变为
Figure BDA0002368153980000031
其中αi为多项式乘子,k(x,xi)为核函数,采用径向基核函数:
Figure BDA0002368153980000032
在本发明所述的基于弱密钥的大规模物联网设备固件识别方法中,使用simhash算法来计算登录网页的文本相似距离的步骤中,包括以下步骤:
分词:对文本内容进行分词,去掉噪音词;
hash:通过hash算法把每个词转为hash值;
加权:使用TF-IDF计算每个特征分词的权重,把hash值按照单词的权重加权数字串;
合并:把各个单词算出来的序列值累加,变成数字串;
降维:把数字串变成01串,形成simhash签名;
海明距离:将simhash算法生成的01串进行异或运算,不同的位数的和即为距离值。
在本发明所述的基于弱密钥的大规模物联网设备固件识别方法中,对登录网页进行分块的步骤包括:
网页分析:将DOM元素作为输入并构建内容结构,从<body>元素开始,对每个元素进行评估以确定它是否符合所分的类别;如果符合,将创建一个新的内容对象,该过程的结果是代表内容结构的树;
网页理解:当网页分析通过对DOM元素进行分类来提取网页的内容结构时,理解过程将内容结构映射到逻辑结构中,考虑逻辑对象类别、相对于其他对象的位置和距离,并尝试合并小于粒度参数pG的对象;根据对象的距离,标签对其进行分组,并确定存入各组的数量;
网页重构:按照优先顺序,每个逻辑对象都将作为相关内容对象的父对象放置,并且对于关联的DOM元素也应放置相同的对象,递归地对所有对象执行此过程,并生成一个新的文档树,实现对网页的分割。
在本发明所述的基于弱密钥的大规模物联网设备固件识别方法中,使用最长公共子序列计算DOM树的相似距离,用C[i,j]表示Xi和Yj的LCS的长度,其中Xi={x1…xi},Yj={y1…yj},Xi、Yj分别表示设备i、j的登录页面DOM节点按先序序列存放起来的序列,可得递归公式如下:
Figure BDA0002368153980000041
区别于现有技术,本发明提供的基于弱密钥的大规模物联网设备固件识别方法通过引入聚类的方法,使用设备登录页面的特征,聚类出设备类型和品牌,通过分类的方法识别出设备详细信息所在的导航栏。再通过分块的方法过滤网页中的冗余信息,获取主内容页面,提取出设备型号和固件版本,实现了设备信息的完整性获取,包括设备类型、品牌、型号和固件版本。通过本发明,能够借助弱密钥技术对大量在线设备的普适性,实现对包含设备固件信息网页的获取与分析。识别出了设备的型号和固件版本,避免了解析固件,提高了识别效率,实现了大规模的物联网设备固件识别。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明提供的一种基于弱密钥的大规模物联网设备固件识别方法的流程示意图。
图2是本发明提供的一种基于弱密钥的大规模物联网设备固件识别方法中提取网页DOM树的示意图。
图3是本发明提供的一种基于弱密钥的大规模物联网设备固件识别方法中提取网页纯文本内容的示意图。
图4是本发明提供的一种基于弱密钥的大规模物联网设备固件识别方法中不同品牌的响应报头的示意图。
图5是本发明提供的一种基于弱密钥的大规模物联网设备固件识别方法中页面分块算法的流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的一种基于弱密钥的大规模物联网设备固件识别方法包括步骤:
1)使用Zmap扫描全网的IP地址,如果探测到使用http协议的活跃主机,将活跃主机IP地址存入数据库;
2)通过http get请求从全网获取活跃主机登录网页内容以及响应报头,然后使用BeautifulSoup网页分析工具提取登录网页的DOM树和文本内容;
3)计算不同设备登录网页之间的相似距离,使用最长公共子序列算法计算登录网页间DOM树的距离值dist_D;使用simhash算法来计算登录网页的文本相似距离dist_T;使用余弦相似度的思想来计算响应报头的相似距离dist_H。i和j表示两个不同的登录网页,根据欧式距离的思想,距离值的计算公式为:
Figure BDA0002368153980000051
4)根据计算出的相似距离值使用DBSCAN算法进行聚类,对于设备类型品牌的获取,根据已知样本被聚类到的簇,则该簇的类型品牌即为已知样本的类型品牌,若多个已知样本被聚类到同一个簇,则已知同类标记样本数量最多的为该簇的类型品牌;
5)采用弱密钥登录设备,获取设备详细信息所在导航栏;
6)获取设备详细信息所在的页面后,采用BoM算法对登录网页进行分块,基于登录网页的DOM树、内容和逻辑三种结构之间的关系进行分块;
7)根据分块后获取的主内容块,解析主内容块中的内容,使用自然语言处理提取出设备型号和固件版本,进行标准化处理获得设备型号和固件版本。
在本发明所述的基于弱密钥的大规模物联网设备固件识别方法中,在获取设备详细信息所在导航栏的步骤中,使用单类支持向量机算法定位出设备详细信息所在的导航栏,单类支持向量机需要最大化分离超平面到零点的距离,需要找出最合适的w和ρ:
Figure BDA0002368153980000061
其中,w是标准向量,ρ是间隔,ξi是松弛变量,v∈(0,1]是一个平衡参数,提供了异常点个数的一个上界,同时提供了支持向量个数的一个下界;
采用拉格朗日乘子法进行转换,由此得到的决策函数变为
Figure BDA0002368153980000062
其中αi为多项式乘子,k(x,xi)为核函数,采用径向基核函数:
Figure BDA0002368153980000063
在本发明所述的基于弱密钥的大规模物联网设备固件识别方法中,使用simhash算法来计算登录网页的文本相似距离的步骤中,包括以下步骤:
分词:对文本内容进行分词,去掉噪音词;
hash:通过hash算法把每个词转为hash值;
加权:使用TF-IDF计算每个特征分词的权重,把hash值按照单词的权重加权数字串;
合并:把各个单词算出来的序列值累加,变成数字串;
降维:把数字串变成01串,形成simhash签名;
海明距离:将simhash算法生成的01串进行异或运算,不同的位数的和即为距离值。
在本发明所述的基于弱密钥的大规模物联网设备固件识别方法中,对登录网页进行分块的步骤包括:
网页分析:将DOM元素作为输入并构建内容结构,从<body>元素开始,对每个元素进行评估以确定它是否符合所分的类别;如果符合,将创建一个新的内容对象,该过程的结果是代表内容结构的树;
网页理解:当网页分析通过对DOM元素进行分类来提取网页的内容结构时,理解过程将内容结构映射到逻辑结构中,考虑逻辑对象类别、相对于其他对象的位置和距离,并尝试合并小于粒度参数pG的对象;根据对象的距离,标签对其进行分组,并确定存入各组的数量;
网页重构:按照优先顺序,每个逻辑对象都将作为相关内容对象的父对象放置,并且对于关联的DOM元素也应放置相同的对象,递归地对所有对象执行此过程,并生成一个新的文档树,实现对网页的分割。
提供一个采用本发明方法的固件版本识别实例。
在本实施例中,分为两个部分:扫描活跃物联网设备、设备固件版本识别。设备固件版本识别包括三个部分:分析登录页面(设备类型、品牌)、提取固件导航栏、固件版本识别(设备型号、固件版本)。设备细固件版本识别框架如图1所示。
1.扫描活跃物联网设备
网络空间中有40亿个IPV4地址,所以不可能直接发送请求,而且由于网页的http响应通常只在80和8080端口,因此我们只关注这两个端口,我们首先使用扫描工具ZMap向每个IP地址发送TCP-SYN数据包。如果主机给出响应,则将其添加到活动列表中;否则删除。为了避免发送连续IP地址会造成网络拥堵,没有响应的情况,采用分IP段和随机IP地址的方式,而且对于每个IP地址,使用无状态连接发送探测包,加快探测速度,提高探测精确度。在扫描之后,活跃主机的数量仍然有近千万。然后使用HTTP GET请求获取页面内容。为了过滤掉不合格的网页,使获得的数据精确性更高,对于响应响应状态码不是200的IP地址,全部过滤掉。整个扫描过程并没有考虑防火墙后面的IP地址,仅仅扫描了公共可用的IP地址作为实验数据。
2.分析登录页面
1)登录网页DOM树特征
DOM树是将文档表示为结构树的形式,其结构树中最重要的一个要素就是节点。如图2所示,将网页转化为DOM树,转化过程中,按照先序遍历的方法把所有节点都转化为向量。按照如下要求规范化html网页:
a)过滤掉不必要的注释信息、脚本信息。比如:HTML网页中有一种注释标签<!---->、<script>和<style>标记是用于显示格式的标签,以提高构造DOM树效率。
b)删除不必要的标记节点,比如<BR>、<strong>,以简化计算复杂度和提高度量方法的准确度。
c)检查所有标记的嵌套顺序,并进行修正,如<a><b>…</a></b>是不正确的嵌套,正确的嵌套形式应该是<a><b>…</b></a>。
最后,利用动态规划的核心思想公式(5)来求解网页间DOM树的相似距离。
2)登录网页文本特征
如图3所示左边是获取的网页,右边是提取出的纯文本内容。使用simhash算法来计算登录网页的文本相似度。Simhash算法本质上是一种局部敏感哈希算法(LSH),LSH的主要思想是高维空间的两点若距离很近,那么设计一种哈希函数对这两点进行哈希值计算,使这两点的哈希值相同的概率很大;同时,若两点之间的距离较远,这两点的哈希值相同的概率会很小。
3)响应报头header特征
如图4所示是两个品牌路由器的HTTP响应报头。响应报头可以通过向IP地址发送HTTP get请求即可获取。通过分析大量HTTP响应报头的内容发现很多特征,不同的物联网设备返回的响应报头是有很多不同的,而同一品牌的设备返回的响应报头有很大的相似性。尤其是同品牌的响应报头中Server字段的内容是一样的。因此,根据差异性,计算物联网设备间的相似度。相似度的计算根据余弦相似度的思想设计的,两个响应报头越相似,其所代表的两个设备的登陆网页也就越相似。
4)登录页面特征聚类
使用DBSCAN算法对登录页面进行类型品牌聚类,对于设备类型品牌的获取,根据已知样本被聚类到的簇,则该簇的类型品牌即为已知样本的类型品牌,若多个已知样本被聚类到同一个簇,则该簇的类型品牌为已知同类标记样本数量最多的为该簇的类型品牌。
3.提取固件导航栏
通过对大量管理页面的分析,发现虽然导航栏大都位于列表标签的文本中,比如<ul><li>导航1</li></ul>、<ol><li>导航2</li></ol>等。通过关键字比对获取到导航栏所在的标签,但是大多数管理页面都是有多个导航栏,而且由于这些设备位于不同的国家或地区,使用的语言是不同的,不能使用文本信息去定位设备详细信息的导航栏。因此仍然存在不能精确识别其所在导航栏的问题。通过分析html网页,发现开发者开发的设备管理系统中存在一个共同的特点,在html网页中,标签中的属性信息都具有特定的意义,在设备详细信息导航栏所在标签的属性中存在manager、Manager、Set等等。因此先选取这作为初始特征数据,然后通过分析更多的网页,扩展特征数据量。使用单类支持向量机算法公式(2)对获取的所有导航栏进行分类,提取出设备信息导航栏。
4.固件版本识别
由于设备详细信息所在的页面,包含了很多冗余信息,比如一些嵌入软件的版本号、IP地址、时间等数字信息。直接使用正则表达式不能够获取精确的固件版本信息。因此,考虑先使用网页分块算法对网页分块。使用BoM算法对网页进行分块,如图5所示,BoM算法对网页的分割过程分为三个阶段:网页分析、网页理解和网页重构。最后,使用自然语言处理提取出设备型号和固件版本。
区别于现有技术,本发明提供的基于弱密钥的大规模物联网设备固件识别方法通过引入聚类的方法,使用设备登录页面的特征,聚类出设备类型和品牌,通过分类的方法识别出设备详细信息所在的导航栏。再通过分块的方法过滤网页中的冗余信息,获取主内容页面,提取出设备型号和固件版本,实现了设备信息的完整性获取,包括设备类型、品牌、型号和固件版本。通过本发明,能够借助弱密钥技术对大量在线设备的普适性,实现对包含设备固件信息网页的获取与分析。识别出了设备的型号和固件版本,避免了解析固件,提高了识别效率,实现了大规模的物联网设备固件识别。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (5)

1.一种基于弱密钥的大规模物联网设备固件识别方法,其特征在于,包括以下步骤:
1)使用Zmap扫描全网的IP地址,如果探测到使用http协议的活跃主机,将活跃主机IP地址存入数据库;
2)通过http get请求从全网获取活跃主机登录网页内容以及响应报头,然后使用BeautifulSoup网页分析工具提取登录网页的DOM树和文本内容;
3)计算不同设备登录网页之间的相似距离,使用最长公共子序列算法计算登录网页间DOM树的距离值dist_D;使用simhash算法来计算网页的文本相似距离dist_T;使用余弦相似度的思想来计算响应报头的相似距离dist_H;i和j表示两个不同的登录网页,根据欧式距离的思想,距离值的计算公式为:
Figure FDA0002368153970000011
4)根据计算出的相似距离值使用DBSCAN算法进行聚类,对于设备类型品牌的获取,根据已知样本被聚类到的簇,则该簇的类型品牌即为已知样本的类型品牌,若多个已知样本被聚类到同一个簇,则已知同类标记样本数量最多的为该簇的类型品牌;
5)采用弱密钥登录设备,获取设备详细信息所在导航栏;
6)获取设备详细信息所在的页面后,采用BoM算法对登录网页进行分块,基于登录网页的DOM树、内容和逻辑三种结构之间的关系进行分块;
7)根据分块后获取的主内容块,解析主内容块中的内容,使用自然语言处理提取出设备型号和固件版本,进行标准化处理获得设备型号和固件版本。
2.根据权利要求1所述的基于弱密钥的大规模物联网设备固件识别方法,其特征在于,在获取设备详细信息所在导航栏的步骤中,使用单类支持向量机算法定位出设备详细信息所在的导航栏,单类支持向量机需要最大化分离超平面到零点的距离,需要找出最合适的w和ρ:
Figure FDA0002368153970000021
其中,w是标准向量,ρ是间隔,ξi是松弛变量,v∈(0,1]是一个平衡参数,提供了异常点个数的一个上界,同时提供了支持向量个数的一个下界;
采用拉格朗日乘子法进行转换,由此得到的决策函数变为
Figure FDA0002368153970000022
其中αi为多项式乘子,k(x,xi)为核函数,采用径向基核函数:
Figure FDA0002368153970000023
3.根据权利要求1所述的基于弱密钥的大规模物联网设备固件识别方法,其特征在于,使用simhash算法来计算登录网页的文本相似距离的步骤中,包括以下步骤:
分词:对文本内容进行分词,去掉噪音词;
hash:通过hash算法把每个词转为hash值;
加权:使用TF-IDF计算每个特征分词的权重,把hash值按照单词的权重加权数字串;
合并:把各个单词算出来的序列值累加,变成数字串;
降维:把数字串变成01串,形成simhash签名;
海明距离:将simhash算法生成的01串进行异或运算,不同的位数的和即为距离值。
4.根据权利要求1所述的基于弱密钥的大规模物联网设备固件识别方法,其特征在于,对登录网页进行分块的步骤包括:
网页分析:将DOM元素作为输入并构建内容结构,从<body>元素开始,对每个元素进行评估以确定它是否符合所分的类别;如果符合,将创建一个新的内容对象,该过程的结果是代表内容结构的树;
网页理解:当网页分析通过对DOM元素进行分类来提取网页的内容结构时,理解过程将内容结构映射到逻辑结构中,考虑逻辑对象类别、相对于其他对象的位置和距离,并尝试合并小于粒度参数pG的对象;根据对象的距离,标签对其进行分组,并确定存入各组的数量;
网页重构:按照优先顺序,每个逻辑对象都将作为相关内容对象的父对象放置,并且对于关联的DOM元素也应放置相同的对象,递归地对所有对象执行此过程,并生成一个新的文档树,实现对网页的分割。
5.根据权利要求1所述的基于弱密钥的大规模物联网设备固件识别方法,其特征在于,使用最长公共子序列计算DOM树的相似距离,用C[i,j]表示Xi和Yj的LCS的长度,其中Xi={x1…xi},Yj={y1…yj},Xi、Yj分别表示设备i、j的登录页面DOM节点按先序序列存放起来的序列,可得递归公式如下:
Figure FDA0002368153970000031
CN202010042231.4A 2020-01-15 2020-01-15 一种基于弱密钥的大规模物联网设备固件识别方法 Pending CN111314109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010042231.4A CN111314109A (zh) 2020-01-15 2020-01-15 一种基于弱密钥的大规模物联网设备固件识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010042231.4A CN111314109A (zh) 2020-01-15 2020-01-15 一种基于弱密钥的大规模物联网设备固件识别方法

Publications (1)

Publication Number Publication Date
CN111314109A true CN111314109A (zh) 2020-06-19

Family

ID=71160199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010042231.4A Pending CN111314109A (zh) 2020-01-15 2020-01-15 一种基于弱密钥的大规模物联网设备固件识别方法

Country Status (1)

Country Link
CN (1) CN111314109A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112039997A (zh) * 2020-09-03 2020-12-04 重庆邮电大学 一种基于三重特征的物联网终端识别方法
CN114978942A (zh) * 2022-05-13 2022-08-30 深信服科技股份有限公司 一种路由器检测方法、装置及电子设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080114800A1 (en) * 2005-07-15 2008-05-15 Fetch Technologies, Inc. Method and system for automatically extracting data from web sites
CN102253937A (zh) * 2010-05-18 2011-11-23 阿里巴巴集团控股有限公司 获取网页中的感兴趣信息的方法及相关装置
CN102523202A (zh) * 2011-12-01 2012-06-27 华北电力大学 钓鱼网页的深度学习智能检测方法
CN103838823A (zh) * 2014-01-22 2014-06-04 浙江大学 一种基于网页模板的网站内容无障碍检测方法
CN104834717A (zh) * 2015-05-11 2015-08-12 浪潮集团有限公司 一种基于网页聚类的Web信息自动抽取方法
CN105447076A (zh) * 2015-11-04 2016-03-30 南京数律云信息科技有限公司 基于网页标签的安全监控方法和系统
CN106372105A (zh) * 2016-08-19 2017-02-01 中国科学院信息工程研究所 一种基于Spark平台的微博数据预处理方法
CN106850333A (zh) * 2016-12-23 2017-06-13 中国科学院信息工程研究所 一种基于反馈聚类的网络设备识别方法及系统
US20190043095A1 (en) * 2017-08-07 2019-02-07 Criteo Sa Generating structured classification data of a website
CN110390038A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的页面分块方法、装置、设备及存储介质
US20200133644A1 (en) * 2018-10-31 2020-04-30 Salesforce.Com, Inc. Automatic Classification of User Interface Elements

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080114800A1 (en) * 2005-07-15 2008-05-15 Fetch Technologies, Inc. Method and system for automatically extracting data from web sites
CN102253937A (zh) * 2010-05-18 2011-11-23 阿里巴巴集团控股有限公司 获取网页中的感兴趣信息的方法及相关装置
CN102523202A (zh) * 2011-12-01 2012-06-27 华北电力大学 钓鱼网页的深度学习智能检测方法
CN103838823A (zh) * 2014-01-22 2014-06-04 浙江大学 一种基于网页模板的网站内容无障碍检测方法
CN104834717A (zh) * 2015-05-11 2015-08-12 浪潮集团有限公司 一种基于网页聚类的Web信息自动抽取方法
CN105447076A (zh) * 2015-11-04 2016-03-30 南京数律云信息科技有限公司 基于网页标签的安全监控方法和系统
CN106372105A (zh) * 2016-08-19 2017-02-01 中国科学院信息工程研究所 一种基于Spark平台的微博数据预处理方法
CN106850333A (zh) * 2016-12-23 2017-06-13 中国科学院信息工程研究所 一种基于反馈聚类的网络设备识别方法及系统
US20190043095A1 (en) * 2017-08-07 2019-02-07 Criteo Sa Generating structured classification data of a website
US20200133644A1 (en) * 2018-10-31 2020-04-30 Salesforce.Com, Inc. Automatic Classification of User Interface Elements
CN110390038A (zh) * 2019-07-25 2019-10-29 中南民族大学 基于dom树的页面分块方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAN YU ETC.: "Large-Scale IoT Devices Firmware Identification Based on Weak Password", 《IEEE ACCESS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112039997A (zh) * 2020-09-03 2020-12-04 重庆邮电大学 一种基于三重特征的物联网终端识别方法
CN114978942A (zh) * 2022-05-13 2022-08-30 深信服科技股份有限公司 一种路由器检测方法、装置及电子设备和存储介质
CN114978942B (zh) * 2022-05-13 2024-05-24 深信服科技股份有限公司 一种路由器检测方法、装置及电子设备和存储介质

Similar Documents

Publication Publication Date Title
US11799823B2 (en) Domain name classification systems and methods
CN111897962B (zh) 一种物联网资产标记方法及装置
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN109886294A (zh) 知识融合方法、装置、计算机设备和存储介质
JP7149721B2 (ja) 情報処理装置、文字認識エンジン最適化方法及びプログラム
EP4088171A1 (en) System and method to dynamically generate a set of api endpoints
CN109547294B (zh) 一种基于固件分析的联网设备型号探测方法、装置
CN115086004B (zh) 一种基于异质图的安全事件识别方法及系统
CN112580354A (zh) 一种基于语义物联网中间件的物联网设备智能注册方法及系统
US11388216B2 (en) System and method for generating API schemas for networked services
CN111314109A (zh) 一种基于弱密钥的大规模物联网设备固件识别方法
CN112039997A (zh) 一种基于三重特征的物联网终端识别方法
CN113315851A (zh) 域名检测方法、装置及存储介质
CN116484109B (zh) 基于人工智能的客户画像分析系统及方法
CN116033048B (zh) 物联网的多协议解析方法、电子设备和存储介质
JP4703487B2 (ja) 画像分類方法及び装置及びプログラム
CN114880572B (zh) 新闻客户端智能推荐系统
CN112003884A (zh) 一种网络资产的采集和自然语言检索方法
CN110851828A (zh) 基于多维度特征的恶意url监测方法、装置和电子设备
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN111611981A (zh) 信息识别方法和装置及信息识别神经网络训练方法和装置
CN112564928A (zh) 服务分类方法及设备、互联网系统
CN118631711A (zh) 一种基于请求时序特征的爬虫侦测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200619