CN111726336B - 一种联网智能设备识别信息提取方法及系统 - Google Patents

一种联网智能设备识别信息提取方法及系统 Download PDF

Info

Publication number
CN111726336B
CN111726336B CN202010408630.8A CN202010408630A CN111726336B CN 111726336 B CN111726336 B CN 111726336B CN 202010408630 A CN202010408630 A CN 202010408630A CN 111726336 B CN111726336 B CN 111726336B
Authority
CN
China
Prior art keywords
equipment
application layer
identification information
information
response data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010408630.8A
Other languages
English (en)
Other versions
CN111726336A (zh
Inventor
张淼
徐国爱
吕浩
徐国胜
郭燕慧
王浩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010408630.8A priority Critical patent/CN111726336B/zh
Publication of CN111726336A publication Critical patent/CN111726336A/zh
Application granted granted Critical
Publication of CN111726336B publication Critical patent/CN111726336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0245Filtering by information in the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Abstract

本发明提供一种联网智能设备识别信息提取方法及系统,涉及物联网设备安全技术领域,该方法包括从应用层响应数据中过滤得到联网智能设备的应用层响应数据并从中提取标识联网智能设备特性的特征关键词序列;再搜索特征关键词序列并爬取前n条网页;从网页中过滤得到第一文本信息并基于隐马尔科夫模型的命名实体识别算法在第一文本信息中提取初步设备描述识别信息;在初步设备描述识别信息的同一类别中选择出现频次最高的信息作为该类别的最终设备描述识别信息;该提取方法能够提取未见过的设备描述识别信息;而且最终设备描述识别信息的确定方法能够达到与现有关联规则挖掘算法相同的准确率,并且算法简单,计算资源远远小于其他现有算法。

Description

一种联网智能设备识别信息提取方法及系统
技术领域
本发明涉及物联网设备安全技术领域,尤其涉及一种联网智能设备识别信息提取方法及系统。
背景技术
中国内外在联网智能设备识别信息提取领域做了一定数量的研究,提出了一些可行的联网智能设备识别信息提取方法;目前联网智能设备识别信息提取方法可分为两类:一类是基于有监督机器学习技术的,另一类是基于自然语言处理和数据挖掘的。
基于有监督机器学习技术的联网智能设备识别信息提取方法
目前联网智能设备识别信息提取方法中大多数利用的是机器学习中的有监督学习;预先收集若干类型物联网设备的网络流量,利用网络流量包中链路层、网络层、传输层、应用层等各层提取的特征来训练机器学习模型,对物联网设备的类型进行预测;然而,这些方法只能预测到设备的类型级别,不能预测到更细粒度的设备信息,并且能够预测的设备类型集合取决于预先收集的设备类型,而且数据集的收集和标注需要大量的人工参与。
基于自然语言处理和数据挖掘的联网智能设备识别信息提取方法
Xuan Feng等人首次提出了一个自动化的联网智能设备标注框架ARE;该框架能够自动化地提取联网智能设备的(类型,厂商,型号)信息;他们从Censys上收集了HTTP、FTP、RTSP、TELNET等4种协议的应用层响应数据,利用自然语言处理和数据挖掘等技术提取联网智能设备的识别信息;该方法对设备描述网页中设备类型、设备厂商、设备型号等信息的提取完全依赖于规则匹配和规则库,这使得提取性能很大程度上依赖于规则的好坏以及规则库的完善与否。
发明内容
有鉴于此,本发明的目的在于提出一种联网智能设备识别信息提取方法及系统,以解决现有联网智能设备的识别信息提取方法中现有规则与设备类型、厂商、型号不匹配时,无法提取设备识别信息的问题,以及基于关联规则挖掘算法在搜索结果中提取设备识别信息耗费时间长和计算资源较高的问题。
基于上述目的,本发明第一方面提供了一种联网智能设备识别信息提取方法,包括如下步骤:
从应用层响应数据中过滤得到联网智能设备的应用层响应数据;
从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;
在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;
从所述网页中过滤得到第一文本信息,并基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息;
在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;
根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息。
可选地,所述从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:
在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;
所述非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据;
所述出错的响应信息为HTTP响应的状态码为4xx和5xx的信息。
可选地,所述从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列包括:
从所述联网智能设备的应用层响应数据中过滤得到第二文本信息,在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从所述第二文本信息中提取标识联网智能设备特性的特征关键词序列;
所述物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号。
可选地,所述从所述联网智能设备的应用层响应数据中过滤得到第二文本信息包括:
基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;
或,基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息。
优选地,所述从所述网页中过滤得到第一文本信息包括:
采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息。
可选地,所述初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商。
本发明第二方面提供了一种联网智能设备识别信息提取框架系统,所述提取框架系统包括:数据处理模块、搜索/处理模块、管理模块和前端展示模块;
所述数据处理模块包括过滤模块和预处理模块;所述过滤模块用于从应用层响应数据中过滤得到联网智能设备的应用层响应数据;所述预处理模块用于从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;
所述搜索/处理模块包括搜索模块和处理模块,所述搜索模块用于在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;所述处理模块用于从所述网页中过滤得到第一文本信息;
所述管理模块包括提取模块、存储模块和查询模块;
所述提取模块用于采用基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息,并在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息,再根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息;
所述存储模块用于确定是否储存有所述最终设备描述识别信息和所述漏洞识别信息,若未存储,则存储所述最终设备描述识别信息和所述漏洞识别信息;
所述查询模块用于在所述存储模块中查询联网智能设备的识别信息;
所述前端展示模块用于与所述处理模块、搜索/处理模块和管理模块进行交互。
可选地,所述在所述存储模块中查询联网智能设备的识别信息包括:
根据设备类型、设备厂商、设备型号或设备漏洞编号在所述存储模块中查询联网智能设备的识别信息。
可选地,所述前端展示模块包括关键词输入模块、应用层响应信息输入模块和应用层响应信息获取模块;
所述关键词输入模块与所述查询模块进行交互,用于通过输入关键词在所述存储模块中查询联网智能设备的识别信息;
所述应用层响应信息输入模块用于输入应用层的响应数据,并通过所述数据处理模块、搜索/处理模块和管理模块对输入的应用层响应数据进行处理;
所述应用层响应信息获取模块用于根据输入的IP、端口号或协议获取应用层响应信息,并通过所述数据处理模块、搜索/处理模块和管理模块对获取的应用层响应数据进行处理。
可选地,所述从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:
在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;
所述非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据;
所述出错的响应信息为HTTP响应的状态码为4xx和5xx的信息;
优选地,所述从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列包括:
从所述联网智能设备的应用层响应数据中过滤得到第二文本信息,在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从所述第二文本信息中提取标识联网智能设备特性的特征关键词序列,所述物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号;
优选地,所述从所述联网智能设备的应用层响应数据中过滤得到第二文本信息包括:
基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;
或,基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息。
优选地,所述从所述网页中过滤得到第一文本信息包括:
采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息。
优选地,所述初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商。
从上面所述可以看出,本发明提供的一种联网智能设备识别信息提取方法及系统至少包括如下有益效果:
本发明提取方法采用机器学习中的隐马尔科夫模型算法和自然语言处理中的命名实体识别算法在搜索网页中提取设备描述识别信息,实现启发式的提取,并能够提取未见过的设备描述识别信息。
本发明提取方法中在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;该方法能够达到与现有关联规则挖掘算法相同的准确率,并且算法简单,计算资源远远小于其他现有算法。
本发明提取方法还能够根据最终设备描述识别信息提取得到设备漏洞识别信息,能够实现更细粒度的设备信息提取,并方便管理者对网络中的联网智能设备进行管理,减少物联网设备安全问题的发生。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的联网智能设备识别信息提取框架系统对5000条联网智能设备的应用层响应信息的测试结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
现有联网智能设备的识别信息一般是基于有监督机器学习技术或基于自然语言处理和数据挖掘的提取方法进行提取,然而,基于有监督机器学习技术只能预测到设备的类型级别,不能预测到更细粒度的设备信息,并且能够预测的设备类型集合取决于预先收集的设备类型,而且数据集的收集和标注需要大量的人工参与;而基于自然语言处理和数据挖掘的联网智能设备识别信息提取方法中对设备描述网页中设备类型、设备厂商、设备型号等信息的提取完全依赖于规则匹配和规则库,这使得提取性能很大程度上依赖于规则的好坏以及规则库的完善与否,导致提取性能较差。
针对上述问题,本发明实施例提供了一种联网智能设备识别信息提取方法,包括如下步骤:
从应用层响应数据中过滤得到联网智能设备的应用层响应数据;
从联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;
在搜索引擎中搜索特征关键词序列,并在搜索结果中爬取前n条对应的网页;
从网页中过滤得到第一文本信息,并基于隐马尔科夫模型的命名实体识别算法在第一文本信息中提取联网智能设备的初步设备描述识别信息;
在初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;
根据最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取漏洞识别信息。
本发明上述提取方法不仅能够提取设备描述识别信息,还能够提取设备的漏铜识别信息,能够实现更细粒度的设备信息提取,并方便管理者对网络中的联网智能设备进行管理,减少物联网设备安全问题的发生;此外,该提取方法采用机器学习中的隐马尔科夫模型算法和自然语言处理中的命名实体识别算法在搜索网页中提取设备描述识别信息,实现启发式的提取,并能够提取未见过的设备描述识别信息;而且在初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息的方法能够达到与现有关联规则挖掘算法相同的准确率,并且算法简单,计算资源远远小于其他现有算法。
进一步地,在搜索结果中爬取前n条对应的网页中爬取的网页条数可不小于30条。
进一步地,初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商。
本发明从应用层响应数据中过滤得到联网智能设备的应用层响应数据的过滤方法不作严格限制,例如,可以采用本领域常规的过滤方法;具体地,在一些实施方式中,从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:
在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;
非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据;
出错的响应信息为HTTP响应的状态码为4xx和5xx的信息。
在一些实施方式中,从联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列包括:
从联网智能设备的应用层响应数据中过滤得到第二文本信息,在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从第二文本信息中提取标识联网智能设备特性的特征关键词序列;
其中,物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号。
进一步地,从联网智能设备的应用层响应数据中过滤得到第二文本信息包括:
基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;
基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息。
本发明对从网页中过滤得到第一文本信息的方法不作严格限制,可以根据本领域常规过滤方法进行,例如,在一些实施方式中,从网页中过滤得到第一文本信息包括:
采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息。
本发明实施例还提供了一种联网智能设备识别信息提取框架系统,该提取框架系统包括:数据处理模块、搜索/处理模块、管理模块和前端展示模块;
数据处理模块包括过滤模块和预处理模块;
过滤模块用于在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息得到联网智能设备的应用层响应数据,其中非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据,出错的响应信息为HTTP响应的状态码为4xx和5xx的信息;
预处理模块用于从联网智能设备的应用层响应数据中过滤得到第二文本信息,然后在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从第二文本信息中提取标识联网智能设备特性的特征关键词序列,其中,从联网智能设备的应用层响应数据中过滤得到第二文本信息包括:
基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;或基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号;
搜索/处理模块包括搜索模块和处理模块,搜索模块用于在搜索引擎中搜索特征关键词序列,并在搜索结果中爬取前n条对应的网页,其中n不小于30;处理模块用于采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息;
管理模块包括提取模块、存储模块和查询模块;
提取模块用于采用基于隐马尔科夫模型的命名实体识别算法在第一文本信息中提取联网智能设备的初步设备描述识别信息,并在初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息,再根据最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取漏洞识别信息,其中,初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商;
存储模块用于存储现有联网智能设备的识别信息,以及用于确定是否储存有最终设备描述识别信息和漏洞识别信息,若未存储,则存储最终设备描述识别信息和漏洞识别信息;通过存储最终设备描述识别信息和漏洞识别信息,能够增加储存数据库中联网智能设备的识别信息,便于对基于隐马尔科夫模型的命名实体识别算法进行反馈,有利于提升模型的性能;
查询模块用于根据设备类型、设备厂商、设备型号或设备漏洞编号在所述存储模块中查询联网智能设备的识别信息;
前端展示模块包括关键词输入模块、应用层响应信息输入模块和应用层响应信息获取模块,关键词输入模块与查询模块进行交互,用于通过输入关键词在存储模块中查询联网智能设备的识别信息;
应用层响应信息输入模块用于输入应用层的响应数据,并通过数据处理模块、搜索/处理模块和管理模块对输入的应用层响应数据进行处理;
应用层响应信息获取模块用于根据输入的IP、端口号或协议获取应用层响应信息,并通过数据处理模块、搜索/处理模块和管理模块对获取的应用层响应数据进行处理。
基于上述实施例提供的一种联网智能设备识别信息提取框架系统对5000条联网智能设备进行测试,以确定上述联网智能设备识别信息提取框架系统的准确率;
上述联网智能设备识别信息提取框架系统中存储模块存储现有联网智能设备的识别信息包括23个设备类型,118个设备厂商,23871个设备型号;通过上述联网智能设备识别信息提取框架系统对5000条联网智能设备的应用层响应信息进行测试,测试结果如图1所示;
由图1可知,本发明提供的联网智能设备识别信息提取框架系统对联网智能设备识别信息的提取准确率达到了97.26%。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种联网智能设备识别信息提取方法,其特征在于,包括如下步骤:
从应用层响应数据中过滤得到联网智能设备的应用层响应数据;
从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;
在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;
从所述网页中过滤得到第一文本信息,并基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息;
在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;
根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息。
2.根据权利要求1所述的提取方法,其特征在于,所述从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:
在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;
所述非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据;
所述出错的响应信息为HTTP响应的状态码为4xx和5xx的信息。
3.根据权利要求1所述的提取方法,其特征在于,所述从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列包括:
从所述联网智能设备的应用层响应数据中过滤得到第二文本信息,在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从所述第二文本信息中提取标识联网智能设备特性的特征关键词序列;
所述物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号。
4.根据权利要求3所述的提取方法,其特征在于,所述从所述联网智能设备的应用层响应数据中过滤得到第二文本信息包括:
基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;
或,基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息。
5.根据权利要求1所述的提取方法,其特征在于,所述从所述网页中过滤得到第一文本信息包括:
采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息。
6.根据权利要求1所述的提取方法,其特征在于,所述初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商。
7.一种联网智能设备识别信息提取框架系统,其特征在于,包括:数据处理模块、搜索/处理模块、管理模块和前端展示模块;
所述数据处理模块包括过滤模块和预处理模块;所述过滤模块用于从应用层响应数据中过滤得到联网智能设备的应用层响应数据;所述预处理模块用于从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;
所述搜索/处理模块包括搜索模块和处理模块,所述搜索模块用于在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;所述处理模块用于从所述网页中过滤得到第一文本信息;
所述管理模块包括提取模块、存储模块和查询模块;
所述提取模块用于采用基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息,并在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息,再根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息;
所述存储模块用于确定是否储存有所述最终设备描述识别信息和所述漏洞识别信息,若未存储,则存储所述最终设备描述识别信息和所述漏洞识别信息;
所述查询模块用于在所述存储模块中查询联网智能设备的识别信息;
所述前端展示模块用于与所述数据处理模块、搜索/处理模块和管理模块进行交互。
8.根据权利要求7所述的提取框架系统,其特征在于,所述在所述存储模块中查询联网智能设备的识别信息包括:
根据设备类型、设备厂商、设备型号或设备漏洞编号在所述存储模块中查询联网智能设备的识别信息。
9.根据权利要求7所述的提取框架系统,其特征在于,所述前端展示模块包括关键词输入模块、应用层响应信息输入模块和应用层响应信息获取模块;所述关键词输入模块与所述查询模块进行交互,用于通过输入关键词在所述存储模块中查询联网智能设备的识别信息;
所述应用层响应信息输入模块用于输入应用层的响应数据,并通过所述数据处理模块、搜索/处理模块和管理模块对输入的应用层响应数据进行处理;
所述应用层响应信息获取模块用于根据输入的IP、端口号或协议获取应用层响应信息,并通过所述数据处理模块、搜索/处理模块和管理模块对获取的应用层响应数据进行处理。
10.根据权利要求7所述的提取框架系统,其特征在于,所述从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:
在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;
所述非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据;
所述出错的响应信息为HTTP响应的状态码为4xx和5xx的信息;
所述从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列包括:
从所述联网智能设备的应用层响应数据中过滤得到第二文本信息,在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从所述第二文本信息中提取标识联网智能设备特性的特征关键词序列,所述物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号;
所述从所述联网智能设备的应用层响应数据中过滤得到第二文本信息包括:
基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;
或,基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;
所述从所述网页中过滤得到第一文本信息包括:
采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息;
所述初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商。
CN202010408630.8A 2020-05-14 2020-05-14 一种联网智能设备识别信息提取方法及系统 Active CN111726336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010408630.8A CN111726336B (zh) 2020-05-14 2020-05-14 一种联网智能设备识别信息提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010408630.8A CN111726336B (zh) 2020-05-14 2020-05-14 一种联网智能设备识别信息提取方法及系统

Publications (2)

Publication Number Publication Date
CN111726336A CN111726336A (zh) 2020-09-29
CN111726336B true CN111726336B (zh) 2021-10-29

Family

ID=72564460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010408630.8A Active CN111726336B (zh) 2020-05-14 2020-05-14 一种联网智能设备识别信息提取方法及系统

Country Status (1)

Country Link
CN (1) CN111726336B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445862B (zh) * 2020-11-27 2024-01-26 中国科学院信息工程研究所 物联网设备数据集构建方法、装置、电子设备和存储介质
CN112702405A (zh) * 2020-12-18 2021-04-23 太原理工大学 一种基于多协议探测的物联网设备识别方法
CN113191149B (zh) * 2021-05-12 2023-04-07 北京交通大学 一种自动化提取物联网设备信息的方法
CN113609279B (zh) * 2021-08-05 2023-12-08 湖南特能博世科技有限公司 一种物料型号提取方法、装置及计算机设备
CN115604158B (zh) * 2022-12-15 2023-03-21 中国人民解放军国防科技大学 一种智能设备识别方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970898A (zh) * 2014-05-27 2014-08-06 重庆大学 一种基于多级规则库的信息提取方法及装置
CN106096040A (zh) * 2016-06-29 2016-11-09 中国人民解放军国防科学技术大学 基于搜索引擎的机构网站归属地判别方法及其装置
CN108228906A (zh) * 2018-02-08 2018-06-29 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110881050A (zh) * 2019-12-20 2020-03-13 万翼科技有限公司 安全威胁检测方法及相关产品
CN111126065A (zh) * 2019-12-02 2020-05-08 南京医渡云医学技术有限公司 一种自然语言文本的信息提取方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955807B (zh) * 2011-08-26 2018-10-30 华为软件技术有限公司 一种关联信息的检索方法及装置
CN103377199B (zh) * 2012-04-16 2016-06-29 富士通株式会社 信息处理装置和信息处理方法
US9721002B2 (en) * 2013-11-29 2017-08-01 Sap Se Aggregating results from named entity recognition services
CN110502738A (zh) * 2018-05-18 2019-11-26 阿里巴巴集团控股有限公司 中文命名实体识别方法、装置、设备和查询系统
CN109408825A (zh) * 2018-11-06 2019-03-01 杭州费尔斯通科技有限公司 一种基于命名实体识别的中标数据提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970898A (zh) * 2014-05-27 2014-08-06 重庆大学 一种基于多级规则库的信息提取方法及装置
CN106096040A (zh) * 2016-06-29 2016-11-09 中国人民解放军国防科学技术大学 基于搜索引擎的机构网站归属地判别方法及其装置
CN108228906A (zh) * 2018-02-08 2018-06-29 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN111126065A (zh) * 2019-12-02 2020-05-08 南京医渡云医学技术有限公司 一种自然语言文本的信息提取方法及装置
CN110881050A (zh) * 2019-12-20 2020-03-13 万翼科技有限公司 安全威胁检测方法及相关产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大规模物联网设备组织信息的发现与提取;贾煜璇;《信息科技辑》;20200115;I136-755 *

Also Published As

Publication number Publication date
CN111726336A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111726336B (zh) 一种联网智能设备识别信息提取方法及系统
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN108038096A (zh) 知识库文档快速检索方法、应用服务器计算机可读存储介质
US20090319449A1 (en) Providing context for web articles
CN106909663B (zh) 基于标签用户品牌偏好行为预测方法及其装置
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN107153716B (zh) 网页内容提取方法和装置
CN102779169A (zh) 一种基于html标签的网页正文提取方法及装置
CN104424308A (zh) 网页分类标准获取方法、装置及网页分类方法、装置
CN103678310A (zh) 网页主题的分类方法及装置
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN102929902A (zh) 一种基于中文检索的分词方法及装置
CN106250402B (zh) 一种网站分类方法及装置
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN103020208B (zh) 一种与移动终端相适应的搜索方法及装置
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN108694325B (zh) 指定类型网站的辨别方法和指定类型网站的辨别装置
CN105183843A (zh) 列表页识别系统及方法
CN102929948B (zh) 列表页识别系统及方法
CN112232075A (zh) 基于时间格式和网页元素特征的文章发布时间识别方法
CN111222031A (zh) 一种网站判别方法及系统
CN108595453B (zh) Url标识映射获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant