CN113657443B - 一种基于soinn网络的在线物联网设备识别方法 - Google Patents

一种基于soinn网络的在线物联网设备识别方法 Download PDF

Info

Publication number
CN113657443B
CN113657443B CN202110781214.7A CN202110781214A CN113657443B CN 113657443 B CN113657443 B CN 113657443B CN 202110781214 A CN202110781214 A CN 202110781214A CN 113657443 B CN113657443 B CN 113657443B
Authority
CN
China
Prior art keywords
equipment
model
brand
soinn
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110781214.7A
Other languages
English (en)
Other versions
CN113657443A (zh
Inventor
黄杰
张帅帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110781214.7A priority Critical patent/CN113657443B/zh
Publication of CN113657443A publication Critical patent/CN113657443A/zh
Application granted granted Critical
Publication of CN113657443B publication Critical patent/CN113657443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y30/00IoT infrastructure

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于SOINN网络的在线物联网设备识别方法,包括四个步骤:结构化特征提取、非结构化特征提取、设备品牌识别和设备型号识别。特征提取步骤中,先分析设备交互页面DOM树结构,结合局部敏感哈希函数提取设备结构化特征。采用正则匹配从文本数据中寻找型号关键词,利用TF‑IDF赋予关键词权重值,关键词及其权重值组成非结构化特征。设备品牌识别中,首先利用经SOINN网络压缩的数据训练SVM分类器,训练好的分类模型用于设备品牌分类。在型号识别中,结合Jaro距离计算待识别设备与型号特征库距离,实现设备型号分类。本发明设计了物联网设备结构化与非结构化特征,对具有用户交互页面的物联网设备具有较高的识别率,并支持品牌和型号的细粒度识别。

Description

一种基于SOINN网络的在线物联网设备识别方法
技术领域
本发明属于物联网设备识别技术领域,特别是一种基于SOINN网络的在线物联网设备识别方法。
背景技术
随着物联网的快速发展,大量新的物联网设备被投入使用。但物联网设备结构简单,缺乏安全防护,存在严重的安全问题。公网上暴露了数以万计的物联网设备,成为了黑客攻击和入侵的主要目标,导致了诸如DDOS攻击、隐私泄露等网络安全问题。利用物联网设备识别技术及时发现和识别设备,进行安全漏洞的修补和维护,是物联网安全管理中非常有效的手段。
目前物联网设备识别技术大致可以分为两类:基于分类模型的设备识别方法和基于标语信息的设备识别方法。基于分类模型的设备识别方法需要先提取数字化特征,然后结合机器学习方法训练分类模型实现设备分类。等利用半监督学习方法对设备的特征进行分簇,可以识别少量的物联网设备操作系统。Thangavelu等通过采集设备在一段时间内的流量,分析和提取流量特征,训练了具有高识别率的设备分类器。Marchal等利用傅里叶分析提取设备流量在时频上的特征指纹,并结合无监督学习方法对物联网设备的定期通信流量进行建模,最终达到了98.2%的识别准确率。基于标语信息的设备识别方法专注于从设备的文本数据中直接提取设备品牌和型号信息。XuanFeng等提出了ARE设备识别引擎,可以基于文本规则自我学习,发现新的设备并自动生成设备指纹。Qiang等利用卡方检验方法从文本数据中筛选关键字构成设备指纹,可以识别出在线监控设备。
从上述介绍可知,国内外研究人员在物联网设备识别领域已经取得很多进展,各类识别方法都有较高的识别准确率。但上述方法依然存在许多亟待解决的问题。一方面,物联网设备更新较快,基于监督学习方法的分类模型无法动态更新;另一方面,当品牌型号等关键字缺失或无法提取时,基于标语的识别方法效果就会很差。因此,本发明采用多种设备特征实现设备分类,并结合增量学习方法使得分类模型可以在线学习,很好的解决了以上问题。
发明内容
本发明的目的在于针对传统设备识别方法中存在的模型动态更新困难、计算存储开销大和关键字缺失等问题,提供了一种基于SOINN网络的在线物联网设备识别方法。该方案结合自组织增量学习网络SOINN实现了分类模型的动态更新,可以在识别过程中提升设备识别准确率,更加适应变化快速的物联网环境。
为了实现上述目的,采用如下技术方案:
一种基于SOINN网络的在线物联网设备识别方法,包括下述步骤:
(1)结构化特征提取:
1.1从数据库中获取设备的交互页面代码;
1.2设置结构化特征F初始值,长度为256,每一位为0。依次顺序遍历HTML代码的每一层,提取每层包含的HTML节点标签,记为:t1,t2,…tn
1.3对每一层标签进行如下处理:
1.3.1利用该层标签产生所有三元组全排列组合,记为C1,C2,…,Cm
1.3.2利用md5哈希算法计算每个Ci的哈希值,并求该哈希值除以256的余数,记为h。
1.3.3在结构化特征F的第h位累加1;
1.4顺序遍历完HTML的所有层,重复步骤1.3,得到结构化特征F;
1.5累加特征F所有位的数值,并除以256得到平均值avg;
1.6对特征F二值化,每一位按照以下公式进行赋值,得到最终的设备结构化特征。
其中F[i]是结构化特征F的第i位。
(2)非结构化特征提取:
2.1从数据库读取相同品牌设备的所有文本数据;
2.2利用正则表达式从每一个文本中匹配型号关键词;
2.3利用TF-IDF技术计算每一个关键词对于该文本的权重值;
2.4关键词及其权重值构成每一种型号设备的非结构化特征。
(3)设备品牌识别:
3.1为结构化特征打上类别标签,作为设备品牌分类器的训练数据;
3.2将所有训练数据按照品牌类别分别输入SOINN网络,训练数据经过压缩后得到原型数据;
3.3利用原型数据训练SVM分类器;
3.4待识别设备经过SVM分类器识别设备的品牌;
3.5识别后的设备数据按照品牌类别输入到SOINN网络中,重复步骤3.2,3.3,更新分类模型。
(4)设备型号识别:
4.1利用正则匹配提取待识别设备文本数据中的型号关键词,得到词集合S;
4.2加载型号特征库,包含了词集合W和权重值集合M,按照下方公式计算待识别设备与型号特征库中每一个型号的文本相似度;
其中|Wb,p|为品牌b型号p的词集合元素数量,Mb,p,i为词集合中第i个词的TF-IDF权重值,Wb,p,i为词集合中的第i个词,Sj为待识别设备词集合中第j个词,d(Wb,p,i,Sj)为两个词语的Jaro距离。
4.3按照下方公式将所有的文本相似度结果归一化,得到最终的文本相似度;
4.4从归一化的相似度结果中挑选出最大值,对应的特征库型号值就是型号识别结果。
优选的,在步骤1.2到1.4之间利用HTML标签三元组的全排列组合生成哈希值,并转化为设备结构化特征。
优选的,在步骤2.4中将关键词及其TF-IDF权重值作为设备非结构化特征。
优选的,在步骤3.5中将识别后的数据重新输入到SOINN网络中,并更新分类模型。
优选的,在步骤4.2中,利用Jaro距离乘以词的权重值计算文本相似度。
优选的,所述的特征提取方法包括结构化特征提取和非结构化特征提取,所述的设备识别包括设备品牌识别和设备型号识别。其中结构化特征用于训练设备品牌识别模型,非结构化特征构成设备型号识别中的型号特征库。
优选的,待识别设备首先通过设备品牌分类器识别设备品牌,然后依据品牌识别结果加载对应品牌的型号特征库,再通过计算文本相似度识别设备型号,是一个多次分类过程。
本发明的有益效果为:本发明首先设计了新的设备特征提取方法,从设备交互页面中提取结构化特征与非结构化特征,该特征可用于物联网设备的品牌与型号识别。然后,本发明将增量学习方法SOINN网络与SVM方法结合,品牌分类器可以在识别过程中动态更新,持续优化分类模型提高识别准确率。本发明的增量学习特性也减少了模型训练对训练数据的需求,少量人工标记数据就可以完成分类模型的训练。同时,SOINN网络还具有数据压缩作用,大大减少了训练数据规模,降低了模型训练的计算开销。
附图说明
图1为本发明流程图。
图2为本发明识别算法结构图。
图3为本发明设备品牌分类器的分类性能随学习次数变化曲线。
具体实施方式
下面将结合附图对本发明作进一步描述。如图1和图2所示,分别是本发明的流程图和识别算法结构图。
实施例:本发明识别算法包含三个模块:特征提取模块、品牌识别模块和型号识别模块。特征提取模块包括了设备结构化特征提取和设备非结构化特征提取。设备品牌识别模块包括了SOINN网络和SVM分类器,其中SOINN网络负责压缩和增量学习新的训练数据,压缩后的数据用于训练新的SVM分类器。设备型号识别模块包括了型号匹配器和型号特征库,型号匹配器会遍历型号特征库,寻找与待识别设备文本相似度最高的型号。
各模块之间的关系为,特征提取模块负责数据处理工作,从设备原始数据中提取设备特征。在预训练阶段,需要为特征人工打标签,其中结构化特征作为SVM分类器的训练数据,非结构化特征构成型号特征识别库。待识别设备经过特征提取后,先由品牌识别模块识别品牌,然后由型号识别模块识别型号,最后输出识别结果。
本发明的识别算法步骤及设计方法如下:
一、结构化特征提取:
1.读取设备的交互页面代码,将HTML代码转换为DOM树结构,每个HTML标签成为可以访问的节点;
2.设置结构化特征F初始值,长度为256,每一位为0。依次顺序遍历HTML代码的每一层,提取每层包含的HTML节点标签,记为:t1,t2,…tn
3.提取每一层的标签组合信息,进行如下处理:
a)生成标签t1,t2,…tn的三元组全排列组合,记为C1,C2,…,Cm
b)利用md5哈希算法计算每个Ci的哈希值,然后除以256取余数,记为h。
c)在结构化特征F的第h位累加1;
4.依次进入每个标签节点的下一层,提取标签信息,重复步骤3,得到结构化特征F;
5.累加结构化特征F所有位的数值,并除以256得到平均值avg;
6.将特征F的每一位进行二值化处理,按照以下公式赋值,得到最终的设备结构化特征。
其中F[i]是结构化特征F的第i位。
二、非结构化特征提取:
1.非结构化特征用于区分相同品牌的不同型号,所以首先读取相同品牌设备的所有文本数据;
2.型号关键词一般都是字母与数字的组合形式,可以利用正则表达式([A-Z][A-Za-z]*-*[0-9]+-*[A-Za-z0-9]*)从每一个设备文本中匹配型号关键词;
3.正则匹配会出现多个结果,往往会包含诸如“Win32NT”、“Ver-1”等干扰词,可以利用TF-IDF技术赋予正确型号词更高的权重值;
4.最终每一种型号设备的非结构化特征包含了匹配到的关键词及其权重值。
三、设备品牌识别:
1.准备所有带标记的结构化特征,并进行归一化处理;
2.将所有训练数据按照品牌类别分别输入一个SOINN网络中,通过SOINN网络压缩训练数据,得到数据量更少的原型数据;
3.利用原型数据训练SVM分类器;
4.训练好的SVM分类器可以用于识别设备的品牌,若识别结果概率值小于阈值θ1,则认为识别结果无效,判定为未发现的新品牌设备。然后保留识别后的设备数据;
5.识别后的数据每达到1000条,就将这些数据按照品牌类别输入到SOINN网络中,更新原型数据;
6.再次利用原型数据训练新的SVM分类器,更新分类模型,训练完成后回到步骤4。
四、设备型号识别:
1.利用正则匹配提取待识别设备文本数据中的型号关键词,得到词集合S;
2.记待识别设备的品牌识别结果为b,加载品牌b的型号特征库,包含了词集合W和权重值集合M,按照下方公式计算待识别设备与型号特征库中每一个型号的文本相似度;
其中|Wb,p|为品牌b型号p的词集合元素数量,Mb,p,i为词集合中第i个词的TF-IDF权重值,Wb,p,i为词集合中的第i个词,Sj为待识别设备词集合中第j个词,d(Wb,p,i,Sj)为两个词语的Jaro距离。
3.在计算完所有文本相似度后,按照下方公式将结果归一化,得到最终的文本相似度;
4.选出归一化相似度最大的作为匹配结果,对应的特征库型号值就是型号识别结果。若归一化相似度小于阈值θ2,则判为未发现的新型号设备。
设备品牌识别与设备型号识别中的阈值θ1与θ2取值在0到1之间,用于区分出未发现的新设备。需要依据不同的网络环境取不同的值,取值方法为:作出识别方法召回率、准确率与阈值的关系曲线,召回率与准确率交点对应的横坐标就是确定的阈值。
本发明提出的基于SOINN网络的在线物联网设备识别方法,利用交互页面代码结构提取结构化特征,利用设备文本数据提取非结构化特征,多种类特征的组合使用实现了物联网设备细粒度识别。又引入增量学习方法SOINN,赋予了监督学习方法SVM增量学习的能力,可以在识别过程中不断更新分类模型。品牌分类器的增量学习效果如图3所示,经过10次学习,识别准确率从88%上升到94.3%,召回率从84%上升到96%。同时,本算法中使用经SOINN压缩后的原型数据训练分类模型,降低了算法的计算和存储开销。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (6)

1.一种基于SOINN网络的在线物联网设备识别方法,其特征在于,包括以下步骤:
(1)结构化特征提取,
(2)非结构化特征提取,
(3)设备品牌识别,
(4)设备型号识别,
其中,步骤(1)结构化特征提取:具体如下,
1.1从数据库中获取设备的交互页面代码;
1.2设置结构化特征F的初始值,长度为256,每一位为0,依次顺序遍历HTML代码的每一层,提取每层包含的HTML节点标签,记为:t1,t2,…tn
1.3对每一层标签进行如下处理:
1.3.1利用该层标签产生所有三元组全排列组合,记为C1,C2,…,Cm
1.3.2利用md5哈希算法计算每个Ci的哈希值,并求该哈希值除以256的余数,记为h,
1.3.3在结构化特征F的第h位累加1;
1.4顺序遍历完HTML的所有层,重复步骤1.3,得到结构化特征F;
1.5累加特征F所有位的数值,并除以256得到平均值avg;
1.6对特征F二值化,每一位按照以下公式进行赋值,得到最终的设备结构化特征,
其中F[i]是结构化特征F的第i位;
其中,步骤(2)非结构化特征提取,具体如下,
2.1从数据库读取相同品牌设备的所有文本数据;
2.2利用正则表达式从每一个文本中匹配型号关键词;
2.3利用TF-IDF技术计算每一个关键词对于该文本的权重值;
2.4关键词及其权重值构成每种型号设备的非结构化特征,
其中,步骤(3)设备品牌识别,具体如下,
3.1为结构化特征打上分类标签,作为设备品牌分类器的训练数据;
3.2将所有训练数据按照品牌类别分别输入SOINN网络,进行训练数据压缩得到原型数据;
3.3利用原型数据训练SVM分类器;
3.4待识别设备经过SVM分类器识别设备的品牌;
3.5识别后的设备数据按照品牌类别输入到SOINN网络中,重复步骤3.2,3.3,更新分类模型;
其中,步骤(4)设备型号识别,具体如下,
4.1利用正则匹配提取待识别设备文本数据中的型号关键词,得到词集合S;
4.2加载型号特征库,包含了词集合W和权重值集合M,按照下方公式计算待识别设备与型号特征库中每一个型号的文本相似度;
其中|Wb,p|为品牌b型号p的词集合元素数量,Mb,p,i为词集合中第i个词的TF-IDF权重值,Wb,p,i为词集合中的第i个词,Sj为待识别设备词集合中第j个词,d(Wb,p,i,Sj)为两个词语的Jaro距离,
4.3按照下方公式将所有的文本相似度结果归一化,得到最终的文本相似度;
4.4从归一化的相似度结果中挑选出最大值,对应的特征库型号值就是型号识别结果。
2.根据权利要求1所述的基于SOINN网络的在线物联网设备识别方法,其特征在于:在步骤1.2到1.4之间利用HTML标签全排列组合的哈希值生成设备结构化特征。
3.根据权利要求2所述的基于SOINN网络的在线物联网设备识别方法,其特征在于:在步骤2.4中将关键词及其TF-IDF权重值作为设备非结构化特征。
4.根据权利要求3所述的基于SOINN网络的在线物联网设备识别方法,其特征在于:在步骤3.5中将识别后的数据重新输入到SOINN网络中,重新训练SVM分类器更新分类模型。
5.根据权利要求4所述的基于SOINN网络的在线物联网设备识别方法,其特征在于:在步骤4.2中,利用Jaro距离乘以词的权重值计算文本相似度。
6.根据权利要求1-5任一项所述的基于SOINN网络的在线物联网设备识别方法,其特征在于:所述的特征提取方法包括结构化特征提取和非结构化特征提取,所述的设备识别包括设备品牌识别和设备型号识别,其中结构化特征用于训练设备品牌分类模型,非结构化特征构成设备型号识别中的型号特征库;
待识别设备首先通过设备品牌分类器识别设备品牌,然后依据品牌识别结果加载对应品牌的型号特征库,再通过计算文本相似度识别设备型号,是一个多次分类过程。
CN202110781214.7A 2021-07-10 2021-07-10 一种基于soinn网络的在线物联网设备识别方法 Active CN113657443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110781214.7A CN113657443B (zh) 2021-07-10 2021-07-10 一种基于soinn网络的在线物联网设备识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110781214.7A CN113657443B (zh) 2021-07-10 2021-07-10 一种基于soinn网络的在线物联网设备识别方法

Publications (2)

Publication Number Publication Date
CN113657443A CN113657443A (zh) 2021-11-16
CN113657443B true CN113657443B (zh) 2024-03-19

Family

ID=78477230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110781214.7A Active CN113657443B (zh) 2021-07-10 2021-07-10 一种基于soinn网络的在线物联网设备识别方法

Country Status (1)

Country Link
CN (1) CN113657443B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328630B (zh) * 2022-01-24 2023-06-23 嘉应学院 一种基于物联网的设备识别系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346435A (zh) * 2017-06-15 2017-11-14 浙江捷尚视觉科技股份有限公司 一种基于车辆特征库的嫌疑套牌车捕获方法
CN110262949A (zh) * 2019-04-29 2019-09-20 北京邮电大学 智能设备日志处理系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346435A (zh) * 2017-06-15 2017-11-14 浙江捷尚视觉科技股份有限公司 一种基于车辆特征库的嫌疑套牌车捕获方法
CN110262949A (zh) * 2019-04-29 2019-09-20 北京邮电大学 智能设备日志处理系统及方法

Also Published As

Publication number Publication date
CN113657443A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
US8543522B2 (en) Automatic rule discovery from large-scale datasets to detect payment card fraud using classifiers
Diab Optimizing stochastic gradient descent in text classification based on fine-tuning hyper-parameters approach. a case study on automatic classification of global terrorist attacks
CN111538741B (zh) 一种面向警情大数据的深度学习分析方法及系统
CN111143838B (zh) 数据库用户异常行为检测方法
CN111125460A (zh) 信息推荐方法及装置
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN111931935B (zh) 基于One-shot 学习的网络安全知识抽取方法和装置
CN109190698B (zh) 一种网络数字虚拟资产的分类识别系统及方法
CN110633366A (zh) 一种短文本分类方法、装置和存储介质
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
Ripan et al. An isolation forest learning based outlier detection approach for effectively classifying cyber anomalies
CN113657443B (zh) 一种基于soinn网络的在线物联网设备识别方法
Panda et al. Multi-label software bug categorisation based on fuzzy similarity
CN116070248B (zh) 一种用于保证电力数据安全的数据处理系统及方法
CN110704611B (zh) 基于特征解交织的非法文本识别方法及装置
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
CN116975340A (zh) 信息检索方法、装置、设备、程序产品及存储介质
Arbaatun et al. Hate Speech Detection on Twitter through Natural Language Processing using LSTM Model
Liang et al. Automatic security classification based on incremental learning and similarity comparison
CN111191455A (zh) 一种交通事故损害赔偿中法律条文预测方法
CN115329380A (zh) 一种数据库表分类分级方法、装置、设备及存储介质
Zhu et al. PDHF: Effective phishing detection model combining optimal artificial and automatic deep features
Dong et al. Research on network intrusion data based on KNN and feature extraction algorithm
Wu et al. Intrusion Detection System Using a Distributed Ensemble Design Based Convolutional Neural Network in Fog Computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant