CN111581475A - 一种识别标识解析流量的系统及方法 - Google Patents

一种识别标识解析流量的系统及方法 Download PDF

Info

Publication number
CN111581475A
CN111581475A CN202010282816.3A CN202010282816A CN111581475A CN 111581475 A CN111581475 A CN 111581475A CN 202010282816 A CN202010282816 A CN 202010282816A CN 111581475 A CN111581475 A CN 111581475A
Authority
CN
China
Prior art keywords
identification
flow
classified
acquisition module
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010282816.3A
Other languages
English (en)
Other versions
CN111581475B (zh
Inventor
王林汝
蔡蓓蓓
李春雨
程红
林飞
王钟
何涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Act Technology Development Co ltd
Jiangsu Internet Industry Management Service Center
Original Assignee
Beijing Act Technology Development Co ltd
Jiangsu Internet Industry Management Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Act Technology Development Co ltd, Jiangsu Internet Industry Management Service Center filed Critical Beijing Act Technology Development Co ltd
Priority to CN202010282816.3A priority Critical patent/CN111581475B/zh
Publication of CN111581475A publication Critical patent/CN111581475A/zh
Application granted granted Critical
Publication of CN111581475B publication Critical patent/CN111581475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种识别标识解析流量的系统涉及信息技术领域,本发明由特征采集模块、流量解析器、已分类流量采集模块、字频计算器、标识流量概率计算器和未分类流量采集器组成;通过特征采集模块自动化生成标识流量的已归集的特征库,通过计算标识流量和非标识流量中的已归集特征库中出现的字符串的字频形成标识流量指数和非标识流量指数,从而找到判定流量是否是标识流量的阈值,本发明的实施可以解决网络流量不能自动判定是否是工业互联网流量的问题,易于推广和实施。

Description

一种识别标识解析流量的系统及方法
技术领域
本发明涉及信息技术领域,特别是信息安全技术领域。
背景技术
工业互联网标识解析体系是工业互联网网络体系的重要组成部分,是支撑工业互联网互联互通的神经中枢,其作用类似于互联网领域的域名解析系统DNS。
工业互联网标识解析体系的核心包括标识编码、标识解析系统和标识数据服务。其中:
1.标识编码:是机器、物品的身份证;
2.标识解析系统:利用标识,对机器和物品进行唯一性的定位和信息查询,是实现全球供应链系统和企业生产系统的精准对接、产品的全生命周期管理和智能化服务的前提和基础;
3.标识数据服务:能够借助标识编码资源和标识解析系统开展工业标识数据管理和跨企业、跨行业、跨地区、跨国家的数据共享共用。
根据《工业和信息化部办公厅关于推动工业互联网加快发展的通知》的要求,我国面向垂直行业新建20个以上标识解析二级节点,新增标识注册量20亿,拓展网络化标识覆盖范围,进一步增强网络基础资源支撑能力。
随着标识解析发展越来越快,地位越来越重要,迫切需要一种技术手段,能够基于流量数据,识别标识解析资产,从而为进一步分析标识解析的行为、安全风险提供基础支撑。现有技术对流量的识别可以解析流量的四元组信息,流量的内容,但是并不能自动区分流量是来自工业互联网的标识流量还是传统互联网的网络流量。
现有技术
全球存在多种标识解析体系,主要包括Handle体系、OID体系、Ecode体系等。以Handle体系中的标识编码86.1000/ac.qd.1024为例,86代表中国,1000代表企业编码、ac代表产品编码、qd代表地域编码、1024是产品序列号。其他标识体系也有自己的标识编码规则。标识的前缀特征包括:地区码、企业码、产品码、地域码和产品序列号。
贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。为此,就衍生出许多降低独立性假设的贝叶斯分类算法,如TAN算法。
发明内容
鉴于现有技术的不足,本发明提供的一种识别标识解析流量的系统及方法由特征采集模块、流量解析器、已分类流量采集模块、字频计算器、标识流量概率计算器和未分类流量采集器组成;特征采集模块由标识前缀特征采集模块、标识行为特征采集模块、标识解析特征采集模块和贝叶斯归集模块组成;已分类流量采集模块由标识流量采集器和非标识流量采集器组成;字频计算器由标识流量集字频计算器和非标识流量集字频计算器组成;
特征采集模块的标识前缀特征采集模块负责通过爬虫脚本针对标识解析相关权威网站搜集标识前缀特征,标识的前缀特征由地区码字符串加企业码字符串加产品码字符串加地域码字符串加产品序列号字符串组成;标识前缀特征所包含的字符串根据标识体系的区别有前后顺序的区别,标识前缀特征采集模块对标识前缀特征所包含的字符串不做前后顺序的要求,标识前缀特征采集模块适合采集所有标识体系的标识前缀特征;
特征采集模块的标识行为特征采集模块负责通过爬虫脚本爬取行业权威的标识管理网站,搜集标识解析的行为特征和网络地址特征;标识行为特征包括:注册字符串、更新字符串、删除字符串、查询字符串和解析字符串;
由特征采集模块的标识解析特征采集模块通过标识相关管理系统获取标识解析顶级节点、二级节点对应的IP地址库,形成标识IP特征库;
由特征采集模块的贝叶斯归集模块根据贝叶斯算法对标识前缀特征、标识行为特征和网络地址特征和标识IP特征库进行贝叶斯归集,生成已归集的特征库;
特征采集模块负责完成已归集的特征库并保持已归集特征库的更新;
已分类流量采集模块的标识流量采集器负责采集已经分类为标识流量的网络流量,生成已分类标识流量并发送给流量解析器;
已分类流量采集模块的非标识流量采集器负责采集已分类为非标识流量的网络流量,生成已分类非标识流量并发送给流量解析器;
流量解析器负责将已分类标识流量解析为已分类标识流量字符串的集合,并将已分类标识流量字符串的集合发送给标识流量集字频计算器;
流量解析器负责将已分类非标识流量解析为已分类非标识流量字符串的集合,并将已分类非标识流量字符串的集合发送给非标识流量集字频计算器;
字频计算器负责加载已归集的特征库,由标识流量集字频计算器计算已分类标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率,并将已分类标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率进行复合频率计算,生成标识流量集字频指数;由非标识流量集字频计算器计算已分类非标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率,并将已分类非标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率进行复合频率计算,生成非标识流量集字频指数;
由标识流量概率计算器根据标识流量集字频指数和非标识流量集字频指数计算标识流量阈值,标识流量阈值的计算的方法包括取标识流量集字频指数和非标识流量集字频指数的中间值;
由未分类流量采集器采集未分类网络流量,由流量解析器将未分类网络流量解析成未分类网络流量字符串的集合,由标识流量概率计算器加载已归集的特征库计算未分类网络流量字符串的集合中的每个字符串在已归集的特征库中的出现频率,并将未分类网络流量字符串的集合中的每个字符串在已归集的特征库中的出现频率进行复合频率计算,生成未分类网络流量集字频指数,由标识流量概率计算器比较未分类网络流量集字频指数和标识流量阈值,当未分类网络流量集字频指数大于等于标识流量阈值时,标识流量概率计算器标注由未分类流量采集器采集的未分类网络流量为标识网络流量。
有益效果
本发明通过特征采集模块自动化生成标识流量的已归集的特征库,通过计算标识流量和非标识流量中的已归集特征库中出现的字符串的字频形成标识流量指数和非标识流量指数,从而找到判定流量是否是标识流量的阈值,本发明的实施可以解决网络流量不能自动判定是否是工业互联网流量的问题,易于推广和实施。
附图说明
图1是本发明的系统结构图。
具体实施方式
参看图1实现本发明提供的一种识别标识解析流量的系统及方法由特征采集模块A、流量解析器B、已分类流量采集模块C、字频计算器D、标识流量概率计算器E和未分类流量采集器F组成;特征采集模块A由标识前缀特征采集模块11、标识行为特征采集模块12、标识解析特征采集模块13和贝叶斯归集模块14组成;已分类流量采集模块C由标识流量采集器31和非标识流量采集器32组成;字频计算器D由标识流量集字频计算器41和非标识流量集字频计算器42组成;
特征采集模块A的标识前缀特征采集模11块负责通过爬虫脚本针对标识解析相关权威网站搜集标识前缀特征,标识的前缀特征由地区码字符串加企业码字符串加产品码字符串加地域码字符串加产品序列号字符串组成;标识前缀特征所包含的字符串根据标识体系的区别有前后顺序的区别,标识前缀特征采集模块11对标识前缀特征所包含的字符串不做前后顺序的要求,标识前缀特征采集模块11适合采集所有标识体系的标识前缀特征;
特征采集模块A的标识行为特征采集模块12负责通过爬虫脚本爬取行业权威的标识管理网站,搜集标识解析的行为特征和网络地址特征;标识行为特征包括:注册字符串、更新字符串、删除字符串、查询字符串和解析字符串;
由特征采集模块A的标识解析特征采集模块13通过标识相关管理系统获取标识解析顶级节点、二级节点对应的IP地址库,形成标识IP特征库;
由特征采集模块A的贝叶斯归集模块14根据贝叶斯算法对标识前缀特征、标识行为特征和网络地址特征和标识IP特征库进行贝叶斯归集,生成已归集的特征库10;
特征采集模块A责完成已归集的特征库10并保持已归集特征库10的更新;
已分类流量采集模块C的标识流量采集器31负责采集已经分类为标识流量的网络流量,生成已分类标识流量并发送给流量解析器B;
已分类流量采集模块C的非标识流量采集器32负责采集已分类为非标识流量的网络流量,生成已分类非标识流量并发送给流量解析器B;
流量解析器B负责将已分类标识流量解析为已分类标识流量字符串的集合,并将已分类标识流量字符串的集合发送给标识流量集字频计算器41;
流量解析器B负责将已分类非标识流量解析为已分类非标识流量字符串的集合,并将已分类非标识流量字符串的集合发送给非标识流量集字频计算器42;
字频计算器D负责加载已归集的特征库10,由标识流量集字频计算器41计算已分类标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率,并将已分类标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率进行复合频率计算,生成标识流量集字频指数;由非标识流量集字频计算器42计算已分类非标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率,并将已分类非标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率进行复合频率计算,生成非标识流量集字频指数;
由标识流量概率计算器E根据标识流量集字频指数和非标识流量集字频指数计算标识流量阈值,标识流量阈值的计算的方法包括取标识流量集字频指数和非标识流量集字频指数的中间值;
由未分类流量采集器F采集未分类网络流量,由流量解析器B将未分类网络流量解析成未分类网络流量字符串的集合,由标识流量概率计算器E加载已归集的特征库10计算未分类网络流量字符串的集合中的每个字符串在已归集的特征库中的出现频率,并将未分类网络流量字符串的集合中的每个字符串在已归集的特征库中的出现频率进行复合频率计算,生成未分类网络流量集字频指数,由标识流量概率计算器E比较未分类网络流量集字频指数和标识流量阈值,当未分类网络流量集字频指数大于等于标识流量阈值时,标识流量概率计算器E标注由未分类流量采集器F采集的未分类网络流量为标识网络流量。

Claims (1)

1.一种识别标识解析流量的系统,其特征在于由特征采集模块、流量解析器、已分类流量采集模块、字频计算器、标识流量概率计算器和未分类流量采集器组成;特征采集模块由标识前缀特征采集模块、标识行为特征采集模块、标识解析特征采集模块和贝叶斯归集模块组成;已分类流量采集模块由标识流量采集器和非标识流量采集器组成;字频计算器由标识流量集字频计算器和非标识流量集字频计算器组成;
特征采集模块的标识前缀特征采集模块负责通过爬虫脚本针对标识解析相关权威网站搜集标识前缀特征,标识的前缀特征由地区码字符串加企业码字符串加产品码字符串加地域码字符串加产品序列号字符串组成;标识前缀特征所包含的字符串根据标识体系的区别有前后顺序的区别,标识前缀特征采集模块对标识前缀特征所包含的字符串不做前后顺序的要求,标识前缀特征采集模块适合采集所有标识体系的标识前缀特征;
特征采集模块的标识行为特征采集模块负责通过爬虫脚本爬取行业权威的标识管理网站,搜集标识解析的行为特征和网络地址特征;标识行为特征包括:注册字符串、更新字符串、删除字符串、查询字符串和解析字符串;
由特征采集模块的标识解析特征采集模块通过标识相关管理系统获取标识解析顶级节点、二级节点对应的IP地址库,形成标识IP特征库;
由特征采集模块的贝叶斯归集模块根据贝叶斯算法对标识前缀特征、标识行为特征和网络地址特征和标识IP特征库进行贝叶斯归集,生成已归集的特征库;
特征采集模块负责完成已归集的特征库并保持已归集特征库的更新;
已分类流量采集模块的标识流量采集器负责采集已经分类为标识流量的网络流量,生成已分类标识流量并发送给流量解析器;
已分类流量采集模块的非标识流量采集器负责采集已分类为非标识流量的网络流量,生成已分类非标识流量并发送给流量解析器;
流量解析器负责将已分类标识流量解析为已分类标识流量字符串的集合,并将已分类标识流量字符串的集合发送给标识流量集字频计算器;
流量解析器负责将已分类非标识流量解析为已分类非标识流量字符串的集合,并将已分类非标识流量字符串的集合发送给非标识流量集字频计算器;
字频计算器负责加载已归集的特征库,由标识流量集字频计算器计算已分类标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率,并将已分类标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率进行复合频率计算,生成标识流量集字频指数;由非标识流量集字频计算器计算已分类非标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率,并将已分类非标识流量字符串的集合中的每个字符串在已归集的特征库中的出现频率进行复合频率计算,生成非标识流量集字频指数;
由标识流量概率计算器根据标识流量集字频指数和非标识流量集字频指数计算标识流量阈值,标识流量阈值的计算的方法包括取标识流量集字频指数和非标识流量集字频指数的中间值;
由未分类流量采集器采集未分类网络流量,由流量解析器将未分类网络流量解析成未分类网络流量字符串的集合,由标识流量概率计算器加载已归集的特征库计算未分类网络流量字符串的集合中的每个字符串在已归集的特征库中的出现频率,并将未分类网络流量字符串的集合中的每个字符串在已归集的特征库中的出现频率进行复合频率计算,生成未分类网络流量集字频指数,由标识流量概率计算器比较未分类网络流量集字频指数和标识流量阈值,当未分类网络流量集字频指数大于等于标识流量阈值时,标识流量概率计算器标注由未分类流量采集器采集的未分类网络流量为标识网络流量。
CN202010282816.3A 2020-04-13 2020-04-13 一种识别标识解析流量的系统及方法 Active CN111581475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010282816.3A CN111581475B (zh) 2020-04-13 2020-04-13 一种识别标识解析流量的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010282816.3A CN111581475B (zh) 2020-04-13 2020-04-13 一种识别标识解析流量的系统及方法

Publications (2)

Publication Number Publication Date
CN111581475A true CN111581475A (zh) 2020-08-25
CN111581475B CN111581475B (zh) 2022-06-28

Family

ID=72122783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010282816.3A Active CN111581475B (zh) 2020-04-13 2020-04-13 一种识别标识解析流量的系统及方法

Country Status (1)

Country Link
CN (1) CN111581475B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778683A (zh) * 2021-09-14 2021-12-10 码客工场工业科技(北京)有限公司 一种基于神经网络的Handle标识体系解析负载均衡方法
CN116708356A (zh) * 2023-08-02 2023-09-05 苏州迈科网络安全技术股份有限公司 Ip特征库生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104022920A (zh) * 2014-06-26 2014-09-03 重庆重邮汇测通信技术有限公司 一种lte网络流量识别系统及方法
CN104333461A (zh) * 2014-10-24 2015-02-04 深圳市傲天通信有限公司 互联网应用流量识别方法、系统及识别装置
KR101624075B1 (ko) * 2015-02-12 2016-05-25 한국과학기술원 P2P Botnet 탐지를 위한 적응가변형 침입 탐지 시스템의 방식 및 장치
CN108712447A (zh) * 2018-06-27 2018-10-26 金卡智能集团股份有限公司 一种适配于工业流量计的数据采集解析板及方法
CN109600317A (zh) * 2018-11-25 2019-04-09 北京亚鸿世纪科技发展有限公司 一种自动识别流量并提取应用规则的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104022920A (zh) * 2014-06-26 2014-09-03 重庆重邮汇测通信技术有限公司 一种lte网络流量识别系统及方法
CN104333461A (zh) * 2014-10-24 2015-02-04 深圳市傲天通信有限公司 互联网应用流量识别方法、系统及识别装置
KR101624075B1 (ko) * 2015-02-12 2016-05-25 한국과학기술원 P2P Botnet 탐지를 위한 적응가변형 침입 탐지 시스템의 방식 및 장치
CN108712447A (zh) * 2018-06-27 2018-10-26 金卡智能集团股份有限公司 一种适配于工业流量计的数据采集解析板及方法
CN109600317A (zh) * 2018-11-25 2019-04-09 北京亚鸿世纪科技发展有限公司 一种自动识别流量并提取应用规则的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任飞: "面向内容网络移动性管理及移动缓存技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778683A (zh) * 2021-09-14 2021-12-10 码客工场工业科技(北京)有限公司 一种基于神经网络的Handle标识体系解析负载均衡方法
CN113778683B (zh) * 2021-09-14 2024-05-28 码客工场工业科技(北京)有限公司 一种基于神经网络的Handle标识体系解析负载均衡方法
CN116708356A (zh) * 2023-08-02 2023-09-05 苏州迈科网络安全技术股份有限公司 Ip特征库生成方法
CN116708356B (zh) * 2023-08-02 2023-11-14 苏州迈科网络安全技术股份有限公司 Ip特征库生成方法

Also Published As

Publication number Publication date
CN111581475B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
WO2022134794A1 (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
CN110990585B (zh) 构建行业知识图谱的多源数据和时间序列处理方法及装置
US20170053031A1 (en) Information forecast and acquisition method based on webpage link parameter analysis
CN111581475B (zh) 一种识别标识解析流量的系统及方法
CN109359186B (zh) 一种确定地址信息的方法、装置和计算机可读存储介质
CN105376193B (zh) 安全事件的智能关联分析方法与装置
CN104699835A (zh) 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN110648172B (zh) 一种融合多种移动设备的身份识别方法和系统
CN105471670A (zh) 流量数据分类方法及装置
CN104618132A (zh) 一种应用程序识别规则生成方法和装置
Li et al. Street-Level Landmarks Acquisition Based on SVM Classifiers.
CN107465643A (zh) 一种深度学习的网络流量分类方法
CN113706100B (zh) 配电网物联终端设备实时探测识别方法与系统
CN116132263B (zh) 告警解决方案推荐方法、装置、电子设备及存储介质
CN113205134A (zh) 一种网络安全态势预测方法及系统
CN106446720B (zh) Ids规则的优化系统及优化方法
CN107493275A (zh) 异构网络安全日志信息的自适应提取和分析方法及系统
WO2024139862A1 (zh) 一种基于聚类分析的域名滥用检测方法及系统
CN116911959B (zh) 一种建材非标准件的数据处理方法
CN113645238A (zh) 一种面向Handle标识体系的DDoS防御方法
CN105677723A (zh) 一种用于工业信号源的数据标签建立与检索方法
CN112084095A (zh) 基于区块链的能源网联监控方法、系统及存储介质
CN109918638B (zh) 一种网络数据监测方法
Korzeniowski et al. Discovering interactions between applications with log analysis
CN111444254B (zh) 一种skl系统文件格式转换方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant