CN110457702A - 基于高频词汇的物联网流量识别与数据提取系统 - Google Patents

基于高频词汇的物联网流量识别与数据提取系统 Download PDF

Info

Publication number
CN110457702A
CN110457702A CN201910739678.4A CN201910739678A CN110457702A CN 110457702 A CN110457702 A CN 110457702A CN 201910739678 A CN201910739678 A CN 201910739678A CN 110457702 A CN110457702 A CN 110457702A
Authority
CN
China
Prior art keywords
industry
text
words
feature
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910739678.4A
Other languages
English (en)
Other versions
CN110457702B (zh
Inventor
古元
蔡莎
林飞
唐威
华仲峰
王娜
毛华阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Asia Century Technology Development Co Ltd
Original Assignee
Beijing Asia Century Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Asia Century Technology Development Co Ltd filed Critical Beijing Asia Century Technology Development Co Ltd
Priority to CN201910739678.4A priority Critical patent/CN110457702B/zh
Publication of CN110457702A publication Critical patent/CN110457702A/zh
Application granted granted Critical
Publication of CN110457702B publication Critical patent/CN110457702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

基于高频词汇的物联网流量识别与数据提取系统涉及信息技术领域。本发明由行业分类器、网络爬虫、行业文本集、特征词生成器、词频分类器、行业及特征词集合、接入流量还原器、词库匹配算法组成。本发明可以快速高效的在海量网络流量中过滤出自己需要的工业互联网疑似特征流量;可以离线的通过第三方工具随时搜集规则特征词汇;可以用实时监控网络数据流量自动搜集规则特征词汇。

Description

基于高频词汇的物联网流量识别与数据提取系统
技术领域
本发明涉及信息技术领域。
背景技术
互联网革命即将到来,工业互联网的改革也是迫在眉睫。工业互联网作为新时代的信息技术与先进制造业深度融合的新业态,是成为主要工业国应对国际制作业竞争的共同选择,也是我国从“中国制造”走向“中国织造”的必然选择。
“工业互联网”和“工业4.0”是未来工业的发展方向,他们利用工业大数据和物联网提升工业生产力。工业互联网从传统的封闭性技术和数据局域网传输进入到物联网技术的工业生产中,各种各样的传感器部署再工业生产环境中,导致传统的工业开始面对海量数据的采集的问题。工业互联网的数据的存储,数据融合能力,扩展能力,通用性和灵活性欠缺的等问题。
工业互联网的OT资产与IT应用的更好的融合。必须IT要下沉,OT要上升,从各种系统流量而来的数据分析,可是目前看,工业互联网企业传统悠久,数据格式和接口各有不同,导致数据分析比较麻烦。工业互联网OT资产数据上升,导致数据会暴露在公网中,存在的数据安全性问题,确保数据安全就需要先对工业互联网流量进行精细识别分类,这样才能让有关监管部门进行监管和防护。
目前有一种方法是直接把工业互联网传统文本流量转换成流量特征图,将传统属性内关系研究转化到,从不同角度挖掘流量特征。然而基于这种方法的缺点:不能快速高效的在海量网络流量中过滤出工业互联网产生的流量;不能自动化收集流量规则特征;不能自动更新流量规则特征库。本技术可以快速高效的在海量网络流量中过滤出自己需要的工业互联网疑似特征流量;可以离线的通过第三方工具随时搜集规则特征词汇;可以用实时监控网络数据流量自动搜集规则特征词汇。
共有技术
用到TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。
发明内容
鉴于现有技术的不足,本发明的基于高频词汇的物联网流量识别与数据提取系统由行业分类器、网络爬虫、行业文本集、特征词生成器、词频分类器、行业及特征词集合、接入流量还原器、词库匹配算法组成;
由行业分类器对工业互联网进行行业分类;例如:汽车行业,水电行业,车联网行业,交通信息行业等;
通过网络爬虫针对各工业互联网行业的标准的权威网站搜集一些行业名词或术语;通过网络爬虫抓取工业互联网行业的网站内容并生成工业互联网站点为单位的行业文本集;
由特征词生成器读取行业文本集,生成行业文本对应的特征词,计算方法为找出行业文本的最长公共子序列,首先将两个字符串分别以行和列组成矩阵,然后计算每个节点行列字符是否相同,当字符相同时为1,通过找出值为1的最长对角线即可得到最长公共子串,找到行业文本包括的所有公共子序列,作为行业文本的特征词;对于行业文本的集合即行业文本集进行行业文本的特征词查重去除重叠特征词后的特征词集合,就是行业文本集的特征词集合;
由词频分类器读取行业文本集和行业文本集的特征词集合,计算行业文本集的特征词集合中属于该行业文本集的高频词,当属于该行业文本集的高频词在其他行业的行业文本集中占比小时,记录该行业文本集的高频词为该行业文本集的特征词;计算方法使用TF-IDF法;
由词频分类器将行业分类和该行业文本集的特征词组成行业及特征词集合;
由接入流量还原器对经过的网络流量进行文本还原,生成流量文本;
由词库匹配算法读取流量文本,并对流量文本进行最长公共子序列计算,并将计算结果与行业及特征词集合进行比对;当流量文本中的最长公共子序列与行业及特征词集合中的特征词一致时,标记该流量文本的来源为该行业的工业互联网流量,达到识别互联网中工业互联网流量的目的。
有益效果
可以快速高效的在海量网络流量中过滤出自己需要的工业互联网疑似特征流量;可以离线的通过第三方工具随时搜集规则特征词汇;可以用实时监控网络数据流量自动搜集规则特征词汇。
附图说明
图1是本发明的系统结构图。
具体实施方式
参看图1,本发明的基于高频词汇的物联网流量识别与数据提取系统由行业分类器1、网络爬虫2、行业文本集3、特征词生成器4、词频分类器5、行业及特征词集合6、接入流量还原器7、词库匹配算法8组成;
由行业分类器1对工业互联网进行行业分类;例如:汽车行业,水电行业,车联网行业,交通信息行业等;
通过网络爬虫2针对各工业互联网行业的标准的权威网站搜集一些行业名词或术语;通过网络爬虫2抓取工业互联网行业的网站内容并生成工业互联网站点为单位的行业文本集3;
由特征词生成器4读取行业文本集3,生成行业文本对应的特征词,计算方法为找出行业文本的最长公共子序列,首先将两个字符串分别以行和列组成矩阵,然后计算每个节点行列字符是否相同,当字符相同时为1,通过找出值为1的最长对角线即可得到最长公共子串,找到行业文本包括的所有公共子序列,作为行业文本的特征词;对于行业文本的集合即行业文本集3进行行业文本的特征词查重去除重叠特征词后的特征词集合,就是行业文本集的特征词集合;
由词频分类器5读取行业文本集3和行业文本集的特征词集合,计算行业文本集的特征词集合中属于该行业文本集3的高频词,当属于该行业文本集3的高频词在其他行业的行业文本集3中占比小时,记录该行业文本集3的高频词为该行业文本集3的特征词;计算方法使用TF-IDF法;
TF即特征词词频,是指一个行业文本中特征词出现的频率,比如在一个行业文本出现N个该特征词,则
TF=N/M,为该特征词在这篇行业文本的词频,M为行业文本总字数;
IDF指逆向文本频率,是用于衡量特征词权重的指数,由公式IDF=log(D/Dw),计算得,其中D为行业文本总数,Dw为特征词出现过的行业文本数;
举例:关键字k1,k2,k3进行搜索结果的相关性就变成TF1*IDF1 + TF2*IDF2 + TF3*IDF3;比如行业文本1的字数总量为1000,k1,k2,k3在行业文本1出现的次数是100,200,50;包含了 k1, k2, k3的行业文本总量分别是1000, 10000,5000;行业文本集中行业文本的总量为10000;
TF1 = 100/1000 = 0.1;
TF2 = 200/1000 = 0.2;
TF3 = 50/1000 = 0.05;
IDF1 = log(10000/1000) = log(10) = 2.3;
IDF2 = log(10000/100000) = log(1) = 0;
IDF3 = log(10000/5000) = log(2) = 0.69;
这样关键字k1,k2,k3与行业文本1的相关性= 0.1*2.3 + 0.2*0 + 0.05*0.69 =0.2645;
其中k1比k3的比重在行业文本1要大,k2的比重是0;
由词频分类器5将行业分类和该行业文本集3的特征词组成行业及特征词集合6;
由接入流量还原器7对经过的网络流量进行文本还原,生成流量文本;
由词库匹配算法8读取流量文本,并对流量文本进行最长公共子序列计算,并将计算结果与行业及特征词集合6进行比对;当流量文本中的最长公共子序列与行业及特征词集合6中的特征词一致时,标记该流量文本的来源为该行业的工业互联网流量,达到识别互联网中工业互联网流量的目的。

Claims (1)

1.基于高频词汇的物联网流量识别与数据提取系统,其特征在于由行业分类器、网络爬虫、行业文本集、特征词生成器、词频分类器、行业及特征词集合、接入流量还原器、词库匹配算法组成;
由行业分类器对工业互联网进行行业分类;例如:汽车行业,水电行业,车联网行业,交通信息行业等;
通过网络爬虫针对各工业互联网行业的标准的权威网站搜集一些行业名词或术语;通过网络爬虫抓取工业互联网行业的网站内容并生成工业互联网站点为单位的行业文本集;
由特征词生成器读取行业文本集,生成行业文本对应的特征词,计算方法为找出行业文本的最长公共子序列,首先将两个字符串分别以行和列组成矩阵,然后计算每个节点行列字符是否相同,当字符相同时为1,通过找出值为1的最长对角线即可得到最长公共子串,找到行业文本包括的所有公共子序列,作为行业文本的特征词;对于行业文本的集合即行业文本集进行行业文本的特征词查重去除重叠特征词后的特征词集合,就是行业文本集的特征词集合;
由词频分类器读取行业文本集和行业文本集的特征词集合,计算行业文本集的特征词集合中属于该行业文本集的高频词,当属于该行业文本集的高频词在其他行业的行业文本集中占比小时,记录该行业文本集的高频词为该行业文本集的特征词;计算方法使用TF-IDF法;
由词频分类器将行业分类和该行业文本集的特征词组成行业及特征词集合;
由接入流量还原器对经过的网络流量进行文本还原,生成流量文本;
由词库匹配算法读取流量文本,并对流量文本进行最长公共子序列计算,并将计算结果与行业及特征词集合进行比对;当流量文本中的最长公共子序列与行业及特征词集合中的特征词一致时,标记该流量文本的来源为该行业的工业互联网流量,达到识别互联网中工业互联网流量的目的。
CN201910739678.4A 2019-08-12 2019-08-12 基于高频词汇的物联网流量识别与数据提取系统 Active CN110457702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910739678.4A CN110457702B (zh) 2019-08-12 2019-08-12 基于高频词汇的物联网流量识别与数据提取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910739678.4A CN110457702B (zh) 2019-08-12 2019-08-12 基于高频词汇的物联网流量识别与数据提取系统

Publications (2)

Publication Number Publication Date
CN110457702A true CN110457702A (zh) 2019-11-15
CN110457702B CN110457702B (zh) 2023-06-06

Family

ID=68485901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910739678.4A Active CN110457702B (zh) 2019-08-12 2019-08-12 基于高频词汇的物联网流量识别与数据提取系统

Country Status (1)

Country Link
CN (1) CN110457702B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2172820A1 (de) * 2008-10-06 2010-04-07 Basf Se Verfahren und System zur automatisierten Analyse von Prozessdaten
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104391939A (zh) * 2014-11-24 2015-03-04 北京锐安科技有限公司 行业特征词确定方法和装置及行业文本聚类方法和服务器
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2172820A1 (de) * 2008-10-06 2010-04-07 Basf Se Verfahren und System zur automatisierten Analyse von Prozessdaten
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104391939A (zh) * 2014-11-24 2015-03-04 北京锐安科技有限公司 行业特征词确定方法和装置及行业文本聚类方法和服务器
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110457702B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN106570144A (zh) 推荐信息的方法和装置
Li et al. Safety risk monitoring of cyber-physical power systems based on ensemble learning algorithm
CN111538741B (zh) 一种面向警情大数据的深度学习分析方法及系统
CN106600115A (zh) 一种企业信息系统运维智能分析方法
Rizk et al. A computationally efficient multi-modal classification approach of disaster-related Twitter images
CN107517216A (zh) 一种网络安全事件关联方法
CN103577404A (zh) 一种面向微博的全新突发事件发现方法
CN108549647A (zh) 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN110377680B (zh) 基于网络爬虫和语义识别的山洪灾害数据库构建及更新的方法
CN114615063A (zh) 基于日志关联分析的攻击溯源方法及装置
CN103279476B (zh) 一种web应用系统敏感文字的检测方法及系统
CN107368516A (zh) 一种基于层次聚类的日志审计方法及装置
CN103744897A (zh) 故障信息的关联搜索方法、系统和网络管理系统
CN107070897A (zh) 入侵检测系统中基于多属性哈希去重的网络日志存储方法
CN113918725A (zh) 一种水务领域知识图谱的构建方法
CN109857869A (zh) 一种基于Ap增量聚类和网络基元的热点话题预测方法
CN103440308B (zh) 一种基于形式概念分析的数字论文检索方法
Wu et al. Identifying humanitarian information for emergency response by modeling the correlation and independence between text and images
Klein et al. Emergency event detection in twitter streams based on natural language processing
CN109271362A (zh) 一种基于区块链的数据处理系统
CN117829994A (zh) 一种基于图计算的洗钱风险分析方法
CN103501302A (zh) 一种蠕虫特征自动提取的方法及系统
CN109241361A (zh) 基于区块链的数据处理方法
Schulz et al. Evaluating multi-label classification of incident-related tweets
CN110457702A (zh) 基于高频词汇的物联网流量识别与数据提取系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant