CN110457702B - 基于高频词汇的物联网流量识别与数据提取系统 - Google Patents

基于高频词汇的物联网流量识别与数据提取系统 Download PDF

Info

Publication number
CN110457702B
CN110457702B CN201910739678.4A CN201910739678A CN110457702B CN 110457702 B CN110457702 B CN 110457702B CN 201910739678 A CN201910739678 A CN 201910739678A CN 110457702 B CN110457702 B CN 110457702B
Authority
CN
China
Prior art keywords
industry
text
word
feature
feature word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910739678.4A
Other languages
English (en)
Other versions
CN110457702A (zh
Inventor
古元
蔡莎
林飞
唐威
华仲峰
王娜
毛华阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Act Technology Development Co ltd
Original Assignee
Beijing Act Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Act Technology Development Co ltd filed Critical Beijing Act Technology Development Co ltd
Priority to CN201910739678.4A priority Critical patent/CN110457702B/zh
Publication of CN110457702A publication Critical patent/CN110457702A/zh
Application granted granted Critical
Publication of CN110457702B publication Critical patent/CN110457702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

基于高频词汇的物联网流量识别与数据提取系统涉及信息技术领域。本发明由行业分类器、网络爬虫、行业文本集、特征词生成器、词频分类器、行业及特征词集合、接入流量还原器、词库匹配算法组成。本发明可以快速高效的在海量网络流量中过滤出自己需要的工业互联网疑似特征流量;可以离线的通过第三方工具随时搜集规则特征词汇;可以用实时监控网络数据流量自动搜集规则特征词汇。

Description

基于高频词汇的物联网流量识别与数据提取系统
技术领域
本发明涉及信息技术领域。
背景技术
互联网革命即将到来,工业互联网的改革也是迫在眉睫。工业互联网作为新时代的信息技术与先进制造业深度融合的新业态,是成为主要工业国应对国际制作业竞争的共同选择,也是我国从“中国制造”走向“中国织造”的必然选择。
“工业互联网”和“工业4.0”是未来工业的发展方向,他们利用工业大数据和物联网提升工业生产力。工业互联网从传统的封闭性技术和数据局域网传输进入到物联网技术的工业生产中,各种各样的传感器部署再工业生产环境中,导致传统的工业开始面对海量数据的采集的问题。工业互联网的数据的存储,数据融合能力,扩展能力,通用性和灵活性欠缺的等问题。
工业互联网的OT资产与IT应用的更好的融合。必须IT要下沉,OT要上升,从各种系统流量而来的数据分析,可是目前看,工业互联网企业传统悠久,数据格式和接口各有不同,导致数据分析比较麻烦。工业互联网OT资产数据上升,导致数据会暴露在公网中,存在的数据安全性问题,确保数据安全就需要先对工业互联网流量进行精细识别分类,这样才能让有关监管部门进行监管和防护。
目前有一种方法是直接把工业互联网传统文本流量转换成流量特征图,将传统属性内关系研究转化到,从不同角度挖掘流量特征。然而基于这种方法的缺点:不能快速高效的在海量网络流量中过滤出工业互联网产生的流量;不能自动化收集流量规则特征;不能自动更新流量规则特征库。本技术可以快速高效的在海量网络流量中过滤出自己需要的工业互联网疑似特征流量;可以离线的通过第三方工具随时搜集规则特征词汇;可以用实时监控网络数据流量自动搜集规则特征词汇。
共有技术
用到TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。
发明内容
鉴于现有技术的不足,本发明的基于高频词汇的物联网流量识别与数据提取系统由行业分类器、网络爬虫模块、行业文本集模块、特征词生成器、词频分类器、行业及特征词集合模块、接入流量还原器、词库匹配算法模块组成;
由行业分类器对工业互联网进行行业分类;
通过网络爬虫模块针对各工业互联网行业的标准的权威网站搜集一些行业名词或术语;通过网络爬虫模块抓取工业互联网行业的网站内容并生成工业互联网站点为单位的行业文本集,行业文本集存储于行业文本集模块;
由特征词生成器读取行业文本集,生成行业文本对应的特征词,计算方法为找出行业文本的最长公共子序列,首先将两个字符串分别以行和列组成矩阵,然后计算每个节点行列字符是否相同,当字符相同时为1,通过找出值为1的最长对角线即可得到最长公共子串,找到行业文本包括的所有公共子序列,作为行业文本的特征词;对于行业文本的集合即行业文本集进行行业文本的特征词查重去除重叠特征词后的特征词集合,就是行业文本集的特征词集合;
由词频分类器读取行业文本集和行业文本集的特征词集合,计算行业文本集的特征词集合中属于该行业文本集的高频词,当属于该行业文本集的高频词在其他行业的行业文本集中占比小时,记录该行业文本集的高频词为该行业文本集的特征词;计算方法使用TF-IDF法;
由词频分类器将行业分类和该行业文本集的特征词组成行业及特征词集合,行业及特征词集合存储于行业及特征词集合模块;
由接入流量还原器对经过的网络流量进行文本还原,生成流量文本;
由词库匹配算法模块读取流量文本,并对流量文本进行最长公共子序列计算,并将计算结果与行业及特征词集合进行比对;当流量文本中的最长公共子序列与行业及特征词集合中的特征词一致时,标记该流量文本的来源为该行业的工业互联网流量,达到识别互联网中工业互联网流量的目的。
有益效果
可以快速高效的在海量网络流量中过滤出自己需要的工业互联网疑似特征流量;可以离线的通过第三方工具随时搜集规则特征词汇;可以用实时监控网络数据流量自动搜集规则特征词汇。
附图说明
图1是本发明的系统结构图。
实施方式
参看图1,本发明的基于高频词汇的物联网流量识别与数据提取系统由行业分类器1、网络爬虫模块2、行业文本集模块3、特征词生成器4、词频分类器5、行业及特征词集合模块6、接入流量还原器7、词库匹配算法模块8组成;
由行业分类器1对工业互联网进行行业分类;例如:汽车行业,水电行业,车联网行业,交通信息行业等;
通过网络爬虫模块2针对各工业互联网行业的标准的权威网站搜集一些行业名词或术语;通过网络爬虫模块2抓取工业互联网行业的网站内容并生成工业互联网站点为单位的行业文本集,行业文本集存储于行业文本集模块3;
由特征词生成器4读取行业文本集,生成行业文本对应的特征词,计算方法为找出行业文本的最长公共子序列,首先将两个字符串分别以行和列组成矩阵,然后计算每个节点行列字符是否相同,当字符相同时为1,通过找出值为1的最长对角线即可得到最长公共子串,找到行业文本包括的所有公共子序列,作为行业文本的特征词;对于行业文本的集合即行业文本集进行行业文本的特征词查重去除重叠特征词后的特征词集合,就是行业文本集的特征词集合;
由词频分类器5读取行业文本集和行业文本集的特征词集合,计算行业文本集的特征词集合中属于该行业文本集的高频词,当属于该行业文本集的高频词在其他行业的行业文本集中占比小时,记录该行业文本集的高频词为该行业文本集的特征词;计算方法使用TF-IDF法;
TF即特征词词频,是指一个行业文本中特征词出现的频率,比如在一个行业文本出现N个该特征词,则
TF=N/M,为该特征词在这篇行业文本的词频,M为行业文本总字数;
IDF指逆向文本频率,是用于衡量特征词权重的指数,由公式IDF=log(D/Dw),计算得,其中D为行业文本总数,Dw为特征词出现过的行业文本数;
举例:关键字k1,k2,k3进行搜索结果的相关性就变成TF1*IDF1 + TF2*IDF2 +TF3*IDF3;比如行业文本1的字数总量为1000,k1,k2,k3在行业文本1出现的次数是100,200,50;包含了 k1, k2, k3的行业文本总量分别是1000, 10000,5000;行业文本集中行业文本的总量为10000;
TF1 = 100/1000 = 0.1;
TF2 = 200/1000 = 0.2;
TF3 = 50/1000 = 0.05;
IDF1 = log(10000/1000) = log(10) = 2.3;
IDF2 = log(10000/100000) = log(1) = 0;
IDF3 = log(10000/5000) = log(2) = 0.69;
这样关键字k1,k2,k3与行业文本1的相关性= 0.1*2.3 + 0.2*0 + 0.05*0.69 =0.2645;
其中k1比k3的比重在行业文本1要大,k2的比重是0;
由词频分类器5将行业分类和该行业文本集的特征词组成行业及特征词集合,行业及特征词集合存储于行业及特征词集合模块6;
由接入流量还原器7对经过的网络流量进行文本还原,生成流量文本;
由词库匹配算法8读取流量文本,并对流量文本进行最长公共子序列计算,并将计算结果与行业及特征词集合进行比对;当流量文本中的最长公共子序列与行业及特征词集合中的特征词一致时,标记该流量文本的来源为该行业的工业互联网流量,达到识别互联网中工业互联网流量的目的。

Claims (1)

1.基于高频词汇的物联网流量识别与数据提取系统,其特征在于由行业分类器、网络爬虫模块、行业文本集模块、特征词生成器、词频分类器、行业及特征词集合模块、接入流量还原器、词库匹配算法模块组成;
由行业分类器对工业互联网进行行业分类;
通过网络爬虫模块针对各工业互联网行业的标准的权威网站搜集一些行业名词或术语;通过网络爬虫模块抓取工业互联网行业的网站内容并生成工业互联网站点为单位的行业文本集,行业文本集存储于行业文本集模块;
由特征词生成器读取行业文本集,生成行业文本对应的特征词,计算方法为找出行业文本的最长公共子序列,首先将两个字符串分别以行和列组成矩阵,然后计算每个节点行列字符是否相同,当字符相同时为1,通过找出值为1的最长对角线即可得到最长公共子串,找到行业文本包括的所有公共子序列,作为行业文本的特征词;对于行业文本的集合即行业文本集进行行业文本的特征词查重去除重叠特征词后的特征词集合,就是行业文本集的特征词集合;
由词频分类器读取行业文本集和行业文本集的特征词集合,计算行业文本集的特征词集合中属于该行业文本集的高频词,当属于该行业文本集的高频词在其他行业的行业文本集中占比小时,记录该行业文本集的高频词为该行业文本集的特征词;计算方法使用TF-IDF法;
由词频分类器将行业分类和该行业文本集的特征词组成行业及特征词集合,行业及特征词集合存储于行业及特征词集合模块;
由接入流量还原器对经过的网络流量进行文本还原,生成流量文本;
由词库匹配算法模块读取流量文本,并对流量文本进行最长公共子序列计算,并将计算结果与行业及特征词集合进行比对;当流量文本中的最长公共子序列与行业及特征词集合中的特征词一致时,标记该流量文本的来源为该行业的工业互联网流量,达到识别互联网中工业互联网流量的目的。
CN201910739678.4A 2019-08-12 2019-08-12 基于高频词汇的物联网流量识别与数据提取系统 Active CN110457702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910739678.4A CN110457702B (zh) 2019-08-12 2019-08-12 基于高频词汇的物联网流量识别与数据提取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910739678.4A CN110457702B (zh) 2019-08-12 2019-08-12 基于高频词汇的物联网流量识别与数据提取系统

Publications (2)

Publication Number Publication Date
CN110457702A CN110457702A (zh) 2019-11-15
CN110457702B true CN110457702B (zh) 2023-06-06

Family

ID=68485901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910739678.4A Active CN110457702B (zh) 2019-08-12 2019-08-12 基于高频词汇的物联网流量识别与数据提取系统

Country Status (1)

Country Link
CN (1) CN110457702B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2172820A1 (de) * 2008-10-06 2010-04-07 Basf Se Verfahren und System zur automatisierten Analyse von Prozessdaten
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104391939A (zh) * 2014-11-24 2015-03-04 北京锐安科技有限公司 行业特征词确定方法和装置及行业文本聚类方法和服务器
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2172820A1 (de) * 2008-10-06 2010-04-07 Basf Se Verfahren und System zur automatisierten Analyse von Prozessdaten
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104391939A (zh) * 2014-11-24 2015-03-04 北京锐安科技有限公司 行业特征词确定方法和装置及行业文本聚类方法和服务器
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110457702A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN102937960B (zh) 突发事件热点话题的识别与评估装置
CN108062484A (zh) 一种基于数据敏感特征和数据库元数据的分类分级方法
CN111538741B (zh) 一种面向警情大数据的深度学习分析方法及系统
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN111581355A (zh) 威胁情报的主题检测方法、装置和计算机存储介质
CN103049542A (zh) 一种面向领域的网络信息搜索方法
Du et al. Microblog bursty topic detection based on user relationship
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
Hu et al. Generating breakpoint-based timeline overview for news topic retrospection
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN109257383A (zh) 一种bgp异常检测方法及系统
Rahmadan et al. Sentiment analysis and topic modelling using the lda method related to the flood disaster in jakarta on twitter
CN107368516A (zh) 一种基于层次聚类的日志审计方法及装置
CN103279476A (zh) 一种web应用系统敏感文字的检测方法及系统
CN109857869A (zh) 一种基于Ap增量聚类和网络基元的热点话题预测方法
Cuzzocrea et al. DynamicNet: an effective and efficient algorithm for supporting community evolution detection in time-evolving information networks
CN111522950A (zh) 一种针对非结构化海量文本敏感数据的快速识别系统
Chen et al. Association mining of near misses in hydropower engineering construction based on convolutional neural network text classification
CN114528405A (zh) 一种基于网络突发热点的舆情监测方法
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及系统
CN110457702B (zh) 基于高频词汇的物联网流量识别与数据提取系统
Schulz et al. Evaluating multi-label classification of incident-related tweets
CN116881395A (zh) 一种舆情信息检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant