CN113660237B - 一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器 - Google Patents
一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器 Download PDFInfo
- Publication number
- CN113660237B CN113660237B CN202110912014.0A CN202110912014A CN113660237B CN 113660237 B CN113660237 B CN 113660237B CN 202110912014 A CN202110912014 A CN 202110912014A CN 113660237 B CN113660237 B CN 113660237B
- Authority
- CN
- China
- Prior art keywords
- data
- window
- current
- information entropy
- flow rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器,采用动态滑动窗口模型来选取有限个数据,对分类模型进行实时更新,充分考虑过期数据和近期数据对整个数据流分类效果的影响,并引入信息熵检测当前分类模型是否发生概念漂移,若判断出发生了概念漂移则及时更新分类模型,反之模型将不会被更新。这样动态地更新窗口大小并通过对比信息熵变化的做法可以防止因模型频繁更新,减少建立模型消耗的时间,提高了工业互联网中检测异常和发现异常的速度。
Description
技术领域
本发明涉及工业互联网安全领域,具体地涉及一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器。
背景技术
最近几年,传统工业控制系统和互联网、云平台逐渐连接起来,构成了工业互联网平台。工业互联网平台将现场设备、生产物料、网络系统连接成一个整体的系统,实现了工业数据的动态采集和实时分析,用智能控制替换原来的人为操作,提高了工厂生产的效率,是工业生产布局的新方向。
在大数据环境下,工业互联网的访问信息和操作日志数量呈爆炸式增长,入侵检测技术面临的数据呈现出海量、高速、多样性等特点。工业互联网中产生的动态数据流相对于静态数据集,其特点是无法实现一次性完全获取,而是以流动的形式持续不断的产生和运输,数据流是大量持续到达的、潜在数量无限的有序数据序列,这些数据及其摘要信息按照顺序到达,并且只能被读取一次或限次。但这样也导致入侵检测系统在大数据环境下存在着一些问题,例如数据规模大导致数据挖掘算法效率低下,对高速网络的流量数据适应能力有限。在分析处理动态数据流时,用有限样本建立的数据挖掘模型不能很好地适应数据变化。而可利用的观察样本有限,意味着信息获取相对不足,因而用有限样本建立的数据挖掘模型,可能会在处理新数据时消耗过多的计算资源进行模型更新。
所以如何在观察样本有限的情况下,提高数据挖掘模型对动态数据流的适应能力,控制模型的计算资源开销是亟需解决的问题。
发明内容
本发明目的在于克服目前基于异常的数据流分类方法存在的一些缺陷,提出一种基于滑动窗口的数据流异常检测方法,能够有效提升数据流检测结果的准确性,以适应数据流异常检测的需求。
一方面,本发明提出了一种基于动态滑动窗口的数据流异常检测方法,所述方法包括:
S100、捕获动态数据流;
S200、初始化参数;
S300、更新滑动窗口长度;
S400、根据当前窗口内的数据建立聚类模型:以决策树算法作为聚类模型的算法;
S500、判断是否发生概念漂移:若是,则继续更新滑动窗口长度,若否,则通过聚类模型得出当前数据的检测结果,判断是否为异常数据。
具体的,所述初始化参数包括初始窗口大小,初始窗口内的平均流速,规定窗口大小调节因子。
具体的,S300具体包括:根据当前数据流速和窗口内已有数据的平均流速更新窗口偏移量,若当前数据流速过快,则将窗口长度加大;若当前数据流速过慢,则将窗口长度减小。
具体的,所述窗口偏移量的更新公式为:
其中vi为当前新输入的数据的流速,v表示当前窗口内数据的平均流速,σ为窗口大小调节因子。
具体的,所述概念漂移具体的判断如下:设定滑动窗口固定长度为W,获取窗口内的W个数据,通过KD树将W个数据分成N个向量,计算当前新到的数据信息熵和窗口内所有数据的平均信息熵;若当前数据的信息熵大于窗口内所有数据的平均信息熵,则发生概念漂移,调整窗口大小;若当前数据的信息熵小于或等于于窗口内所有数据的平均信息熵,则插入新数据,删除旧数据,重新计算。
另一方面,本发明还提供一种存储器,用于存储软件,其中,所述软件用于执行上述的方法。
另一方面,本发明还提供一种处理器,用于执行软件,其中,所述软件用于执行上述方法。
与现有技术相比,本发明所提供的一种基于动态滑动窗口的工业互联网数据流异常检测方法,通过引入动态滑动窗口对工业互联网端采集的数据流进行转化,将动态数据流转化为静态数据集,从而进行分类分析。而后本文引入信息熵的概念对整个滑动窗口内的信息进行评估,检测当前的分类模型是否发生概念偏移,及时决定更新分类模型,提高了模型的稳定性和鲁棒性,
附图说明
图1本发明基于动态滑动窗口的异常检测流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,提供了一种基于动态滑动窗口的数据流异常检测方法,所述方法包括:
S100、捕获动态数据流;
S200、初始化参数;
S300、更新滑动窗口长度;
S400、根据当前窗口内的数据建立聚类模型:以决策树算法作为聚类模型的算法;
S500、判断是否发生概念漂移:若是,则继续更新滑动窗口长度,若否,则通过聚类模型得出当前数据的检测结果,判断是否为异常数据。
本发明将动态滑动窗口技术与入侵检测技术相结合,通过分析源源不断到到来的网络数据,不断调整和更新异常检测系统,提高入侵检测技术面对海量数据时的适应性和稳定性,并充分考虑了过期数据和近期数据对整个数据流分类效果的影响,有效地消除传统数据流分析建立的模型的复杂性和不确定性,增强检测过程的智能性。
上述方法具体包括:
工业互联网数据的收集包括捕获网络分流器、流量探针等安全设备产生的数据,并根据输入规则过滤网络上的数据流,获取符合条件的数据包,建立数量流采集模型。由于工业互联网数据流具有大量持续到达、潜在数量无限的特点,所建立的模型必须具有稳定性和鲁棒性,能够适应工业互联网复杂的数据流变化特点。
具体的,使用滑动窗口法,将动态数据流转化为静态数据集。
初始化参数主要指的是初始窗口大小W,计算初始窗口内的平均流速,规定窗口大小调节因子σ,并设定好后面要用到的决策树分类模型的部分参数。假设捕获的数据流表示为X={x1,x2,x3...},序列具有无限长的特点。设置滑动窗口固定长度为W,其大小固定且需提取人为设定。窗口偏移量Δw,初始值为0。滑动窗口的实际长度为TW=W+Δw。在数据流中截取最近达到的TW个数据转化为静态数据集,即此时的数据集为X={x1,x2,x3...xTW}。
Δw的更新公式为:
其中vi为当前新输入的数据的流速,v表示当前窗口内数据的平均流速,σ为窗口大小调节因子。
更新滑动窗口长度,根据当前新来的数据流速和窗口内已有数据的平均流速的对比,实时更新窗口大小,其实际意义可以阐述为:若当前数据的流速过快,即数据到达的速度过快,则需要将窗口长度加大,为后面的分类模型留出时间,以免漏掉重要信息;若当前数据的流速过慢,则窗口中以后的数据已经经过处理,需要减小窗口大小,剔除已经分析过的数据。
具体的,根据所述的窗口内的数据建立分类模型,针对数据流的特点,本发明选取决策树算法作为构建分类模型的算法,其具有易于理解和解释,能够可视化分析,容易提取出规则等特点,适合数据流异常检测这种对检测精度要求不高、检测速率有要求的场景。通过窗口内已有数据建立起的分类模型去检测即将到来的数据,分析这些数据是否是异常数据。
具体的,判断上一步中建立的分类模型是否发生概念漂移(概念漂移指的是目标变量的统计特性随着时间的推移以不可预见的方式变化的现象,随着时间的推移,模型的预测精度将降低。在数据流分析中,必须考虑概念漂移):获取窗口内现存的数据,通过KD树将其划分成与数据维度数量相同的向量块,计算这些向量块整体的平均信息熵,通过与新来的数据的信息熵进行对比,判断是否发生概念漂移。如果发生概念漂移,则需要更新窗口大小,重新统计窗口内的数据,进而更新分类模型;若没有发生概念漂移,则利用目前的模型继续对数据流不断到来的数据进行分类检测,判断是否是异常数据。
通过建立KD树,将窗口内的数据转化为向量块D={d1,d2,...dn},KD树的建立过程可以简述为:所有非叶子节点可以视作用一个超平面把空间分割成两个半空间。节点左边的子树代表在超平面左边的点,节点右边的子树代利用信息熵的思想,计算每个向量块内的数据的信息熵,求出平均信息熵H(x),其计算公式为:
其中,Ent(di)是KD树中每个向量块的信息熵,计算公式为:
计算当前新来的数据的信息熵H(x),比较当前窗口内的平均信息熵和新到的信息熵,判断是否对分类模型进行更新。数据的信息熵表示的数据的不确定程度,如新来的数据的信息熵大于当前窗口内的平均信息熵,则根据公式更新窗口长度。反之,窗口长度不变。
具体的,在对数据异常检测之后,统计数据中包含的异常行为类型,对这些不同的异常类型进行标记,并对异常数据进行排查,如发现确实是异常,则进行修复和处理,同时更新网络运维记录表(包括网络数据异常类型、最后出现时间、异常原因、维修情况等信息)。
根据本发明的第二个方面,提供一种存储器,用于存储软件,其中,所述软件用于执行上述的方法。
根据本发明的第三个方面,提供一种处理器,用于执行软件,其中,所述软件用于执行上述方法。
需要说明的是,上述软件执行的数据安全共享方法与前面介绍的数据安全共享方法相同,在此不再赘述。
在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (4)
1.一种基于动态滑动窗口的数据流异常检测方法,其特征在于,该方法包括:
S100、捕获动态数据流;
S200、初始化参数,所述初始化参数包括初始窗口大小,初始窗口内的平均流速,规定窗口大小调节因子;
S300、更新滑动窗口长度,包括根据当前数据流速和窗口内已有数据的平均流速更新窗口偏移量,若当前数据流速过快,则将窗口长度加大;若当前数据流速过慢,则将窗口长度减小;所述窗口偏移量的更新公式为:
其中vi为当前新输入的数据的流速,v表示当前窗口内数据的平均流速,σ为窗口大小调节因子;
S400、根据当前窗口内的数据建立聚类模型:以决策树算法作为聚类模型的算法;
S500、判断是否发生概念漂移:若是,则继续更新滑动窗口长度,若否,则通过聚类模型得出当前数据的检测结果,判断是否为异常数据。
2.根据权利要求1所述的方法,其特征在于,所述概念漂移具体的判断如下:设定滑动窗口固定长度为W,获取窗口内的W个数据,通过KD树将W个数据分成N个向量,计算当前新到的数据信息熵和窗口内所有数据的平均信息熵;若当前数据的信息熵大于窗口内所有数据的平均信息熵,则发生概念漂移,调整窗口大小;若当前数据的信息熵小于或等于于窗口内所有数据的平均信息熵,则插入新数据,删除旧数据,重新计算。
3.一种存储器,其特征在于,用于存储软件,其中,所述软件用于执行权利要求1至2中任一项所述的方法。
4.一种处理器,其特征在于,用于执行软件,其中,所述软件用于执行权利要求1至2中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912014.0A CN113660237B (zh) | 2021-08-10 | 2021-08-10 | 一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912014.0A CN113660237B (zh) | 2021-08-10 | 2021-08-10 | 一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113660237A CN113660237A (zh) | 2021-11-16 |
CN113660237B true CN113660237B (zh) | 2023-04-07 |
Family
ID=78491059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110912014.0A Active CN113660237B (zh) | 2021-08-10 | 2021-08-10 | 一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113660237B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12013747B2 (en) | 2022-08-10 | 2024-06-18 | International Business Machines Corporation | Dynamic window-size selection for anomaly detection |
CN117591987B (zh) * | 2024-01-18 | 2024-04-26 | 北京国旺盛源智能终端科技有限公司 | 一种基于人工智能的用电设备监测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2642692A1 (en) * | 2012-03-20 | 2013-09-25 | Alcatel Lucent | Monitoring of a communication device over time |
CN105024946A (zh) * | 2015-06-16 | 2015-11-04 | 清华大学 | 一种基于滑动窗口的带宽分配方法、装置和系统 |
CN105979603A (zh) * | 2016-06-24 | 2016-09-28 | 贵州宇鹏科技有限责任公司 | 基于TD-LTE技术面向信流QoS保证的无人机上行链路调度方法 |
CN107231348A (zh) * | 2017-05-17 | 2017-10-03 | 桂林电子科技大学 | 一种基于相对熵理论的网络流量异常检测方法 |
CN108392208A (zh) * | 2018-02-23 | 2018-08-14 | 大同公元三九八智慧养老服务有限公司 | 一种基于多阶段模型的跌倒判断方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103618651B (zh) * | 2013-12-11 | 2017-03-29 | 上海电机学院 | 一种基于信息熵和滑动窗口的网络异常检测方法及系统 |
CN106934035B (zh) * | 2017-03-14 | 2019-06-14 | 合肥工业大学 | 一种基于类与特征分布的多标签数据流中概念漂移检测方法 |
CN109376803A (zh) * | 2018-12-19 | 2019-02-22 | 佛山科学技术学院 | 基于模糊复集值积分的多神经网络分类器融合方法及装置 |
CN113366473A (zh) * | 2019-02-15 | 2021-09-07 | 华为技术有限公司 | 用于自动选择用于数据流时间序列预测的模型的方法和系统 |
CN110008388A (zh) * | 2019-03-27 | 2019-07-12 | 东北大学 | 一种基于决策树的流数据分类方法 |
CN110119948B (zh) * | 2019-04-22 | 2020-12-08 | 山东大学 | 基于时变权重动态组合的电力用户信用评价方法及系统 |
CN110445726A (zh) * | 2019-08-16 | 2019-11-12 | 山东浪潮人工智能研究院有限公司 | 一种基于信息熵的自适应网络流概念漂移检测方法 |
CN111768620A (zh) * | 2020-06-17 | 2020-10-13 | 浙大城市学院 | 一种基于窗口划分以及形变聚类的道路异常检测方法 |
-
2021
- 2021-08-10 CN CN202110912014.0A patent/CN113660237B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2642692A1 (en) * | 2012-03-20 | 2013-09-25 | Alcatel Lucent | Monitoring of a communication device over time |
CN105024946A (zh) * | 2015-06-16 | 2015-11-04 | 清华大学 | 一种基于滑动窗口的带宽分配方法、装置和系统 |
CN105979603A (zh) * | 2016-06-24 | 2016-09-28 | 贵州宇鹏科技有限责任公司 | 基于TD-LTE技术面向信流QoS保证的无人机上行链路调度方法 |
CN107231348A (zh) * | 2017-05-17 | 2017-10-03 | 桂林电子科技大学 | 一种基于相对熵理论的网络流量异常检测方法 |
CN108392208A (zh) * | 2018-02-23 | 2018-08-14 | 大同公元三九八智慧养老服务有限公司 | 一种基于多阶段模型的跌倒判断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113660237A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113660237B (zh) | 一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器 | |
US11694094B2 (en) | Inferring digital twins from captured data | |
US20150261886A1 (en) | Adaptive sampling schemes for clustering streaming graphs | |
CN111191767B (zh) | 一种基于向量化的恶意流量攻击类型的判断方法 | |
CN109086291B (zh) | 一种基于MapReduce的并行异常检测方法及系统 | |
CN107786388B (zh) | 一种基于大规模网络流数据的异常检测系统 | |
CN110991311A (zh) | 一种基于密集连接深度网络的目标检测方法 | |
CN111368887B (zh) | 雷雨天气预测模型的训练方法及雷雨天气预测方法 | |
CN110659658B (zh) | 一种目标检测方法及其装置 | |
CN113361645A (zh) | 基于元学习及知识记忆的目标检测模型构建方法及系统 | |
CN113821480B (zh) | 链接mix文件筛选方法、装置、网盘及存储介质 | |
US10467538B2 (en) | Link de-noising in a network | |
CN109978017B (zh) | 难样本采样方法和系统 | |
CN110969645A (zh) | 面向拥挤场景的无监督异常轨迹检测方法和装置 | |
CN109286622B (zh) | 一种基于学习规则集的网络入侵检测方法 | |
CN112988892B (zh) | 一种分布式系统热点数据的管理方法 | |
CN114283306A (zh) | 一种工业控制网络异常检测方法及系统 | |
CN112860303B (zh) | 一种模型增量更新的方法及系统 | |
JP2021507398A (ja) | 情報処理装置、方法、およびプログラム | |
CN110770753B (zh) | 高维数据实时分析的装置和方法 | |
CN114299012A (zh) | 一种基于卷积神经网络的物体表面缺陷检测方法及系统 | |
CN115348190A (zh) | 一种物联网设备检测方法、系统和设备 | |
CN113095237B (zh) | 一种复杂环境下目标检测方法 | |
CN114861858A (zh) | 一种路面异常数据检测方法、装置、设备及可读存储介质 | |
CN112200052B (zh) | 轨迹偏移识别、车辆行驶分析方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |