CN111478904A - 一种基于概念漂移的物联网设备通信异常检测方法及装置 - Google Patents
一种基于概念漂移的物联网设备通信异常检测方法及装置 Download PDFInfo
- Publication number
- CN111478904A CN111478904A CN202010270017.4A CN202010270017A CN111478904A CN 111478904 A CN111478904 A CN 111478904A CN 202010270017 A CN202010270017 A CN 202010270017A CN 111478904 A CN111478904 A CN 111478904A
- Authority
- CN
- China
- Prior art keywords
- communication
- data
- model
- internet
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种基于概念漂移的物联网设备通信异常检测方法,涉及机器学习领域,包括:首先,获取物联网设备之间的通信数据;然后,根据时间戳,划分初始样本集的时间区间;基于权重求解各个时间区间所需要的采样数量,采样获得平衡样本集,并将平衡样本集分成训练数据集和测试数据集STe;然后,通过LSTM对训练集进行训练,待模型收敛,然后以测试集对模型进行验证;最后,当模型的验证结果为有效时,将实时采集的实时通信数据输入模型,预测实时通信数据所处的通信状态。本发明通过对原始数据进行数值化处理,并根据时间戳对数据进行分层采样获得样本,经LSTM训练获得多分类的预测模型,并对物联网设备的通信状态进行预测。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种基于概念漂移的物联网设备通信异常检测方法及装置。
背景技术
物联网技术的广泛使用导致大量通信数据的积累而没有及时处理,这对智慧城市构成了潜在威胁。如何有效利用这些数据进行异常检测已成为越来越受欢迎的研究领域,因为它是智慧城市服务的基本组成部分。
物联网环境中异常的原始数据会随着时间变化而生成大量流数据。因此,分类方法不仅要对概念漂移的发生有较高的适应性,而且还需要对最新数据做出早期判断,以灵敏地调整异常检测方法。然而,当前大多数异常检测方法被应用于静态数据,该静态数据不能本质上适应流数据的概念漂移。
发明内容
有鉴于现有技术的缺陷,本发明所要解决的技术问题是提供一种基于概念漂移的物联网设备通信异常检测方法,旨在通过对通信数据进行分层加权采样,弱化物联网系统的概念漂移现象的影响,提高物联网通信状态预测的准确性。
为实现上述目的,本发明提供一种基于概念漂移的物联网设备通信异常检测方法,包括:
步骤S1、获取物联网设备之间的通信数据,利用字典映射,将所述通信数据中的所述通信状态转化为数值;所述通信数据包括时间戳、所述通信状态;所述通信状态包括:正常通信和异常通信;所述异常通信包括:DoS攻击、恶意扫描、恶意控制、恶意操作、间谍、数据探测、错误设置类;其中,所述正常通信=1,异常通信=2,3,…,J;
步骤S2、根据各条所述通信数据的所述时间戳,将初始样本集划分至多个时间区间;基于权重Wi求解各个时间区间所需要的区间采样量Aci,采样获得总采样量为Ac的平衡样本集;其中,所述i为所述时间区间的编号,i=1,2,...,I,所述编号越小,则所述时间区间越靠近当前时间,Wi≥Wi+1,Ai为各个所述时间区间的初始样本量,As为初始样本集的总样本量,
步骤S3、将所述平衡样本集分成训练数据集STr和测试数据集STe;
步骤S4、通过LSTM对训练集STr中的数据进行建模,待模型收敛,然后以测试集STe对所述模型进行验证;
步骤S5、当所述模型的验证结果为有效时,将物联网设备实际运行过程中实时采集的实时通信数据输入所述模型,预测所述实时通信数据处于任一所述通信状态的概率,响应于所述实时通信数据处于某一所述通信状态的概率大于预定值时,输出所述通信数据所对应的所述通信状态。
在该技术方案中,通过对原始数据进行数值化处理,并根据时间戳对数据进行分层采样获得样本,经LSTM训练获得多分类的预测模型,并对物联网设备的通信状态进行预测。在该技术方案中,通过对原始数据进行分层加权采样,减弱概念漂移的影响,提高物联网设备通信状态的预测精度;
在一具体实施例中,所述训练数据集的训练样本数量占所述平衡样本集的75%-85%,所述测试数据集的测试样本数量占所述平衡样本集的15%-25%。
在一具体实施例中,在所述步骤S4中,采用Adam优化器和RMSprop优化器,通过随机梯度下降法最小化交叉熵损失进行参数估计,直到模型收敛。
在一具体实施例中,所述LSTM的参数设置包括:设置学习速率为0.001、设置隐含层为6层,设置神经元的数量为50个。
基于该技术方案,能够有效地获得较高准确率的多分类下的通信状态异常检测,多个通信异常之间也能够得到较好的区分。
在一具体实施例中,所述步骤S4还包括:
将所述测试集STe中的各条数据输入所述模型进行验证;
在本发明的第二方面,提供一种基于概念漂移的物联网设备通信异常检测装置,包括:
数据采集模块,用于获取物联网设备之间的通信数据,利用字典映射,将所述通信数据中的所述通信状态转化为数值;所述通信数据包括时间戳、所述通信状态;所述通信状态包括:正常通信和异常通信;所述异常通信包括:DoS攻击、恶意扫描、恶意控制、恶意操作、间谍、数据探测、错误设置类;其中,所述正常通信=1,异常通信=2,3,…,J;
样本处理模块,用于根据各条所述通信数据的所述时间戳,将初始样本集划分至多个时间区间;基于权重Wi求解各个时间区间所需要的区间采样量Aci,采样获得总采样量为Ac的平衡样本集;其中,所述i为所述时间区间的编号,i=1,2,...,I,所述编号越小,则所述时间区间越靠近当前时间,Wi≥Wi+1,Ai为各个所述时间区间的初始样本量,As为初始样本集的总样本量,
数据分类模块,用于将所述平衡样本集分成训练数据集STr和测试数据集STe;
模型构建模块,用于通过LSTM对训练集STr中的数据进行建模,待模型收敛,然后以测试集STe对所述模型进行验证;
模型预测模块,用于当所述模型的验证结果为有效时,将物联网设备实际运行过程中实时采集的实时通信数据输入所述模型,预测所述实时通信数据处于任一所述通信状态的概率,响应于所述实时通信数据处于某一所述通信状态的概率大于预定值时,输出所述通信数据所对应的所述通信状态。
在一具体实施例中,所述训练数据集的训练样本数量占所述平衡样本集的75%-85%,所述测试数据集的测试样本数量占所述平衡样本集的15%-25%。
在一具体实施例中,所述模型构建模块包括Adam优化器和RMSprop优化器,用于通过随机梯度下降法最小化交叉熵损失进行参数估计,直到模型收敛。
在一具体实施例中,所述LSTM的参数设置包括:设置学习速率为0.001、设置隐含层为6层,设置神经元的数量为50个。
在一具体实施例中,所述模型构建模块,还包括:
准确率求解单元,用于将所述测试集STe中的各条数据输入所述模型进行验证,计算所述模型的准确率ARSRA;所述准确率所述Mj为在所述测试集STe中各个所述通信状态所对应的所述通信数据的被准确预测的数量。
本发明的有益效果是:1)、在本发明中,通过对原始数据进行数值化处理,并根据时间戳对数据进行分层采样获得样本,经LSTM训练获得多分类的预测模型,并对物联网设备的通信状态进行预测;2)、本发明通过对原始数据进行分层加权采样,减弱概念漂移的影响,提高物联网设备通信状态的预测精度;3)、本发明能够有效地获得较高准确率的多分类下的通信状态异常检测,多个通信异常之间也能够得到较好的区分;4)、在本发明中,通过准确率的求解判断,能够有效评价在多分类情况下的通信状态判断。
附图说明
图1是智能家居设备联网示意图;
图2是本发明一具体实施方式中提供的一种基于概念漂移的物联网设备通信异常检测方法的流程示意图;
图3是本发明一具体实施例中LSTM不同模式的正确率比较图;
图4是本发明一具体实施例中LSTM不同模式的查准率比较图;
图5是本发明一具体实施例中LSTM不同模式的查全率比较图;
图6是本发明一具体实施例中超参数优化的准确性图;
图7是本发明一具体实施例中不同方法的指标均值图;
图8是本发明一具体实施例中智能化性能曲线图;
图9是本发明一具体实施例中提供的一种基于概念漂移的物联网设备通信异常检测装置的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
以智能家居为例,它是智能城市的重要组成部分。智能家居通信数据该场景的实际数据属于流数据。与静态数据不同,流数据中常见的特定问题是随着时间的推移异常检测的准确性较低,这是由广泛的概念漂移现象引起的。
近年来,随着物联网的飞速发展,智慧城市和智能家居中都有大量的物联网设备。这些设备经常相互通信,以在物联网环境中为智能家居提供良好的QoS。在物联网环境中,不同物联网设备之间存在不断的流量流,这可能导致通信中出现严重问题,例如DoS攻击,恶意扫描,恶意控制,恶意操作,间谍,数据探测和错误设置。这些异常可能会导致严重的危险,并随时会破坏通信的正常运行。这些潜在危险使物联网通信处于不安全状态。因此,对于智能城市中的良好QoS进行监视和检测非常重要。为了解决上述异常检测问题,本发明集中在智能家庭中利用流数据进行不同设备之间的通信问题。
如图1-8所示,它是智能家居中不同设备的典型部署结构,包括移动终端手机、路由器、照明、空调、电视、洗衣机、冰箱、健身器械、门。手机是一种关键设备,用户花费大量时间进行某些服务的通信。另一个关键设备是路由器,它是控制和存储中心,用于调节所有智能设备的通信和操作。其他属于独立设备,这些设备将经常与手机和路由器通信。因此,与其他智能设备相比,移动电话和路由器都更可能引起异常。如果手机或路由器出现异常,则整个智能家居环境都会崩溃。只要智能家居处于运行状态,所有通信信息都将以日志形式存储在路由器中。通信完成后,很容易判断通信是否异常。如果异常,我们可以确定它属于哪种异常。因此,我们可以轻松地收集对应通信信息和状态的原始数据,以用于智能家居中的异常检测。
通过智能家居中各种智能设备之间的通信收集的原始数据;值得一提的是,这些设备可能属于不同类型,每种类型可能具有多个实体。一旦发生通讯,我们可以找到一个指示来判断通讯状态是否异常。此外,由于存在各种异常,我们在获得异常通信后也可以区分异常的类型。
在本发明第一实施例提供的一种基于概念漂移的物联网设备通信异常检测方法,包括:
步骤S1、获取物联网设备之间的通信数据,利用字典映射,将所述通信数据中的所述通信状态转化为数值;所述通信数据包括时间戳、所述通信状态;所述通信状态包括:正常通信和异常通信;所述异常通信包括:DoS攻击、恶意扫描、恶意控制、恶意操作、间谍、数据探测、错误设置类;其中,所述正常通信=1,异常通信=2,3,…,J;
值得一提的是,经过处理后,我们实验的数据集主要包含代表智能家居智能家电的不同物联网设备之间的通信信息,如手机、路由器,以及照明控制器、空调、电视、洗衣机、冰箱、跑步机传感器、智能门等。沟通信息的功能包括资源的ID号是由物联网环境的设备,的地址资源,资源的类型,资源的位置,交流的目的服务地址,目的地的地址,目标服务的类型、时间戳等。同时,状态标签表示通信是否正常。通信状态主要分为正常和异常两部分。
原始数据集包含350,000条记录,其中有将近340,000条记录是正常的。其余记录为异常,可细分为DoS攻击、恶意扫描、恶意控制、恶意操作、间谍、数据探测、错误设置类。
智能家居中物联网设备之间的通信信息是否正常是一个迫切的需求。其目的不仅是检测异常通信,而且是对异常所属的具体类别进行准确分类。
对于标签设置,如表1所示,类别1表示正常状态,其他表示异常状态。具体来说,异常状态可以分为七类。根据表1所示的真实数据集,这些类别可以根据出现的频率从2到8进行描述。一般来说,物联网环境中通信信息最重要的问题就是检测异常状态。针对智能家居中的七种异常状态,对它们进行更具体的分类,有助于相关异常检测解决方案的制定。
表1、通信数据与数值字典映射关系
通信状态 | 正常 | DoS攻击 | 恶意扫描 | 恶意控制 | 恶意操作 | 间谍 | 数据探测 | 错误设置类 |
Value | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
在这样的智能家居工作场景中,一系列原始数据具有连续、大、快速和连续的一些显着特征。所有这些特征中最重要的共同属性是原始数据具有称为时间戳的功能。对于智能家居中的异常检测,准确性会随着时间的推移而受到负面影响,这意味着最新数据比旧数据更有价值。一般来说,在这种情况下如何获得更高的精度不仅需要一种有效的异常检测方法,而且还需要适当的改进以减弱概念漂移的负面影响。
考虑到概念漂移对侦探性能的影响,迫切需要准确检测异常。因为预测分析和侦探分类中的概念漂移代表一种现象,即状态的统计属性会随时间以不可预测的方式频繁变化。这意味着在检测过程中,最新数据可能比旧数据更具影响力。如果我们不采用适当有效的概念漂移自适应方法来检测下一条记录的分类,检测精度将明显下降。
步骤S2、根据各条所述通信数据的所述时间戳,将初始样本集划分至多个时间区间;基于权重Wi求解各个时间区间所需要的区间采样量Aci,采样获得总采样量为Ac的平衡样本集;其中,所述i为所述时间区间的编号,i=1,2,...,I,所述编号越小,则所述时间区间越靠近当前时间,Wi≥Wi+1,Ai为各个所述时间区间的初始样本量,As为初始样本集的总样本量,
值得一提的是,在智能家居中的IoT环境的场景中,带有时间戳功能的异常检测问题的流数据将一直生成。对于生成的数据,正常数据量总是比异常数据大得多,这意味着原始数据集是不平衡的。为了避免可能导致数据集不平衡的长尾效应,有必要应用一种数据采样方法将不平衡数据集处理为平衡数据集。在本实施例中,采用分层采样方法以获得良好的性能。即根据时间戳功能,可以将这种情况下的原始数据集划分为不同的层,并从这些不同的层中提取平衡数据集的样本。从而确保平衡数据集样本分配与原始数据集的一致性可以显着提高检测精度。
尽管普通的分层抽样方法在某些情况下可以有效且广泛地工作,但对于存在概念漂移现象的问题,这些方法似乎无能为力。因此,在本实施例中,设置权重以便对分层抽样的各层采样数量进行调整,以便减弱概念漂移现象的影响分层抽样方法。具体而言,在概念漂移方面,最近的数据更具说服力,我们采用了一系列自适应权重来强调每个时间间隔的重要性。即,数据越新,权重就越高。对于时间序列数据,每个时间间隔的权重由Wi表示,i为采样层好;通过为时间戳设置权重的措施,增加最近数据的影响,并减少旧数据的影响。
步骤S3、将所述平衡样本集分成训练数据集STr和测试数据集STe;
步骤S4、通过LSTM对训练集STr中的数据进行建模,待模型收敛,然后以测试集STe对所述模型进行验证;
众所周知,神经网络的设计是一个很大的挑战,因为神经网络的性能受到很多超参数的影响,而这些超参数主要依赖于设计者丰富的经验。在设计高效的神经网络结构时,考虑超参数及其对应的层次如下。
L1:隐藏层神经元的数量
在神经网络方面,隐含层神经元的数量对性能有很大的影响。为了使最终处理得到的数据量最大化,我们尝试使神经元的数量可以精确地除以训练数据的数量。因此,隐藏层的代表性大小分别设置为50和100。
L2:隐藏层的数量
第二个需要考虑的超参数是隐藏层的数量,这也是非常重要的。隐藏层的代表性数量设置为5到9。神经网络越深,神经网络的能力越强。然而,如果网络有太多的层,则可能导致过度拟合。
L3:激活功能
利用激活函数加入非线性因子,解决了线性函数不能解决的问题。其中一个激活函数Relu因其在深度学习中的突出表现而得到了广泛的应用。除了Relu函数外,所提出的软连接是一种光滑函数。其作用曲线平滑,与人脑神经元的激活功能有许多相似之处。因此,我们在实验中选择了Relu和Softlink进行多分类。
L4:优化器
利用优化器来加速深度学习的训练过程。多分类问题常用的两种优化器是RMSprop和Adam优化器。总的来说,Adam优化器的效率更高,而RMSprop的执行更准确。因此,RMSprop和Adam优化器都被考虑在实验中。
L5:学习速度
学习率决定了神经网络参数更新的广度。如果设定的学习速率过小,则需要进行更多的迭代以达到收敛。然而,过大的学习率会导致错过最优性能。因此,我们考虑了0.0001、0.0005和0.001这三种具有代表性的学习率,它们看起来比较合适,但不会增加太多的运行时间。
基于上述说明,上述超参数对神经网络的性能有综合影响,不能单独考虑。然后通过各种实验来寻找最合适的超参数。毫无疑问,性能最佳的超参数集对于异常检测是相对合适的。
步骤S5、当所述模型的验证结果为有效时,将物联网设备实际运行过程中实时采集的实时通信数据输入所述模型,预测所述实时通信数据处于任一所述通信状态的概率,响应于所述实时通信数据处于某一所述通信状态的概率大于预定值时,输出所述通信数据所对应的所述通信状态。
将上述方法结合起来,训练得到的平衡数据进行异常检测,并计算我们提出的方法的指标是否有效。但是,在原始数据集中有一个名为timestamp的特殊特性。由于概念漂移现象,导致智能设备之间的通信状态随时间发生变化。提出一种能够减弱概念漂移影响的方法是一个复杂而困难的问题。由于概念漂移的类型很多,我们首先应该分析在原始数据集的时间轴上存在哪种类型的概念漂移。在本实验中,我们通过检测原始数据集中的一段时间周期,发现概念漂移类型是渐变类型。
证明我们的小说概念漂移的自适应方法的有效性,我们进行各种实验和平衡数据集处理我们的概念漂移自适应(CDA)方法,分层抽样方法命名SS和随机抽样方法命名RS。为了避免复杂的这一部分,我们选择最典型和普遍的参数设置0.001学习速率和50个神经元的分类基于二进制的正常和异常状态的分类。对于激活函数,我们选择最合适的激活函数进行二分类,以满足我们方法的有效性。实验中可能存在不确定因素的5-9个隐含层的RMSprop和Adam优化器优化器的结果分别基于正确率、精确率和查全率的指标比较。
如图3-5所示,三种方法处理的平衡数据集在异常检测的准确性、精密度和查全率方面存在明显差异。Adam优化器和RMSprop优化器均表明CDA的各项指标均高于SS和RS,同时CDA的性能更加稳定和稳健。这些结果表明,我们提出的新的概念漂移自适应方法在异常检测中比其他现有方法更有效,这意味着CDA可以减弱概念漂移的负面影响,在一定程度上有利于异常检测性能。
在智能家居异常检测场景中,异常状态的检测是一个迫切的需求。如果能够有效且持续地检测到异常状态,则更进一步的要求是对异常状态进行更具体的分类,以满足其他相关异常检测解决方案的参考。因此,本文提出了一种基于正常状态和异常状态二分类的基于CDA处理的平衡数据集的异常多分类方法。
分类结果受LSTM超参数影响较大,这意味着超参数相当重要,不能忽略。而多分类问题要比二元分类复杂得多,超参数的微小差异对异常多分类性能有很大的影响。虽然本部分采用网格搜索方法可以分析不同参数的多种可能组合,但我们通过各种实验,尝试用相关超参数来探索最佳结果。此外,为了评价我们提出的基于LSTM的异常多分类方法的良好性能,我们对高精度目标进行了几次比较,可以作为代表性标准,如图6所示。
准确性是在不存在长尾效应的情况下寻找最优超参数的最具说服力和实用性的指标。如图6所示,对于不同的超参数,可以获得较好的异常多分类性能。事实上,我们承认,当学习速率设置为0.001时,具有6个隐藏层的50个神经元出现了最高的准确率,而优化器对准确率没有明显的影响。所提出的软连接的激活函数比Relu具有更好的稳定性和鲁棒性。但值得注意的是,当隐含层数大于6时,异常多分类的大部分准确率下降。这说明异常多分类遇到了过拟合问题,应尽量避免。具体来说,当学习速率、隐含层和神经元分别为0.001、6和50时,RMSprop优化器和Softlink激活的最高准确率超过98%。如此高的准确率,可以证明基于LSTM的异常多分类训练有素,并取得了有效的检测结果。
从图6的实验结果可以清楚地看出,我们的异常检测方法对于CDA处理的平衡数据集,实现了异常多分类的高精度。在异常检测领域,其准确率虽然具有很强的说服力,但对于基于智能家居特定场景的异常检测性能具有具体的、实用的局限性。其中,异常的查全率和查准率对异常的二分类多分类也有很大的影响。此外,一些遗漏的异常可能会对整个物联网环境造成无法弥补的损害。因此,异常数漏检率的召回应该比一般的精度更为重要和值得注意。但是,异常的查全率和查准率并不能解释各种类型异常的情况,现有的方法可能检测到正确的异常状态,但具体分类可能是错误的。该案例判断错误,影响后续异常解决过程。因此,在名为ARSRA的权利异常分类中,权利特异性分类的正确率完全可以体现出二元分类的解释和联系,这对于评价各种异常多分类方法的有效性是非常有价值的。
此外,为了保证这些结果的真实性和可用性,我们通过十次实验的测试来计算平均值,可以证明这些结果不是偶然得到的。如图7所示,不同多分类方法检测异常的平均实验结果是基于RMSprop优化器的最佳参数设置、Softlink激活函数、0.001的学习率、8个隐含层和50个神经元。
因此,在图7中,除了准确率和异常准确率以及更重要的异常回忆外,RSRAA还实现了我们提出的多分类方法的非常高和有效的性能。同时,对同一数据集进行了其他典型的广泛使用的多分类方法的实验,所有指标的平均值都低于我们提出的方法。这一结果表明,我们的研究对于物联网环境中的异常检测和特定的异常多分类是非常有效的。
图8(a)为交叉熵损失曲线,图8(b)为精度曲线。从图8(a)中可以明显看出,所有的方法都符合神经网络的通用检测规则,LSTM方法的收敛性比其他神经网络好得多,证明了本文提出的方法对时间序列数据有更好的拟合能力。同时,图8(b)显示了与精度评价指标相似的结果,其中LSTM法的精度最高。此外,LSTM方法的训练过程并没有持续很长时间,当该方法出现8次迭代后的最佳性能时。
在本实施例中,所述训练数据集的训练样本数量占所述平衡样本集的75%-85%,所述测试数据集的测试样本数量占所述平衡样本集的15%-25%。
在本实施例中,在所述步骤S4中,采用Adam优化器和RMSprop优化器,通过随机梯度下降法最小化交叉熵损失进行参数估计,直到模型收敛。
在本实施例中,所述LSTM的参数设置包括:设置学习速率为0.001、设置隐含层为6层,设置神经元的数量为50个。
具体来说,当学习速率、隐含层和神经元分别为0.001、6和50时,RMSprop优化器和Softlink激活的最高准确率超过98%。如此高的准确率,绝对可以证明基于LSTM的异常多分类训练有素,并取得了有效的检测结果。
此外,为了获得模型准确率,所述步骤S4还包括:
将所述测试集STe中的各条数据输入所述模型进行验证;
如图9所示,在本发明的第二实施例中,提供一种基于概念漂移的物联网设备通信异常检测装置,包括:
数据采集模块100,用于获取物联网设备之间的通信数据,利用字典映射,将所述通信数据中的所述通信状态转化为数值;所述通信数据包括时间戳、所述通信状态;所述通信状态包括:正常通信和异常通信;所述异常通信包括:DoS攻击、恶意扫描、恶意控制、恶意操作、间谍、数据探测、错误设置类;其中,所述正常通信=1,异常通信=2,3,…,J;
样本处理模块200,用于根据各条所述通信数据的所述时间戳,将初始样本集划分至多个时间区间;基于权重Wi求解各个时间区间所需要的区间采样量Aci,采样获得总采样量为Ac的平衡样本集;其中,所述i为所述时间区间的编号,i=1,2,...,I,所述编号越小,则所述时间区间越靠近当前时间,Wi≥Wi+1,Ai为各个所述时间区间的初始样本量,As为初始样本集的总样本量,
数据分类模块300,用于将所述平衡样本集分成训练数据集STr和测试数据集STe;
模型构建模块400,用于通过LSTM对训练集STr中的数据进行建模,待模型收敛,然后以测试集STe对所述模型进行验证;
模型预测模块500,用于当所述模型的验证结果为有效时,将物联网设备实际运行过程中实时采集的实时通信数据输入所述模型,预测所述实时通信数据处于任一所述通信状态的概率,响应于所述实时通信数据处于某一所述通信状态的概率大于预定值时,输出所述通信数据所对应的所述通信状态。
在本实施例中,所述训练数据集的训练样本数量占所述平衡样本集的75%-85%,所述测试数据集的测试样本数量占所述平衡样本集的15%-25%。
在本实施例中,所述模型构建模块包括Adam优化器和RMSprop优化器,用于通过随机梯度下降法最小化交叉熵损失进行参数估计,直到模型收敛。
在本实施例中,所述LSTM的参数设置包括:设置学习速率为0.001、设置隐含层为6层,设置神经元的数量为50个。
在本实施例中,所述模型构建模块,还包括:
准确率求解单元,用于将所述测试集STe中的各条数据输入所述模型进行验证,计算所述模型的准确率ARSRA;所述准确率所述Mj为在所述测试集STe中各个所述通信状态所对应的所述通信数据的被准确预测的数量。
除了上述正常状态和异常状态的数量外,还有一个困难的问题,即在真实数据集中,不平衡比率为34:1。这种不平衡的问题很可能会导致长尾效应。这意味着普通的异常检测方法无法有效地检测到特定环境中基于不平衡数据集的异常状态。因此,我们优先处理最迫切的需求,即将不平衡的数据集处理为正常和异常状态之间的平衡数据集。然后采用新的概念漂移自适应方法将原始数据集处理成一个平衡数据集,并将平衡数据集分为测试数据集(20%)和训练数据集(80%)。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于概念漂移的物联网设备通信异常检测方法,其特征在于,包括:
步骤S1、获取物联网设备之间的通信数据,利用字典映射,将所述通信数据中的所述通信状态转化为数值;所述通信数据包括时间戳、所述通信状态;所述通信状态包括:正常通信和异常通信;所述异常通信包括:DoS攻击、恶意扫描、恶意控制、恶意操作、间谍、数据探测、错误设置类;其中,所述正常通信=1,异常通信=2,3,…,J;
步骤S2、根据各条所述通信数据的所述时间戳,将初始样本集划分至多个时间区间;基于权重Wi求解各个时间区间所需要的区间采样量Aci,采样获得总采样量为Ac的平衡样本集;其中,所述i为所述时间区间的编号,i=1,2,...,I,所述编号越小,则所述时间区间越靠近当前时间,Wi≥Wi+1,Ai为各个所述时间区间的初始样本量,As为初始样本集的总样本量,
步骤S3、将所述平衡样本集分成训练数据集STr和测试数据集STe;
步骤S4、通过LSTM对训练集STr中的数据进行建模,待模型收敛,然后以测试集STe对所述模型进行验证;
步骤S5、当所述模型的验证结果为有效时,将物联网设备实际运行过程中实时采集的实时通信数据输入所述模型,预测所述实时通信数据处于任一所述通信状态的概率,响应于所述实时通信数据处于某一所述通信状态的概率大于预定值时,输出所述通信数据所对应的所述通信状态。
2.如权利要求1所述的一种基于概念漂移的物联网设备通信异常检测方法,其特征在于,所述训练数据集的训练样本数量占所述平衡样本集的75%-85%,所述测试数据集的测试样本数量占所述平衡样本集的15%-25%。
3.如权利要求1所述的一种基于概念漂移的物联网设备通信异常检测方法,其特征在于,在所述步骤S4中,采用Adam优化器和RMSprop优化器,通过随机梯度下降法最小化交叉熵损失进行参数估计,直到模型收敛。
4.如权利要求1所述的一种基于概念漂移的物联网设备通信异常检测方法,其特征在于,所述LSTM的参数设置包括:设置学习速率为0.001、设置隐含层为6层,设置神经元的数量为50个。
6.一种基于概念漂移的物联网设备通信异常检测装置,其特征在于,包括:
数据采集模块,用于获取物联网设备之间的通信数据,利用字典映射,将所述通信数据中的所述通信状态转化为数值;所述通信数据包括时间戳、所述通信状态;所述通信状态包括:正常通信和异常通信;所述异常通信包括:DoS攻击、恶意扫描、恶意控制、恶意操作、间谍、数据探测、错误设置类;其中,所述正常通信=1,异常通信=2,3,…,J;
样本处理模块,用于根据各条所述通信数据的所述时间戳,将初始样本集划分至多个时间区间;基于权重Wi求解各个时间区间所需要的区间采样量Aci,采样获得总采样量为Ac的平衡样本集;其中,所述i为所述时间区间的编号,i=1,2,...,I,所述编号越小,则所述时间区间越靠近当前时间,Wi≥Wi+1,Ai为各个所述时间区间的初始样本量,As为初始样本集的总样本量,
数据分类模块,用于将所述平衡样本集分成训练数据集STr和测试数据集STe;
模型构建模块,用于通过LSTM对训练集STr中的数据进行建模,待模型收敛,然后以测试集STe对所述模型进行验证;
模型预测模块,用于当所述模型的验证结果为有效时,将物联网设备实际运行过程中实时采集的实时通信数据输入所述模型,预测所述实时通信数据处于任一所述通信状态的概率,响应于所述实时通信数据处于某一所述通信状态的概率大于预定值时,输出所述通信数据所对应的所述通信状态。
7.如权利要求6所述的一种基于概念漂移的物联网设备通信异常检测装置,其特征在于,所述训练数据集的训练样本数量占所述平衡样本集的75%-85%,所述测试数据集的测试样本数量占所述平衡样本集的15%-25%。
8.如权利要求6所述的一种基于概念漂移的物联网设备通信异常检测装置,其特征在于,所述模型构建模块包括Adam优化器和RMSprop优化器,用于通过随机梯度下降法最小化交叉熵损失进行参数估计,直到模型收敛。
9.如权利要求6所述的一种基于概念漂移的物联网设备通信异常检测装置,其特征在于,所述LSTM的参数设置包括:设置学习速率为0.001、设置隐含层为6层,设置神经元的数量为50个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010270017.4A CN111478904B (zh) | 2020-04-08 | 2020-04-08 | 一种基于概念漂移的物联网设备通信异常检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010270017.4A CN111478904B (zh) | 2020-04-08 | 2020-04-08 | 一种基于概念漂移的物联网设备通信异常检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111478904A true CN111478904A (zh) | 2020-07-31 |
CN111478904B CN111478904B (zh) | 2022-05-03 |
Family
ID=71750043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010270017.4A Active CN111478904B (zh) | 2020-04-08 | 2020-04-08 | 一种基于概念漂移的物联网设备通信异常检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111478904B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966711A (zh) * | 2020-09-01 | 2020-11-20 | 杭州安恒信息技术股份有限公司 | 一种物联网设备入侵检测方法、装置、设备及存储介质 |
CN112131575A (zh) * | 2020-09-21 | 2020-12-25 | 北京理工大学 | 一种基于分类错误率和一致性预测的概念漂移检测方法 |
CN113938292A (zh) * | 2021-09-18 | 2022-01-14 | 西北工业大学 | 一种基于概念漂移的漏洞攻击流量检测方法及检测系统 |
CN114513328A (zh) * | 2021-12-31 | 2022-05-17 | 西安电子科技大学 | 基于概念漂移和深度学习的网络流量入侵检测方法 |
CN114819173A (zh) * | 2021-01-19 | 2022-07-29 | 中强光电股份有限公司 | 异常侦测装置和异常侦测方法 |
WO2023094916A1 (en) * | 2021-11-23 | 2023-06-01 | International Business Machines Corporation | Identifying persistent anomalies for failure prediction |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341497A (zh) * | 2016-11-11 | 2017-11-10 | 东北大学 | 结合选择性升采样的不均衡数据流加权集成分类预测方法 |
CN109194423A (zh) * | 2018-08-13 | 2019-01-11 | 中国人民解放军陆军工程大学 | 基于优化的长短期记忆模型的单频点频谱预测方法 |
CN109412900A (zh) * | 2018-12-04 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种网络状态识别的方法、模型训练的方法及装置 |
CN109829543A (zh) * | 2019-01-31 | 2019-05-31 | 中国科学院空间应用工程与技术中心 | 一种基于集成学习的数据流在线异常检测方法 |
CN110175247A (zh) * | 2019-03-13 | 2019-08-27 | 北京邮电大学 | 一种优化基于深度学习的异常检测模型的方法 |
CN110324316A (zh) * | 2019-05-31 | 2019-10-11 | 河南恩湃高科集团有限公司 | 一种基于多种机器学习算法的工控异常行为检测方法 |
CN110472817A (zh) * | 2019-07-03 | 2019-11-19 | 西北大学 | 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 |
US20190379589A1 (en) * | 2018-06-12 | 2019-12-12 | Ciena Corporation | Pattern detection in time-series data |
CN110865929A (zh) * | 2019-11-26 | 2020-03-06 | 携程旅游信息技术(上海)有限公司 | 异常检测预警方法及系统 |
-
2020
- 2020-04-08 CN CN202010270017.4A patent/CN111478904B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341497A (zh) * | 2016-11-11 | 2017-11-10 | 东北大学 | 结合选择性升采样的不均衡数据流加权集成分类预测方法 |
US20190379589A1 (en) * | 2018-06-12 | 2019-12-12 | Ciena Corporation | Pattern detection in time-series data |
CN109194423A (zh) * | 2018-08-13 | 2019-01-11 | 中国人民解放军陆军工程大学 | 基于优化的长短期记忆模型的单频点频谱预测方法 |
CN109412900A (zh) * | 2018-12-04 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种网络状态识别的方法、模型训练的方法及装置 |
CN109829543A (zh) * | 2019-01-31 | 2019-05-31 | 中国科学院空间应用工程与技术中心 | 一种基于集成学习的数据流在线异常检测方法 |
CN110175247A (zh) * | 2019-03-13 | 2019-08-27 | 北京邮电大学 | 一种优化基于深度学习的异常检测模型的方法 |
CN110324316A (zh) * | 2019-05-31 | 2019-10-11 | 河南恩湃高科集团有限公司 | 一种基于多种机器学习算法的工控异常行为检测方法 |
CN110472817A (zh) * | 2019-07-03 | 2019-11-19 | 西北大学 | 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 |
CN110865929A (zh) * | 2019-11-26 | 2020-03-06 | 携程旅游信息技术(上海)有限公司 | 异常检测预警方法及系统 |
Non-Patent Citations (3)
Title |
---|
MINGHUA MA;SHENGLIN ZHANG;DAN PEI;XIN HUANG;HONGWEI DAI: "Robust and Rapid Adaption for Concept Drift in Software System Anomaly Detection", 《2018 IEEE 29TH INTERNATIONAL SYMPOSIUM ON SOFTWARE RELIABILITY ENGINEERING (ISSRE)》 * |
SHUBIN SU;LIMIN XIAO;LI RUAN;FEI GU;SHUPAN LI;ZHAOKAI WANG;RONGB: "An Efficient Density-Based Local Outlier Detection Approach for Scattered Data", 《IEEE ACCESS》 * |
孟博,何旭东,王德军,刘加兵: "网络协议流量识别方法研究", 《郑州大学学报(理学版)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966711A (zh) * | 2020-09-01 | 2020-11-20 | 杭州安恒信息技术股份有限公司 | 一种物联网设备入侵检测方法、装置、设备及存储介质 |
CN112131575A (zh) * | 2020-09-21 | 2020-12-25 | 北京理工大学 | 一种基于分类错误率和一致性预测的概念漂移检测方法 |
CN112131575B (zh) * | 2020-09-21 | 2022-09-30 | 北京理工大学 | 一种基于分类错误率和一致性预测的概念漂移检测方法 |
CN114819173A (zh) * | 2021-01-19 | 2022-07-29 | 中强光电股份有限公司 | 异常侦测装置和异常侦测方法 |
CN113938292A (zh) * | 2021-09-18 | 2022-01-14 | 西北工业大学 | 一种基于概念漂移的漏洞攻击流量检测方法及检测系统 |
CN113938292B (zh) * | 2021-09-18 | 2024-01-19 | 西北工业大学 | 一种基于概念漂移的漏洞攻击流量检测方法及检测系统 |
WO2023094916A1 (en) * | 2021-11-23 | 2023-06-01 | International Business Machines Corporation | Identifying persistent anomalies for failure prediction |
CN114513328A (zh) * | 2021-12-31 | 2022-05-17 | 西安电子科技大学 | 基于概念漂移和深度学习的网络流量入侵检测方法 |
CN114513328B (zh) * | 2021-12-31 | 2023-02-10 | 西安电子科技大学 | 基于概念漂移和深度学习的网络流量入侵检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111478904B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111478904B (zh) | 一种基于概念漂移的物联网设备通信异常检测方法及装置 | |
CN110335168B (zh) | 基于gru优化用电信息采集终端故障预测模型的方法及系统 | |
CN116559598B (zh) | 一种智慧配电网故障定位方法及系统 | |
CN112069485A (zh) | 基于用户行为的安全处理方法、装置及设备 | |
CN105072214B (zh) | 基于域名特征的c&c域名识别方法 | |
CN106657160B (zh) | 面向大流量基于可信度的网络恶意行为检测方法 | |
CN108170695A (zh) | 一个基于信息熵的数据流自适应集成分类方法 | |
CN104967629A (zh) | 网络攻击检测方法及装置 | |
CN109389325B (zh) | 基于小波神经网络的变电站电子式互感器状态评估方法 | |
CN107579846B (zh) | 一种云计算故障数据检测方法及系统 | |
CN110533116A (zh) | 基于欧式距离的自适应集成的不平衡数据分类方法 | |
CN113645182B (zh) | 一种基于二次特征筛选的拒绝服务攻击随机森林检测方法 | |
CN110059714A (zh) | 基于多分类支持向量机的变压器故障诊断方法 | |
CN110188095A (zh) | 一种基于关联规则的电网设备数据流清洗方法 | |
CN111600878A (zh) | 一种基于maf-adm的低速率拒绝服务攻击检测方法 | |
CN106850658B (zh) | 实时在线学习的网络恶意行为检测方法 | |
CN116962093B (zh) | 基于云计算的信息传输安全性监测方法及系统 | |
CN114553756A (zh) | 基于联合生成对抗网络的设备故障检测方法与电子设备 | |
CN112291226B (zh) | 一种网络流量的异常检测方法及装置 | |
CN110650157B (zh) | 基于集成学习的Fast-flux域名检测方法 | |
CN112417446A (zh) | 一种软件定义网络异常检测架构 | |
CN116405261A (zh) | 基于深度学习的恶意流量检测方法、系统及存储介质 | |
Ádám et al. | Methods of the data mining and machine learning in computer security | |
CN112884069A (zh) | 一种对抗网络样本检测的方法 | |
CN117792933B (zh) | 一种基于深度学习的网络流量优化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |