CN110086860B - 一种物联网大数据环境下的数据异常检测方法及装置 - Google Patents

一种物联网大数据环境下的数据异常检测方法及装置 Download PDF

Info

Publication number
CN110086860B
CN110086860B CN201910318526.7A CN201910318526A CN110086860B CN 110086860 B CN110086860 B CN 110086860B CN 201910318526 A CN201910318526 A CN 201910318526A CN 110086860 B CN110086860 B CN 110086860B
Authority
CN
China
Prior art keywords
context
neighborhood
equipment
probability matrix
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910318526.7A
Other languages
English (en)
Other versions
CN110086860A (zh
Inventor
赵波
李想
黎佳玥
朱晓南
刘一凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910318526.7A priority Critical patent/CN110086860B/zh
Publication of CN110086860A publication Critical patent/CN110086860A/zh
Application granted granted Critical
Publication of CN110086860B publication Critical patent/CN110086860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种物联网大数据环境下的数据异常检测方法及装置,其中的方法,首先对所有种类的设备和其所有上下文的训练数据利用概率矩阵器进行特征提取,得到概率矩阵。然后对所有上下文属性进行约简联合,形成邻域共享上下文与设备上下文的对应表,并填入相应概率矩阵。在检测过程中综合分析同一邻域中的所有设备,根据对应表计算每种邻域共享上下文的可能性,并得出最终判定结果,最后根据判定的上下文加载各类设备的概率矩阵利用概率检测器算法进行异常检测。本发明能检测持续一段时间的异常事件,能适应具有多种行为模式的物联网设备,能够通过引入邻域属性解决现有上下文判断过程不可信的问题,提高检测的准确性。

Description

一种物联网大数据环境下的数据异常检测方法及装置
技术领域
本发明涉及信息安全技术领域,具体涉及一种物联网大数据环境下的数据异常检测方法及装置。
背景技术
物联网是实现人物互联、物物互联的系统,随着网络科技的高速发展,物联网系统已经应用到各种基础设施中,为社会提供广泛的服务。近年来涌现出了大量以物联网为数据来源,以大数据为分析对象,以人工智能为技术手段的新型物联网大数据分析平台。这就要求物联网产生的来源数据具有较高的可信性,否则将影响之后大数据分析结果的准确性,造成严重的后果,故需要对物联网大数据进行异常检测,提高数据的质量。
现有技术中,常用的物联网大数据异常检测技术主要有三种模式:马尔科夫异常检测器、基于滑动窗口的异常检测技术、上下文感知异常检测技术。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
马尔科夫异常检测器是以马尔科夫状态转移矩阵为基础来对设备进行异常检测,它认为当前状态仅与上一状态有关而与再之前的任一状态都无关。马尔科夫异常检测器训练模型的过程简单,但是检测过程计算复杂度较高,且其特性使其只能关注某一时刻的异常突变,而物联网数据出现问题往往是持续一段时间的异常事件,这就会导致其检测正确率较低。
在引入了滑动窗口的概念后,大量研究者针对不同设备提出了一些基于滑动窗口的异常检测方法。滑动窗口能够关注一段时间内物联网数据的行为信息,能够有效应对持续一段时间的数据异常情况,在一定程度上提升检测的准确率。但是此类方法只能针对较为简单的嵌入式设备,而物联网设备的功能越来越复杂,有多种行为模式,传统的基于滑动窗口的异常检测方法在检测这类物联网设备时正确率会大幅下降,不能应对功能越来越强大的物联网场景。
为了检测有多种行为模式的物联网设备,有一些方法在滑动窗口异常检测技术上作了改进,增加了上下文检测模块,先检测物联网设备的上下文属性,即设备所处的物理环境,然后根据不同的上下文属性加载不同的异常检测模型来进行检测。上下文感知异常检测技术虽然在一定程度上能够检测具有上下文属性的物联网数据的异常,但是当前方法都是针对单个设备的检测,且是用物联网数据本身来进行上下文属性的判断,若数据本身已是不可信的,则整个检测过程都将是不可信的,导致检测结果准确性不高。
由此可知,现有技术中的方法存在准确性不高的技术问题。
发明内容
有鉴于此,本发明提供了一种物联网大数据环境下的数据异常检测方法及装置,用以解决或者至少部分解决现有技术中的方法存在准确性不高的技术问题。
本发明第一方面提供了一种物联网大数据环境下的数据异常检测方法,包括:
步骤S1:将需检测的物联网设备进行分类,为每类设备定义上下文属性,其中,每一个上下文属性对应该类设备的一种行为模式;
步骤S2:采集每类设备在每个上下文属性中运行时产生的物联网数据,利用预设概率矩阵器算法计算与每种设备对应的上下文属性的概率矩阵,用以提取每类设备的特征;
步骤S3:根据所有种类设备的所有上下文属性,得到所有设备处于邻域范围内所共享的上下文,将其作为邻域共享上下文;
步骤S4:根据所有设备处于邻域范围内所共享的上下文,形成邻域-设备上下文对应表,其中,所述对应表中包括概率矩阵;
步骤S5:计算待检测设备所处的邻域处于每个邻域共享上下文的可能性,并基于计算出的可能性情况,确定与该邻域对应的目标邻域共享上下文;
步骤S6:根据确定出的目标邻域共享上下文,从邻域-设备上下文对应表中,加载与待检测设备相应的概率矩阵;
步骤S7:基于加载的概率矩阵采用预设概率矩阵器算法对每个待检测设备的数据进行异常检测。
在一种实施方式中,步骤S2具体包括:
将不同种类设备的不同上下文分开独立进行训练;
通过数据采集器采集所有情况的正常运行数据,根据其值域划分为不多于10个的分段,其中,代表数据所属分段的符号用以表示一个数据;
将采集的数据形成以时间为维度的序列,并转化为符号序列,定义一个固定大小为n的滑动窗口W,使其按时间流动方向移动;
每一时刻,滑动窗口中存在一个长度为n的字符序列,统计其中距离为1到n-1的双字符对的个数,并创建一个以双字符对的种类行为,以相邻距离1到n-1为列的特征矩阵,在特征矩阵记录滑动窗口在移动过程中统计的个数;
对于上述计算方式得到的矩阵按列进行归一化,得到此距离下每个字符对出现的概率,将其作为对应的概率矩阵。
在一种实施方式中,步骤S3具体包括:
综合分析所有的上下文属性,将无关联的上下文直接联合,将有关联的上下文约简重复部分后再联合,形成包含所有设备所有上下文的邻域共享上下文。
在一种实施方式中,步骤S5具体包括:
根据邻域-设备上下文对应表,采用预设概率矩阵器算法计算待检测设备所处的邻域处于每个邻域共享上下文的可能性;
并将可能性最大的上下文作为目标邻域共享上下文。
在一种实施方式中,待检测设备所处的邻域处于每个邻域共享上下文的可能性的计算方式,包括:
min{P(i)}
P(i)=a*D(MA,SAi)+b*D(MB,SBi)+c*D(MC,SCi)+…
其中,i表示邻域共享上下文序号,a、b、c表示该邻域设备A、设备B、设备C的数量,D表示计算两个矩阵之间欧式距离的函数,SAi表示邻域共享上下文属性i对应的设备A的概率矩阵,SBi邻域共享上下文属性i对应的设备B的概率矩阵,SCi表示邻域共享上下文属性i对应的设备C的概率矩阵,MA表示所有A类设备的概率矩阵的平均值,MB表示所有B类设备的概率矩阵的平均值,MC表示所有C类设备的概率矩阵的平均值。
在一种实施方式中,步骤S7具体包括:
将待检测设备的数据转化为字符序列后,定义相等大小n的滑动窗口W,计算滑动窗口中的字符序列出现的概率;
将计算的概率值与设定的阈值p进行比较,若小于阈值则标记为非正常,继续滑动窗口,如果连续出现了k个非正常的时刻,则检测出该时刻数据为异常。
在一种实施方式中,在进行异常检测时,每隔预设周期执行确定目标邻域共享上下文的步骤。
基于同样的发明构思,本发明第二方面提供了一种物联网大数据环境下的数据异常检测装置,包括:
上下文属性定义模块,用于将需检测的物联网设备进行分类,为每类设备定义上下文属性,其中,每一个上下文属性对应该类设备的一种行为模式;
设备特征提取模块,用于采集每类设备在每个上下文属性中运行时产生的物联网数据,利用预设概率矩阵器算法计算与每种设备对应的上下文属性的概率矩阵,用以提取每类设备的特征;
邻域共享上下文获得模块,用于根据所有种类设备的所有上下文属性,得到所有设备处于邻域范围内所共享的上下文,将其作为邻域共享上下文;
对应表形成模块,用于根据所有设备处于邻域范围内所共享的上下文,形成邻域-设备上下文对应表,其中,所述对应表中包括概率矩阵;
目标邻域共享上下文确定模块,用于计算待检测设备所处的邻域处于每个邻域共享上下文的可能性,并基于计算出的可能性情况,确定与该邻域对应的目标邻域共享上下文;
概率矩阵加载模块,用于根据确定出的目标邻域共享上下文,从邻域-设备上下文对应表中,加载与待检测设备相应的概率矩阵;
异常检测模块,用于基于加载的概率矩阵采用预设概率矩阵器算法对每个待检测设备的数据进行异常检测。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种物联网大数据环境下的数据异常检测方法,首先将需检测的物联网设备进行分类,为每类设备定义上下文属性;并采集每类设备在每个上下文属性中运行时产生的物联网数据,利用预设概率矩阵器算法计算与每种设备对应的上下文属性的概率矩阵;然后根据所有种类设备的所有上下文属性,得到所有设备处于邻域范围内所共享的上下文;接着根据所有设备处于邻域范围内所共享的上下文,形成邻域-设备上下文对应表;接下来计算待检测设备所处的邻域处于每个邻域共享上下文的可能性,并基于计算出的可能性情况,确定与该邻域对应的目标邻域共享上下文,再根据确定出的目标邻域共享上下文,从邻域-设备上下文对应表中,加载与待检测设备相应的概率矩阵;最后基于加载的概率矩阵采用预设概率矩阵器算法对每个待检测设备的数据进行异常检测。
相对于现有的方法而言,本发明在物联网数据行为异常检测过程,首先确定该设备当前数据是在哪一个上下文环境中产生的,在确定上下文后,从预先构建的邻域-设备上下文对应表中选取出与该设备与该上下文对应的概率矩阵,即本发明是一种基于邻域共享上下文和数据行为的可信性判定方法,能够判断存在多类设备的邻域范围内的上下文属性,能够对具有多种行为模式的物联网设备产生的数据进行检测,具有异常识别率高,检测正确率高,检测过程计算复杂度低的特点。解决了现有技术中的方法存在准确性不高的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种物联网大数据环境下的数据异常检测方法的流程图;
图2本发明实施例的上下文感知异常检测模型的构建流程图;
图3为一种具体示例中基于邻域共享上下文属性的物联网大数据异常检测流程图的示意图;
图4为本发明实施例中一种物联网大数据环境下的数据异常检测装置的结构框图;
图5为本发明实施例的物联网大数据异常检测系统框架图;
图6为本发明实施例中计算机可读存储介质的结构图;
图7为本发明实施例中计算机设备的结构图。
具体实施方式
本发明的目的在于提供一种物联网大数据环境下的数据异常检测方法及装置,旨在解决物联网大数据架构下物联网感知层易受攻击易出故障,而大数据分析中心分析了错误数据给出错误结果可能造成严重后果的问题。
为实现上述目的,本发明提供了一种基于邻域共享上下文属性的物联网设备数据异常检测方法,能够判断存在多类设备的邻域范围内的上下文属性,能够对具有多种行为模式的物联网设备产生的数据进行检测,具有异常识别率高,检测正确率高,检测过程计算复杂度低的特点。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种物联网大数据环境下的数据异常检测方法,请参见图1,该方法包括:
步骤S1:将需检测的物联网设备进行分类,为每类设备定义上下文属性,其中,每一个上下文属性对应该类设备的一种行为模式。
具体来说,由于每类物联网设备需要单独操作,因而将需检测的物联网设备分类。并为每种类的设备定义上下文属性,例如,某一种类设备的行为有多种,则具有多种上下文属性。
步骤S2:采集每类设备在每个上下文属性中运行时产生的物联网数据,利用预设概率矩阵器算法计算与每种设备对应的上下文属性的概率矩阵,用以提取每类设备的特征。
具体来说,可以在设备正常运行过程中,通过数据采集器来采集每个上下文属性中运行时产生的物联网数据。预设概率矩阵器算法即为基于滑动窗口的概率检测器算法,与每种设备对应的上下文属性的概率矩阵,即每类设备在每种情况(每种情况对应一种行为,即对应一种上下文属性)下的概率矩阵。概率矩阵即为特征矩阵,用来提取每类设备的特征。
步骤S3:根据所有种类设备的所有上下文属性,得到所有设备处于邻域范围内所共享的上下文,将其作为邻域共享上下文。
具体来说,可以通过约简合并所有种类设备的所有上下文属性,得到所有设备处于邻域范围内所共享的上下文属性,称为邻域共享上下文。
步骤S4:根据所有设备处于邻域范围内所共享的上下文,形成邻域-设备上下文对应表,其中,所述对应表中包括概率矩阵。
具体来说,邻域-设备上下文对应表的行表示每一种邻域共享上下文,列表示每一类设备,对应表中的内容是概率矩阵。就是说每一种邻域上下文,对应于每类设备的哪个上下文,该对应表存储的就是此设备的此上下文的概率矩阵。
本发明的步骤S1~S4即是上下文感知异常检测模型的构建过程,具体参见图2,示出了具体的实现流程,具体包括:设备种类分类、定义上下文属性、根据设备的上下文计算概率矩阵、形成邻域共享上下文属性、形成邻域共享上下文-设备行为概率矩阵对应表(邻域-设备上下文对应表)。
步骤S5:计算待检测设备所处的邻域处于每个邻域共享上下文的可能性,并基于计算出的可能性情况,确定与该邻域对应的目标邻域共享上下文。
具体来说,实际检测过程中,所有设备会向异常检测中心不断发送数据包,不同邻域的设备分开进行检测。
在具体的实施过程中,物联网设备向异常检测中心发送的数据包应包含三个内容:设备种类、所属邻域、物联网数据,即DataPackage=(DeviceType,Area,Data)。DeviceType表示设备种类,异常检测中心针对不同的设备需要加载不同的行为特征模型(概率矩阵)来进行检测;Area表示邻域,同一邻域共享相同的上下文,故异常检测中心需要将同一邻域的数据综合进行分析,不同邻域之间相互独立;Data表示需被检测的数据,是本发明关注的重点,将短时间内产生的数据形成序列发送给异常检测中心,以适应滑动窗口的检测方法。
具体可以采用前述的预设概率矩阵器算法来进行计算当前情况属于各个邻域共享上下文的可能性,从而确定目标邻域共享上下文。
步骤S6:根据确定出的目标邻域共享上下文,从邻域-设备上下文对应表中,加载与待检测设备相应的概率矩阵。
具体来说,本步骤中加载的概率矩阵即步骤S5中确定好的当前环境下每类设备的上下文属性对应的概率矩阵。
步骤S7:基于加载的概率矩阵采用预设概率矩阵器算法对每个待检测设备的数据进行异常检测。
具体来说,通过对不同的设备所处的环境,采用对应的概率矩阵来进行异常检测。本发明得主要贡献在于利用了物联网系统中邻域设备共享相同上下文属性的特点,能够将同一邻域的所有设备综合进行分析判定共享上下文属性,提升了上下文判定过程的可信性,即提高了准确性。
在一种实施方式中,步骤S2具体包括:
将不同种类设备的不同上下文分开独立进行训练;
通过数据采集器采集所有情况的正常运行数据,根据其值域划分为不多于10个的分段,其中,代表数据所属分段的符号用以表示一个数据;
将采集的数据形成以时间为维度的序列,并转化为符号序列,定义一个固定大小为n的滑动窗口W,使其按时间流动方向移动;
每一时刻,滑动窗口中存在一个长度为n的字符序列,统计其中距离为1到n-1的双字符对的个数,并创建一个以双字符对的种类行为,以相邻距离1到n-1为列的特征矩阵,在特征矩阵记录滑动窗口在移动过程中统计的个数;
对于上述计算方式得到的矩阵按列进行归一化,得到此距离下每个字符对出现的概率,将其作为对应的概率矩阵。
具体来说,每一时刻,滑动窗口中存在一个长度为n的字符序列,统计其中距离为1到n-1的双字符对的个数,即W[1]W[2],W[2]W[3],…,W[n-1]W[n],…,W[1]W[3],W[2]W[4],…,W[n-1]W[n]。其中,归一化处理即每个记录除以列的总和,得到此距离下每个字符对出现的概率,即此类设备在该上下文环境中的概率矩阵S(行为特征),S用于后续的上下文判定和异常检测。
在一种实施方式中,步骤S3具体包括:
综合分析所有的上下文属性,将无关联的上下文直接联合,将有关联的上下文约简重复部分后再联合,形成包含所有设备所有上下文的邻域共享上下文。
具体来说,在异常检测算法的基础上需要先判定上下文属性。根据物联网系统工作和部署的特点,同一邻域范围内的所有设备共享相同的上下文属性,本发明依据此特点来判定邻域共享上下文属性,具体实现过程如下:
预先定义所有种类设备的上下文属性,综合分析所有的上下文属性,将无关联的上下文直接联合,将有关联的上下文约简其重复部分后再联合,形成包含所有设备所有上下文的邻域共享上下文。分析结果形成邻域-设备上下文对应表,例如用矩阵可表示为
Figure BDA0002033909200000091
其中每一行表示邻域共享上下文属性的种类,每一行中的内容表示该邻域共享上下文对应于各类设备上下文的特征,即SA1表示设备A在上下文1中的概率矩阵。
在一种实施方式中,步骤S5具体包括:
根据邻域-设备上下文对应表,采用预设概率矩阵器算法计算待检测设备所处的邻域处于每个邻域共享上下文的可能性;
并将可能性最大的上下文作为目标邻域共享上下文。
其中,待检测设备所处的邻域处于每个邻域共享上下文的可能性的计算方式,包括:
min{P(i)}
P(i)=a*D(MA,SAi)+b*D(MB,SBi)+c*D(MC,SCi)+…
其中,i表示邻域共享上下文序号,a、b、c表示该邻域设备A、设备B、设备C的数量,D表示计算两个矩阵之间欧式距离的函数,SAi表示邻域共享上下文属性i对应的设备A的概率矩阵,SBi邻域共享上下文属性i对应的设备B的概率矩阵,SCi表示邻域共享上下文属性i对应的设备C的概率矩阵,MA表示所有A类设备的概率矩阵的平均值,MB表示所有B类设备的概率矩阵的平均值,MC表示所有C类设备的概率矩阵的平均值。
具体来说,在达到邻域上下文检测周期时,将该时刻之前一段时间内的所有数据使用概率矩阵器算法中提取特征矩阵相同的方式提取出测试数据的概率矩阵,然后将该邻域内的相同种类设备提取的概率矩阵求平均值,例如设备A的平均矩阵MA,设备B的平均矩阵MB。根据之前分析得到的邻域-设备上下文对应表,计算属于各个邻域共享上下文的可能性。例如邻域共享上下文1对应SA1、SB1、SC1的情形,则其可能性计算公式为:P(1)=a*D(MA,SA1)+b*D(MB,SB1)+c*D(MC,SC1),其中a、b、c表示该邻域设备A、设备B、设备C的数量,D是计算两个矩阵之间欧式距离的函数。对于邻域-设备上下文对应表中每一行都提取对应的设备上下文概率矩阵来计算P值,并比较其大小,值最大的则判定为是下一周期该邻域的上下文属性。
在一种实施方式中,步骤S7具体包括:
将待检测设备的数据转化为字符序列后,定义相等大小n的滑动窗口W,计算滑动窗口中的字符序列出现的概率;
将计算的概率值与设定的阈值p进行比较,若小于阈值则标记为非正常,继续滑动窗口,如果连续出现了k个非正常的时刻,则检测出该时刻数据为异常。
具体来说,根据本发明的检测方法,物联网数据行为异常检测过程首先需要确定该设备当前数据是在哪一个上下文环境中产生的。在确定上下文后,从提取的所有高绿矩阵中选择该设备与该上下文对应的概率矩阵S。将待检测数据转化为字符序列后,定义相等大小n的滑动窗口W,计算滑动窗口中的序列的出现概率,计算方式为读取概率矩阵中对应的概率然后相乘,例如:定义S(AB,n-1)表示在n-1距离下AB字符对出现的概率,则对于大小为4的滑动窗口,其中序列为ABAC的情况,概率计算公式为:S(AB,1)*S(BA,1)*S(AC,1)*S(AA,2)*S(BC,2)*S(AC,3)。将得出的概率值与设定的阈值p进行比较,若小于阈值则标记为非正常,继续滑动窗口,如果连续出现了k个非正常的时刻,则检测出该时刻数据是异常。其中p和k的值需要预先根据训练数据进行设定,其值与滑动窗口的大小n和设备自身特点有密切关系。
从本发明提供的方法可以看出,采用改进的概率矩阵器算法,将其求得的概率矩阵不仅用于计算数据行为的正常概率,还用作数据本身的特征以判定上下文属性、以及异常数据对检测。
在一种实施方式中,在进行异常检测时,每隔预设周期执行确定目标邻域共享上下文的步骤。
通过利用上下文环境改变速度远低于异常检测频率,不需要每次检测时都判定一遍邻域共享上下文,而是取一个合适的周期来判定,可以降低检测的计算量。
为了更清楚地说明本发明提供的方法的实现过程,下面通过一个具体示例予以详细介绍,请参见图3。
首先将所有设备划分领域,然后对不同邻域中的设备分开进行检测,对于某一邻域,判断该邻域得共享上下文属性,根据对应表以及判断出的共享上下文属性,加载对应得概率矩阵,然后采用概率矩阵器算法(即预设概率矩阵器算法)来检测异常,并判断是否检测出异常,如果是,则报警,如果否,则判断数据检测是否结束,如果结束,则结束检测过程,如果否,则进一步判断是否达到上下文检测周期,如果达到,则继续回到判断共享上下文属性的步骤,否则继续进行数据检测。
基于同一发明构思,本申请还提供了一种与实施例一中物联网大数据环境下的数据异常检测方法对应的装置,详见实施例二。
实施例二
本实施例提供了一种物联网大数据环境下的数据异常检测装置,请参见图4,该装置包括:
上下文属性定义模块201,用于将需检测的物联网设备进行分类,为每类设备定义上下文属性,其中,每一个上下文属性对应该类设备的一种行为模式;
设备特征提取模块202,用于采集每类设备在每个上下文属性中运行时产生的物联网数据,利用预设概率矩阵器算法计算与每种设备对应的上下文属性的概率矩阵,用以提取每类设备的特征;
邻域共享上下文获得模块203,用于根据所有种类设备的所有上下文属性,得到所有设备处于邻域范围内所共享的上下文,将其作为邻域共享上下文;
对应表形成模块204,用于根据所有设备处于邻域范围内所共享的上下文,形成邻域-设备上下文对应表,其中,所述对应表中包括概率矩阵;
目标邻域共享上下文确定模块205,用于计算待检测设备所处的邻域处于每个邻域共享上下文的可能性,并基于计算出的可能性情况,确定与该邻域对应的目标邻域共享上下文;
概率矩阵加载模块206,用于根据确定出的目标邻域共享上下文,从邻域-设备上下文对应表中,加载与待检测设备相应的概率矩阵;
异常检测模块207,用于基于加载的概率矩阵采用预设概率矩阵器算法对每个待检测设备的数据进行异常检测。
在一种实施方式中,设备特征提取模块202具体用于:
将不同种类设备的不同上下文分开独立进行训练;
通过数据采集器采集所有情况的正常运行数据,根据其值域划分为不多于10个的分段,其中,代表数据所属分段的符号用以表示一个数据;
将采集的数据形成以时间为维度的序列,并转化为符号序列,定义一个固定大小为n的滑动窗口W,使其按时间流动方向移动;
每一时刻,滑动窗口中存在一个长度为n的字符序列,统计其中距离为1到n-1的双字符对的个数,并创建一个以双字符对的种类行为,以相邻距离1到n-1为列的特征矩阵,在特征矩阵记录滑动窗口在移动过程中统计的个数;
对于上述计算方式得到的矩阵按列进行归一化,得到此距离下每个字符对出现的概率,将其作为对应的概率矩阵。
在一种实施方式中,邻域共享上下文获得模块203具体用于:
综合分析所有的上下文属性,将无关联的上下文直接联合,将有关联的上下文约简重复部分后再联合,形成包含所有设备所有上下文的邻域共享上下文。
在一种实施方式中,目标邻域共享上下文确定模块205具体用于:
根据邻域-设备上下文对应表,采用预设概率矩阵器算法计算待检测设备所处的邻域处于每个邻域共享上下文的可能性;
并将可能性最大的上下文作为目标邻域共享上下文。
在一种实施方式中,目标邻域共享上下文确定模块205中可能性计算具体包括:
min{P(i)}
P(i)=a*D(MA,SAi)+b*D(MB,SBi)+c*D(MC,SCi)+…
其中,i表示邻域共享上下文序号,a、b、c表示该邻域设备A、设备B、设备C的数量,D表示计算两个矩阵之间欧式距离的函数,SAi表示邻域共享上下文属性i对应的设备A的概率矩阵,SBi邻域共享上下文属性i对应的设备B的概率矩阵,SCi表示邻域共享上下文属性i对应的设备C的概率矩阵,MA表示所有A类设备的概率矩阵的平均值,MB表示所有B类设备的概率矩阵的平均值,MC表示所有C类设备的概率矩阵的平均值。
在一种实施方式中,异常检测模块207具体用于:
将待检测设备的数据转化为字符序列后,定义相等大小n的滑动窗口W,计算滑动窗口中的字符序列出现的概率;
将计算的概率值与设定的阈值p进行比较,若小于阈值则标记为非正常,继续滑动窗口,如果连续出现了k个非正常的时刻,则检测出该时刻数据为异常。
在一种实施方式中,本实施例提供的装置还包括周期检测模块,用于在进行异常检测时,每隔预设周期执行确定目标邻域共享上下文的步骤。
为了更清楚地说明本发明提供的装置得架构,下面通过一个具体示例予以详细介绍,请参见图5。
图5中,通过数据采集从设备群中采集训练数据用于模型的训练,在实际检测过程中,各个邻域内的设备会向异常检测中心发送物联网实时数据,用于后续的异常检测。
异常检测中心相当于本实施例中的检测装置,数据行为训练模块相当于对应表形成模块204,用于构建检测模型,邻域上下文判定模块相当于目标邻域共享上下文确定模块205,数据异常检测模块相当于异常检测模块207。
由于本发明实施例二所介绍的装置,为实施本发明实施例一中物联网大数据环境下的数据异常检测方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本申请还提供了一种计算机可读存储介质300,请参见图6,其上存储有计算机程序311,该程序被执行时实现实施例一中的方法。
由于本发明实施例三所介绍的计算机可读存储介质,为实施本发明实施例一中物联网大数据环境下的数据异常检测方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,请参见图7,包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中物联网大数据环境下的数据异常检测方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种物联网大数据环境下的数据异常检测方法,其特征在于,包括:
步骤S1:将需检测的物联网设备进行分类,为每类设备定义上下文属性,其中,每一个上下文属性对应该类设备的一种行为模式;
步骤S2:采集每类设备在每个上下文属性中运行时产生的物联网数据,利用预设概率矩阵器算法计算与每种设备对应的上下文属性的概率矩阵,用以提取每类设备的特征;
步骤S3:根据所有种类设备的所有上下文属性,得到处于邻域范围内的所有设备所共享的上下文,将其作为邻域共享上下文;
步骤S4:根据处于邻域范围内的所有设备所共享的上下文,形成邻域-设备上下文对应表,其中,所述对应表中包括概率矩阵;
步骤S5:计算待检测设备所处的邻域处于每个邻域共享上下文的可能性,并基于计算出的可能性情况,确定与该邻域对应的目标邻域共享上下文;
步骤S6:根据确定出的目标邻域共享上下文,从邻域-设备上下文对应表中,加载与待检测设备相应的概率矩阵;
步骤S7:基于加载的概率矩阵采用预设概率矩阵器算法对每个待检测设备的数据进行异常检测;
其中,步骤S5具体包括:
根据邻域-设备上下文对应表,采用预设概率矩阵器算法计算待检测设备所处的邻域处于每个邻域共享上下文的可能性;
并将可能性最大的上下文作为目标邻域共享上下文;
其中,待检测设备所处的邻域处于每个邻域共享上下文的可能性的计算方式,包括:
min{P(i)}
P(i)=a*D(MA,SAi)+b*D(MB,SBi)+c*D(MC,SCi)+…
其中,i表示邻域共享上下文序号,a、b、c表示该邻域设备A、设备B、设备C的数量,D表示计算两个矩阵之间欧式距离的函数,SAi表示邻域共享上下文属性i对应的设备A的概率矩阵,SBi邻域共享上下文属性i对应的设备B的概率矩阵,SCi表示邻域共享上下文属性i对应的设备C的概率矩阵,MA表示所有A类设备的概率矩阵的平均值,MB表示所有B类设备的概率矩阵的平均值,MC表示所有C类设备的概率矩阵的平均值。
2.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
将不同种类设备的不同上下文分开独立进行训练;
通过数据采集器采集所有情况的正常运行数据,根据其值域划分为不多于10个的分段,其中,代表数据所属分段的符号用以表示一个数据;
将采集的数据形成以时间为维度的序列,并转化为符号序列,定义一个固定大小为n的滑动窗口W,使其按时间流动方向移动;
每一时刻,滑动窗口中存在一个长度为n的字符序列,统计其中距离为1到n-1的双字符对的个数,并创建一个以双字符对的种类为行,以相邻距离1到n-1为列的特征矩阵,在特征矩阵记录滑动窗口在移动过程中统计的个数;
对于上述计算方式得到的矩阵按列进行归一化,得到此距离下每个字符对出现的概率,将其作为对应的概率矩阵。
3.如权利要求2所述的方法,其特征在于,步骤S3具体包括:
综合分析所有的上下文属性,将无关联的上下文直接联合,将有关联的上下文约简重复部分后再联合,形成包含所有设备所有上下文的邻域共享上下文。
4.如权利要求1所述的方法,其特征在于,步骤S7具体包括:
将待检测设备的数据转化为字符序列后,定义相等大小n的滑动窗口W,计算滑动窗口中的字符序列出现的概率;
将计算的概率值与设定的阈值p进行比较,若小于阈值则标记为非正常,继续滑动窗口,如果连续出现了k个非正常的时刻,则检测出该时刻数据为异常。
5.如权利要求1所述的方法,其特征在于,在进行异常检测时,每隔预设周期执行确定目标邻域共享上下文的步骤。
6.一种物联网大数据环境下的数据异常检测装置,其特征在于,包括:
上下文属性定义模块,用于将需检测的物联网设备进行分类,为每类设备定义上下文属性,其中,每一个上下文属性对应该类设备的一种行为模式;
设备特征提取模块,用于采集每类设备在每个上下文属性中运行时产生的物联网数据,利用预设概率矩阵器算法计算与每种设备对应的上下文属性的概率矩阵,用以提取每类设备的特征;
邻域共享上下文获得模块,用于根据所有种类设备的所有上下文属性,得到处于邻域范围内的所有设备所共享的上下文,将其作为邻域共享上下文;
对应表形成模块,用于根据处于邻域范围内的所有设备所共享的上下文,形成邻域-设备上下文对应表,其中,所述对应表中包括概率矩阵;
目标邻域共享上下文确定模块,用于计算待检测设备所处的邻域处于每个邻域共享上下文的可能性,并基于计算出的可能性情况,确定与该邻域对应的目标邻域共享上下文;
概率矩阵加载模块,用于根据确定出的目标邻域共享上下文,从邻域-设备上下文对应表中,加载与待检测设备相应的概率矩阵;
异常检测模块,用于基于加载的概率矩阵采用预设概率矩阵器算法对每个待检测设备的数据进行异常检测;
其中,目标邻域共享上下文确定模块具体用于:
根据邻域-设备上下文对应表,采用预设概率矩阵器算法计算待检测设备所处的邻域处于每个邻域共享上下文的可能性;
并将可能性最大的上下文作为目标邻域共享上下文;
其中,待检测设备所处的邻域处于每个邻域共享上下文的可能性的计算方式,包括:
min{P(i)}
P(i)=a*D(MA,SAi)+b*D(MB,SBi)+c*D(MC,SCi)+…
其中,i表示邻域共享上下文序号,a、b、c表示该邻域设备A、设备B、设备C的数量,D表示计算两个矩阵之间欧式距离的函数,SAi表示邻域共享上下文属性i对应的设备A的概率矩阵,SBi邻域共享上下文属性i对应的设备B的概率矩阵,SCi表示邻域共享上下文属性i对应的设备C的概率矩阵,MA表示所有A类设备的概率矩阵的平均值,MB表示所有B类设备的概率矩阵的平均值,MC表示所有C类设备的概率矩阵的平均值。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至5中任一项权利要求所述的方法。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项权利要求所述的方法。
CN201910318526.7A 2019-04-19 2019-04-19 一种物联网大数据环境下的数据异常检测方法及装置 Active CN110086860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910318526.7A CN110086860B (zh) 2019-04-19 2019-04-19 一种物联网大数据环境下的数据异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910318526.7A CN110086860B (zh) 2019-04-19 2019-04-19 一种物联网大数据环境下的数据异常检测方法及装置

Publications (2)

Publication Number Publication Date
CN110086860A CN110086860A (zh) 2019-08-02
CN110086860B true CN110086860B (zh) 2020-09-08

Family

ID=67415653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910318526.7A Active CN110086860B (zh) 2019-04-19 2019-04-19 一种物联网大数据环境下的数据异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN110086860B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942256B (zh) * 2019-12-02 2020-12-04 清华四川能源互联网研究院 新能源厂站涉网端实时交互过程异常检测方法及系统
CN114996318B (zh) * 2022-07-12 2022-11-04 成都唐源电气股份有限公司 一种检测数据异常值处理方式的自动判别方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831442A (zh) * 2011-06-13 2012-12-19 索尼公司 异常行为检测设备和方法及生成该检测设备的设备和方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10708293B2 (en) * 2015-06-29 2020-07-07 Argus Cyber Security Ltd. System and method for time based anomaly detection in an in-vehicle communication network
US10530795B2 (en) * 2017-03-17 2020-01-07 Target Brands, Inc. Word embeddings for anomaly classification from event logs
CN108108253A (zh) * 2017-12-26 2018-06-01 北京航空航天大学 一种面向多数据流的异常状态检测方法
CN108668303B (zh) * 2018-05-15 2021-08-10 上海兆祥邮轮科技集团股份有限公司 一种无线传感器网络数据流的增量式离群点检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831442A (zh) * 2011-06-13 2012-12-19 索尼公司 异常行为检测设备和方法及生成该检测设备的设备和方法

Also Published As

Publication number Publication date
CN110086860A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN108737406A (zh) 一种异常流量数据的检测方法及系统
CN110572362A (zh) 针对多类不均衡异常流量的网络攻击检测方法及装置
CN109657600B (zh) 一种视频区域移除篡改检测方法和装置
CN117113262B (zh) 网络流量识别方法及其系统
CN110086860B (zh) 一种物联网大数据环境下的数据异常检测方法及装置
CN110300127A (zh) 一种基于深度学习的网络入侵检测方法、装置以及设备
CN111507385B (zh) 一种可扩展的网络攻击行为分类方法
CN112597928B (zh) 一种事件检测方法及相关装置
CN112818871B (zh) 一种基于半分组卷积的全融合神经网络的目标检测方法
CN109726737B (zh) 基于轨迹的异常行为检测方法及装置
CN110097120B (zh) 网络流量数据分类方法、设备及计算机存储介质
CN114726802A (zh) 一种基于不同数据维度的网络流量识别方法及装置
CN114970694A (zh) 一种网络安全态势评估方法及其模型训练方法
CN115967972A (zh) 网络异常检测方法、装置、电子设备及存储介质
CN111803956B (zh) 游戏外挂行为的确定方法、装置、电子设备及存储介质
CN110866470A (zh) 一种基于随机图像特征的人脸防伪检测方法
CN108921018A (zh) 一种基于运动模糊分析的虚假人脸入侵检测方法
CN113554685A (zh) 遥感卫星运动目标检测方法、装置、电子设备及存储介质
CN110443244B (zh) 一种图形处理的方法以及相关装置
CN107944269A (zh) 一种基于局部二值模式和主成分分析技术的安卓恶意软件检测方法
CN112884069A (zh) 一种对抗网络样本检测的方法
Sun et al. Visual analytics for anomaly classification in LAN based on deep convolutional neural network
CN115408182A (zh) 业务系统故障定位方法及装置
CN111597934A (zh) 用于为统计应用处理训练数据的系统和方法
CN114884704B (zh) 一种基于对合和投票的网络流量异常行为检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant