CN113364884A - 基于局部敏感布隆过滤器的工业物联网隐性异常检测方法 - Google Patents

基于局部敏感布隆过滤器的工业物联网隐性异常检测方法 Download PDF

Info

Publication number
CN113364884A
CN113364884A CN202110721174.7A CN202110721174A CN113364884A CN 113364884 A CN113364884 A CN 113364884A CN 202110721174 A CN202110721174 A CN 202110721174A CN 113364884 A CN113364884 A CN 113364884A
Authority
CN
China
Prior art keywords
data
bloom filter
fjlt
things
recessive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110721174.7A
Other languages
English (en)
Other versions
CN113364884B (zh
Inventor
肖如良
肖晨凯
张仕
蔡声镇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN202110721174.7A priority Critical patent/CN113364884B/zh
Publication of CN113364884A publication Critical patent/CN113364884A/zh
Application granted granted Critical
Publication of CN113364884B publication Critical patent/CN113364884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开基于局部敏感布隆过滤器的工业物联网隐性异常检测方法,获取工业物联网的原始多类型数据并通过特征化将多媒体数据转换成特征向量;IIoT数据利用SP‑FJLT进行哈希投影后通过相互竞争策略进行除噪,再映射到Bloom Filter上以将Bloom Filter被哈希映射的位向量由“0”变为“1”。本发明提出的基于空间划分的快速SP‑FJLT变换具有很强的映射保距性,可以准确识别隐性特征,减少了数据在哈希投影中的精度损失。本发明方法具有更高的检测率以及更低的误报率。

Description

基于局部敏感布隆过滤器的工业物联网隐性异常检测方法
技术领域
本发明涉及工业物联网技术领域,尤其涉及基于局部敏感布隆过滤器的工业物联网隐性异常检测方法。
背景技术
随着工业4.0时代的到来,工业物联网系统(Industrial Internet of Things,IIoT)目前在已经广泛应用于安全监控、智能交通、环境监测等领域。工业物联网系统的传感器节点配备了摄像机、麦克风和其他传感器,能够从物理环境中收集视频、音频、图像等多媒体数据。但是,传感器设备由于持续使用和正常磨损出现损坏,导致收集和记录的IIoT数据出现异常。由于IIoT数据通常具有高维度、大规模、多类型的特点,大规模高维数据无关特征的存在可以掩盖异常的存在,隐性异常难以被检测。因此,构建一个良好的异常检测模型对IIoT应用有非常重要的意义。
当前已有很多学者开展了相关的异常检测方法研究],特别是近年来,异常检测算法的研究已成为产业界与学术界共同关注的热点问题。
目前,在异常检测算法研究中具有代表性的有:东南大学的Deng Fengji等人提出了一种基于Bloom Filter的异常流量检测框架。主要分析了两种异常流量(端口扫描流量和TCP泛洪流量)。对于端口扫描流量,使用Bloom Filter结构框架可以检索这个流已经访问的端口。如果在不同的端口上有太多的流量,则可以确定异常。对于TCP泛洪流量,使用Count Bloom Filter来计算一段时间内每种类型的流中具有相似长度的包的数量。如果检测到相同长度的报文比例较高,则异常发生的概率较大。韩国高等科学技术学院的SangminLee等人提出了一种新的用于异常事件检测的双向多尺度聚合网络(BMAN)。提出的BMAN学习正常事件的时空模式,以检测偏离学习的正常模式为异常。BMAN主要由两部分组成:帧间预测器和外观-运动关节检测器。设计了帧间预测器对正常模式进行编码,利用基于注意力的双向多尺度聚合生成帧间预测器。通过特征聚合,实现了常规模式编码对目标尺度变化和复杂运动的鲁棒性。在编码正常模式的基础上,同时考虑场景的外观特征和运动特征的外观-运动联合检测器检测异常事件。美国马里兰大学的Xavier Gibert等人使用计算机视觉和模式识别方法[12]的自动轨道检测最近显示出了提高安全性的潜力,利用深度卷积神经网络(DCNN)允许更频繁的检查,同时减少人为错误。
总的来说,以上这些方法为异常检测拓展的新的思路,但是现有异常检测方法依然存在两个方面的问题:
(1)大规模高维特征的存在可以掩盖异常的存在,隐性异常难以被检测系统检测。
(2)在耗费大量时间标记好训练数据后,异常检测模型仍需要大量的时间进行训练修正才能够有效的对异常进行检测,并且模型对参数具有较高的敏感性。
发明内容
本发明的目的在于提供基于局部敏感布隆过滤器的工业物联网隐性异常检测方法。
本发明采用的技术方案是:
基于局部敏感布隆过滤器的工业物联网隐性异常检测方法,其包括以下步骤:
步骤1,获取工业物联网IIoT的原始多类型数据,并通过特征化将多媒体数据转换成特征向量;
步骤2,IIoT数据利用SP-FJLT进行哈希投影,
步骤3,SP-FJLT投影变换后的IIoT数据通过相互竞争策略进行除噪后映射到Bloom Filter上,Bloom Filter被哈希映射的位向量由“0”变为“1”。
步骤4,待检测的IIoT数据通过SP-FJLT投影到布隆过滤器的位向量上,检查映射的k个位向量是否都为1,若满足k个位向量均为1,则判定为正常数据;否则,判定为异常数据。
进一步地,作为一种优选实施方式,步骤1中对文本数据进行特征提取采用TF-IDF方法或词频方法,以将文本数据转换为欧式空间下的特征向量;对图像数据进行特征提取时通过提取SIFT特征值进行特征化处理。
进一步地,作为一种优选实施方式,步骤2中的具体方法为:首先构建FJLT投影变换,然后进行空间划分,并采用MC策略进行除噪得到对应的哈希投影。
进一步地,作为一种优选实施方式,:步骤2的FJLT的组成为:
Figure BDA0003136895080000021
其中,P∈Rk×d是一个元素独立分布的m×d矩阵,k=δd,δ是参数,d是数据初始维度,
在概率1-q的情况下设置Pij=0,否则从方差为0且期望为q-1的正态分布中提取pij,稀疏常量q表示为:
Figure BDA0003136895080000022
其中p表示范式,通常的取值范围为{1,2},本文公式中表示为二阶范式;n表示数据的数据量,d表示数据初始维度。
FN∈Cn×n是一个标准化的Walsh-Hadamard矩阵,
Figure BDA0003136895080000023
<i,j>是m位向量i,j在二进制中的点积;DN∈Rn×n是一个d×d的对角阵,Dii为1的概率是1/2,否则Dii为-1。
进一步地,作为一种优选实施方式,步骤2的空间划分为:SP-FJLT从单位球SD-1中随机均匀地选择一个方向,并使用与该方向正交的超平面利用数据空间分布性质进行划分,具体组成如下:
Figure BDA0003136895080000031
其中,k表示数据经过FJLT投影后的维度,n表示数据量,
Figure BDA0003136895080000032
表示FJLT投影的组成,z表示单位球面的高斯函数。
进一步地,作为一种优选实施方式,步骤3中哈希投影后相似的数据被映射至同一编码,将编码采用相互竞争策略与设定的参数进行比较;将大于设定参数的编码予以保留,小于设定参数的编码剔除。
进一步地,作为一种优选实施方式,步骤3中初始的Bloom Filter位向量全为“0”标记,当对应的位置被SP-FJLT映射后,“0”转变为“1”,意味着此位向量已被哈希映射,既该位是正常数据映射的位。
本发明采用以上技术方案,(1)提出的基于空间划分的快速Johnson-Lindenstrauss变换(SP-FJLT)具有很强的映射保距性,可以准确识别隐性特征,减少了数据在哈希投影中的精度损失。(2)提出的基于局部敏感Bloom Filter模型的异常检测算法LSBF能够有效的对高维度、大规模、多类型的IIoT数据进行异常检测,探测隐性异常,提高检测的准确率。(3)LSBF算法是半监督模式,即训练过程中不需要异常类标签的数据。本发明使用3个仿真数据集进行充分的实验评估,与多个典型的异常检测算法进行比较。实验结果表明,本发明方法具有更高的检测率以及更低的误报率。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明基于局部敏感布隆过滤器的工业物联网隐性异常检测方法的架构示意图;
图2为本发明降维投影结构流程图;
图3为相互竞争策略流程图;
图4为本发明构建LSBF算法流程示意图;
图5为SP-FJLT算法和LSH算法保距性比较结果对比图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
Bloom Filter是Burton H.Bloom在1970年提出来的,该模型被提出的最初原因是哈希编码占用了大量的内存空间,为了解决这个问题,Burton H.Bloom提出了一种新的数据结构,该数据结构通过容许哈希编码中的少许错误减少哈希编码所占用的空间。后来的一些学者也从该作者的文章中得到启发,进行改进,并逐渐形成了现在通用的BloomFilter。如今Bloom Filter已经成为大规模数据集的常见处理手段。目前,传统的BloomFilter的功能主要是快速判断给定的元素v是否在集合S中,他的主要思想是通过一组长度为w,初始值均为0的二进制编码模型,通过k个哈希函数映射,把集合中的元素一一映射到模型中,每当模型中一个位置被激发,修改该位置的值为1。然后使用同样的哈希函数映射给定的查询点,当模型中查询点所映射的k个位置均显示1时,证明该查询点存在集合中,即v∈S,输出True,否则,输出结果为False,即该查询点不在集合S中。
针对IIoT数据的异常检测,由于异常的IIoT数据特征不同于正常的IIoT数据,并且异常的IIoT数据数量占少数,因此本发明的工作是建立在样本数据的两个假设基础上的,即(1)异常数据具有区别于正常数据的特征;(2)异常数据的数量远远小于正常数据的数量。
本发明利用局部敏感Bloom Filter模型,结合SP-FJLT矩阵投影,相互竞争策略(Mutual Competition,MC),提出LSBF异常检测算法,算法总体框架如图1所示.
(1)数据预处理:在输入IIoT的原始多类型数据后,通过特征化将多媒体数据转换成特征向量;在这个过程中,对文本数据进行特征提取,通常采用TF-IDF方法或词频方法,以将文本数据转换为欧式空间下的特征向量;对图像数据进行特征提取时,通过提取SIFT特征值进行特征化处理。
(2)构建SP-FJLT:IIoT数据利用本发明提出的SP-FJLT进行哈希投影,首先构建FJLT投影变换,然后进行空间划分,并采用MC策略进行除噪。
(3)构建LSBF:IIoT数据通过SP-FJLT投影变换后,在通过相互竞争策略进行除噪,最后映射到Bloom Filter上,Bloom Filter被哈希映射的位向量有“0”变为“1”。
降维投影结构:降维是数据分析中常用的方法,它将高维数据投影到低维空间中,同时保留尽可能多的信息。JL定理证明了这一类线性映射的存在性,它提供了任意数量的点从高维欧氏空间到指数低维空间的低失真嵌入。JLT是一个提供了高概率嵌入的随机线性映射,FJLT利用快速FFT的矩阵向量乘法仅在嵌入维数略有增加的同时减少嵌入的复杂性。研究了具有结构的高维子空间的降维问题,具体的说,就是利用数据的空间性质,对数据进行空间划分。在这种情况下,可以很大程度降低数据的失真程度。空间划分是一种重要的数学模型,在信号处理、数据挖掘、模式识别、图论等领域都有重要应用。本发明提出的SP-FJLT映射以傅里叶变换为基础,用JL定理指导空间划分,克服降维过程中的缺陷,同时利用数据的空间分布性质,增强了映射的保距性能。
本发明给出FJLT的组成:
Figure BDA0003136895080000051
是一个元素独立分布的m×d矩阵。k=δd,δ是参数,d是数据初始维度。
在概率1-q的情况下设置Pij=0,否则(其余概率)从方差为0,期望为q-1的正态分布中提取pij,稀疏常量q表示为:
Figure BDA0003136895080000052
FN∈Cn×n:是一个标准化的Walsh-Hadamard矩阵
Figure BDA0003136895080000053
<i,j>是m位向量i,j在二进制中的点积(模2)。
DN∈Rn×n:是一个d×d的对角阵,Dii为1的概率是1/2,否则Dii为-1。
SP-FJLT从单位球SD-1中随机均匀地选择一个方向,并使用与该方向正交的超平面利用数据空间分布性质进行划分,组成如下:
Figure BDA0003136895080000054
本发明使用SP-FJLT矩阵投影变换来最小化数据的失真,从而保证了算法的准确性。与传统的稀疏矩阵投影和FJLT矩阵相比,SP-FJLT矩阵具有更好的覆盖率,可以更好地利用数据分布的性质来保持数据的准确性,特别是当输入数据是一个稀疏向量(它有许多零元素)时。
本发明提出的LSBF异常检测算法训练布隆过滤器的过程采用半监督模式,只需要正常IIoT数据进行训练。但是数据收集过程存在误差,不可避免的把一些异常IIoT数据标记成正常IIoT数据。因此当IIoT数据通过哈希投影后,相似的数据都被映射至同一编码,采用相互竞争策略(Competitive Learning,MC)对编码进行优化,即根据编码所含的数据比例进行竞争,剔除数据量稀疏的编码,保留数据量在前β的编码,如公式(4)。这一步骤有利于删除那些标记成正常类的异常数据,并且有效降低了算法的假阳性。
Figure BDA0003136895080000055
构建LSBF:正常的IIoT数据通过SP-FJLT哈希投影后,在经过相互竞争策略进行除,然后映射到Bloom Filter上,Bloom Filter对应的位向量发生改变。既初始的BloomFilter位向量全为“0”标记,当对应的位置被SP-FJLT映射后,“0”转变为“1”。意味着此位向量已被哈希映射,既该位是正常数据映射的位。
LSBF算法及复杂度分析:本发明提出的算法(见Algorithm 1:LSBF)由两部分组成。首先SP-FJLT投影算法将数据进行投影,然后采用MC策略进行除噪,最后利用0-1编码构建LSBF;计算复杂度分析如下:
1)构建SP-FJLT投影算法。(Step 1in Alg.1):O((dlogd+min{dε-2logn,εp-4logp+ 1n})d3·n)
2)通过MC,将二进制编码所含的数据比例进行提取。(Step 2in Alg.1):O(cn)
3)构建LSBF。(Step 3in Alg.1):O(cmk)
Figure BDA0003136895080000061
LSBF算法的计算复杂度在第二步构建SP-FJLT投影是最大的,因此整个算法的计算复杂度由第一步,即构建SP-FJLT投影算法决定的,它的计算复杂度0((dlogd+min{dε- 2logn,εp-4logp+1n})d3·n)。通过进一步分析时间复杂可知,LSBF算法的计算复杂度跟数据数量以及维数呈正相关。
常规哈希方法在降维的过程中不可避免的损失数据集内部数据对象之间的相似性,本发明提出的LSBF算法中,SP-FJLT哈希投影充分利用了数据的空间分布特性对数据进行空间划分,最大程度保留了数据对象的相似性,拥良好的保距性能。
SP-FJLT算法中,空间划分主要的难点是球面S与映射μ在内在维度的依赖关系。
定理:假设集合S∈RD是拥有其特征矩阵前d个特征值。选择一个随机向量U~N(0,(1/D)ID),以任何方式(可能依赖U)将S划分成S1,S2两部分。让p=|S1|/|S|,u1和u2分别代表S1,S2的均值,u′1和u′2分别代表S1·U和S2·U的均值。对于任何δ>0,有大于1-δ的概率选择最佳的U,最大程度上保留了数据对象的相似性。
Figure BDA0003136895080000062
证明:在不失一般性的前提下假设S的均值为0。让H是由cov(S)上的d个特征向量组成的子空间,H是它的正交子空间。把任意点x∈RD写成xH+x,其中每一个分量都是RD的一个向量,并且位于各自的子空间。
选取随机向量U,有大于1-δ的概率满足如下两个性质。
性质1:对于任意一个常数c′>0,对于所有x∈RD
Figure BDA0003136895080000071
性质2:设X是从S中抽取的均匀随机数
Figure BDA0003136895080000072
第一步来自于马尔可夫不等式,并持有以概率1-δ/2。最后一个不等式来自于局部协方差条件。
假设这两个性质成立,把u2-u1写成(u2H-u1H)+(u2⊥-u1⊥),
(u′2-u′1)2=((u2H-u1H)·U+(u2⊥-u1⊥)·U)2 (9)
≤2((u2H-u1H)·U)2+2((u2⊥-u1⊥)·U)2
第一项可以由性质1限定:
Figure BDA0003136895080000073
对于第二项,设EX表示从S中随机均匀选取的期望,有
Figure BDA0003136895080000074
因此本发明提出的SP-FJLT可以选择最佳的U进行划分,最大程度减少了数据间的相似性损失,拥有良好的保距性能。
下面通过实验对比对本发明进行进一步说明:
在实验部分,以异常检测的检测率(detection rate,DR)和误报率(false alarmrate,FAR)来检验本发明提出的LSBF算法性能。检测率是表示检测出的测试数据(TP+TN)占所有测试数据(P+N)的比例,误报率是表示误检的测试数据(FP+FN)占所有测试数据(P+N)的比例。其中:
Figure BDA0003136895080000075
对于每组数据集,选取其中百分之八十的正常数据作为训练集,百分之二十的正常数据以及异常数据作为测试集。对于每组实验,将重复进行二十次,通过平均的检测率和误报率来衡量结果。接下来,将按照上述标准,对算法进行四轮实验。实验1:将本发明提出的SP-FJLT投影算法与传统的LSH投影算法比较二者的保距性能。实验2:探究相互竞争的参数β对检测率的影响。实验3(对比实验):LSBF算法与异常检测算法在IIoT领域的数据集上进行对比。
仿真数据集:为了充分展现算法在不同数据分布下的异常检测性能,挑选了三个不同领域中的大规模高维仿真IIoT数据集进行对比实验,这三种数据集是IIoT领域常用的数据评测数据集。
SIFT:是图像数据集,包含15000条正常数据和500条异常数据。
MNIST:是手写数字识别的数据集,包含32000条正常数据和600条异常数据。
FMA:是音频数据集,包含25000条正常数据和1000条异常数据。
实验结果及分析:
实验1:设计该实验是为了比较SP-FJLT投影算法和传统的LSH投影[24]算法的保距性。在实验过程中,使用两种不同的投影算法SP-FJLT和传统的LSH投影算法,投影后的数据保留5,10,15,20,25个哈希位映射到Bloom Filter,通过检测率来比较两种投影算法的保距性能,实验结果如图5所示,SP-FJLT算法和LSH算法保距性比较的对比图,其中(a)在SIFT数据集上比较二者保距性,(b)在MNIST数据集上比较二者保距性,(c)在FMA数据集上比较二者保距性。
通过实验1发现:在三个不同的IIoT数据集上,本发明提出的SP-FJLT算法的保距性能明显优于LSH算法,因此SP-FJLT算法更适合异常检测模型。SP-FJLT算法能够尽可能减少数据的失真程度,让数据通过哈希后能够准确的映射到Bloom Filter的向量位中。
实验2:设计该实验是探究相互竞争策略中参数β对检测率的影响。在实验中,将参数β分别取值为0.7,0.75,0.8,0.85,0.9,并且投影后保留15个哈希位映射到Bloom Filter中,比较不同取值β下在SIFT、MNIST和FMA数据集的检测率,实验结果如表1所示。
表1探究参数β在SIFT、MNIST和FMA数据集上对检测率的影响
Figure BDA0003136895080000081
通过实验2发现:随着参数β的增大,算法的检测率也随之增高。但是,β的最佳取值范围在0.80-0.85,超过这个取值范围后,算法检测率下降。算法检测率随之增大的原因是假阴不断下降,在超过最佳取值范围后,增大参数β的取值会让算法的假阳性增大,因此参数β的最佳取值在0.80-0.85.
实验3:本发明提出的LSBF异常检测算法与如下算法在IIoT领域的三个数据集上进行对比,如表2所示。
表2在SIFT数据集,MNIST数据集和FMA数据集上对比实验结果
Figure BDA0003136895080000091
结合表2可知,MUVAD:该方法提出一个异常度量标准,并利用这个标准来制定MUVAD的目标,以显式地估计正常实例集,从而优化异常检测算法的精度。
Fast-ODT:使用离群检测树,构造一个分类树将数据集分类为两个类。然后,使用树中的if-then规则将每个数据点分为离群点和正常点。
HUAD:该模型集成了卷积自编码器和高斯回归来提取特征和去除噪声数据中的异常,并且对数据集异常率的变化具有更强的鲁棒性
DDAD:基于输入数据分布(即传感器数据)的高效、网络内近似,并且可以有效地扩展到多个维度。这些近似也可以用于其他应用程序,例如范围查询的在线估计。通过估计数据的潜在分布来识别异常,并且以分散的方式处理尽可能多的数据。
GFUAD:提出几何框架的无监督异常检测,这是算法的设计,以处理无标记数据。数据元素被映射到特征空间,这通常是一个向量空间d。异常被检测,通过确定哪些点位于特征空间的稀疏区域。提出了两个特征映射数据元素到特征空间。第一个映射是一个依赖于数据的规范化特征映射,将其应用于网络连接。第二个特性映射是一个频谱内核,将其应用于系统调用跟踪。
通过实验3发现,本发明提出的LSBF算法在三种IIoT数据集上的检测率都要优于其他异常检测算法,LSBF算法的误检率都要低于10%,因此LSBF算法在检测率和误检率行都体现出了更加优秀的性能,能够有效检测出隐性异常。并且LSBF算法训练布隆过滤器模型的过程中只需要正常数据,不需要异常数据,这也提高了模型的通用性。
本发明采用以上技术方案,(1)提出的基于空间划分的快速Johnson-Lindenstrauss变换(SP-FJLT)具有很强的映射保距性,可以准确识别隐性特征,减少了数据在哈希投影中的精度损失。(2)提出的基于局部敏感BloomFilter模型的异常检测算法LSBF能够有效的对高维度、大规模、多类型的IIoT数据进行异常检测,探测隐性异常,提高检测的准确率。(3)LSBF算法是半监督模式,即训练过程中不需要异常类标签的数据。本发明使用3个仿真数据集进行充分的实验评估,与多个典型的异常检测算法进行比较。实验结果表明,本发明方法具有更高的检测率以及更低的误报率。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

Claims (7)

1.基于局部敏感布隆过滤器的工业物联网隐性异常检测方法,其特征在于:其包括以下步骤:
步骤1,获取工业物联网IIoT的原始多类型数据,并通过特征化将多媒体数据转换成特征向量;
步骤2,IIoT数据利用SP-FJLT进行哈希投影,
步骤3,SP-FJLT投影变换后的IIoT数据通过相互竞争策略进行除噪后映射到BloomFilter上,Bloom Filter被哈希映射的位向量由“0”变为“1”。
步骤4,待检测的IIoT数据通过SP-FJLT投影到布隆过滤器的位向量上,检查映射的k个位向量是否都为1;当满足k个位向量均为1时,则判定为正常数据;否则,判定为异常数据。
2.根据权利要求1所述的基于局部敏感布隆过滤器的工业物联网隐性异常检测方法,其特征在于:步骤1中对文本数据进行特征提取采用TF-IDF方法或词频方法,以将文本数据转换为欧式空间下的特征向量;对图像数据进行特征提取时通过提取SIFT特征值进行特征化处理。
3.根据权利要求1所述的基于局部敏感布隆过滤器的工业物联网隐性异常检测方法,其特征在于:步骤2中的具体方法为:首先构建FJLT投影变换,然后进行空间划分,并采用MC策略进行除噪得到对应的哈希投影。
4.根据权利要求3所述的基于局部敏感布隆过滤器的工业物联网隐性异常检测方法,其特征在于:步骤2的FJLT的组成为:
Figure FDA0003136895070000011
其中,P∈Rk×d是一个元素独立分布的m×d矩阵,k=δd,δ是参数,d是数据初始维度,在概率1-q的情况下设置Pij=0,否则从方差为0且期望为q-1的正态分布中提取pij,稀疏常量q表示为:
Figure FDA0003136895070000012
其中p表示为二阶范式;n表示数据的数据量,d表示数据初始维度;
FN∈Cn×n是一个标准化的Walsh-Hadamard矩阵,
Figure FDA0003136895070000013
<i,j>是m位向量i,j在二进制中的点积;DN∈Rn×n是一个d×d的对角阵,Dii为1的概率是1/2,否则Dii为-1。
5.根据权利要求3所述的基于局部敏感布隆过滤器的工业物联网隐性异常检测方法,其特征在于:步骤2的空间划分为:SP-FJLT从单位球SD-1中随机均匀地选择一个方向,并使用与该方向正交的超平面利用数据空间分布性质进行划分,具体组成如下:
Figure FDA0003136895070000021
其中,k表示数据经过FJLT投影后的维度,n表示数据量,
Figure FDA0003136895070000022
表示FJLT投影的组成,z表示单位球面的高斯函数。
6.根据权利要求3所述的基于局部敏感布隆过滤器的工业物联网隐性异常检测方法,其特征在于:步骤3中哈希投影后相似的数据被映射至同一编码,将编码采用相互竞争策略与设定的参数进行比较;将大于设定参数的编码予以保留,小于设定参数的编码剔除。
7.根据权利要求3所述的基于局部敏感布隆过滤器的工业物联网隐性异常检测方法,其特征在于:步骤3中初始的Bloom Filter位向量全为“0”标记,当对应的位置被SP-FJLT映射后,“0”转变为“1”,意味着此位向量已被哈希映射,既该位是正常数据映射的位。
CN202110721174.7A 2021-06-28 2021-06-28 基于局部敏感布隆过滤器的工业物联网隐性异常检测方法 Active CN113364884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110721174.7A CN113364884B (zh) 2021-06-28 2021-06-28 基于局部敏感布隆过滤器的工业物联网隐性异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110721174.7A CN113364884B (zh) 2021-06-28 2021-06-28 基于局部敏感布隆过滤器的工业物联网隐性异常检测方法

Publications (2)

Publication Number Publication Date
CN113364884A true CN113364884A (zh) 2021-09-07
CN113364884B CN113364884B (zh) 2023-06-30

Family

ID=77536841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110721174.7A Active CN113364884B (zh) 2021-06-28 2021-06-28 基于局部敏感布隆过滤器的工业物联网隐性异常检测方法

Country Status (1)

Country Link
CN (1) CN113364884B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150215236A1 (en) * 2014-01-29 2015-07-30 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for locality sensitive hash-based load balancing
CN107220343A (zh) * 2017-05-26 2017-09-29 福州大学 基于局部敏感哈希的中文多关键词模糊排序密文搜索方法
CN109739999A (zh) * 2019-01-16 2019-05-10 福建师范大学 一种高效的果蝇神经网络哈希搜索wmsn数据方法
US20190190938A1 (en) * 2017-12-15 2019-06-20 Panasonic Intellectual Property Corporation Of America Anomaly detection method, learning method, anomaly detection device, and learning device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150215236A1 (en) * 2014-01-29 2015-07-30 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for locality sensitive hash-based load balancing
CN107220343A (zh) * 2017-05-26 2017-09-29 福州大学 基于局部敏感哈希的中文多关键词模糊排序密文搜索方法
US20190190938A1 (en) * 2017-12-15 2019-06-20 Panasonic Intellectual Property Corporation Of America Anomaly detection method, learning method, anomaly detection device, and learning device
CN109739999A (zh) * 2019-01-16 2019-05-10 福建师范大学 一种高效的果蝇神经网络哈希搜索wmsn数据方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
张震;付印金;胡谷雨;: "基于布隆过滤器的新型混合内存架构磨损均衡策略", 计算机应用, no. 08 *
杜玲;陈振;: "图像篡改检测感知哈希技术综述", 计算机科学与探索, no. 05 *
杨东升;张展;廉梦佳;王丽娜;: "位图局部敏感哈希的匹配二进制特征搜索算法", 吉林大学学报(工学版), no. 03 *
杨凯;陈丽芳;刘渊;: "基于扩展级联原始位置敏感散列的快速影像特征匹配", 计算机工程, no. 08 *
王少龙;张毅卜;徐敏;陈珍;夏靖波;: "基于改进型Bloom Filter的网络流抽样算法", 电子设计工程, no. 24 *
王珂;: "网络安全事件关联分析系统设计――基于布隆过滤器的", 淮南职业技术学院学报, no. 03 *
黄志鹏;: "基于局部敏感布隆过滤器的集合相似检测技术", 数据通信, no. 06 *

Also Published As

Publication number Publication date
CN113364884B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN108470354B (zh) 视频目标跟踪方法、装置和实现装置
Zhong et al. A convolutional neural network-based flame detection method in video sequence
Sabokrou et al. Real-time anomaly detection and localization in crowded scenes
Huang et al. Feature space singularity for out-of-distribution detection
US10860683B2 (en) Pattern change discovery between high dimensional data sets
KR101581112B1 (ko) 계층적 패턴 구조에 기반한 기술자 생성 방법 및 이를 이용한 객체 인식 방법과 장치
US8249366B2 (en) Multi-label multi-instance learning for image classification
WO2015032585A1 (en) Content based image retrieval
CN107688829A (zh) 一种基于支持向量机的识别系统及识别方法
CN108596949B (zh) 视频目标跟踪状态分析方法、装置和实现装置
CN110532413B (zh) 基于图片匹配的信息检索方法、装置、计算机设备
Ye et al. Abnormal event detection via feature expectation subgraph calibrating classification in video surveillance scenes
Djerida et al. Background subtraction in dynamic scenes using the dynamic principal component analysis
Işık et al. CVABS: moving object segmentation with common vector approach for videos
He et al. Practical tracking method based on best buddies similarity
Sha et al. Robust kernel principal component analysis and its application in blockage detection at the turn of conveyor belt
Cheng et al. Soft instance-level domain adaptation with virtual classifier for unsupervised hyperspectral image classification
CN110503631B (zh) 一种遥感图像变化检测方法
CN113364884B (zh) 基于局部敏感布隆过滤器的工业物联网隐性异常检测方法
Onderwater Outlier preservation by dimensionality reduction techniques
CN111027609A (zh) 一种图像数据加权分类方法和系统
Esfahani et al. ISAIR: Deep inpainted semantic aware image representation for background subtraction
CN111242980B (zh) 一种面向点目标的红外焦平面盲元动态检测方法
Zhong et al. Background modelling using discriminative motion representation
Gao et al. Vision-Language Interaction via Contrastive Learning for Surface Anomaly Detection in Consumer Electronics Manufacturing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant