CN112988815A - 一种大规模高维高速流数据在线异常检测的方法及系统 - Google Patents

一种大规模高维高速流数据在线异常检测的方法及系统 Download PDF

Info

Publication number
CN112988815A
CN112988815A CN202110279428.4A CN202110279428A CN112988815A CN 112988815 A CN112988815 A CN 112988815A CN 202110279428 A CN202110279428 A CN 202110279428A CN 112988815 A CN112988815 A CN 112988815A
Authority
CN
China
Prior art keywords
data
matrix
hash
sketch
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110279428.4A
Other languages
English (en)
Other versions
CN112988815B (zh
Inventor
范兴容
王建辉
郭智威
赵晓龙
赵度江
申渝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Technology and Business University
Original Assignee
Chongqing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Technology and Business University filed Critical Chongqing Technology and Business University
Priority to CN202110279428.4A priority Critical patent/CN112988815B/zh
Publication of CN112988815A publication Critical patent/CN112988815A/zh
Application granted granted Critical
Publication of CN112988815B publication Critical patent/CN112988815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于流数据挖掘技术领域,具体涉及一种大规模高维高速流数据在线异常检测的方法及系统,包括:采用矩阵素描模型对高速传输的数据块进行处理,得到素描矩阵;将素描矩阵输入到哈希学习模型中,得到当前时刻最优模型参数和特征哈希表;根据最优模型参数和特征哈希表构建异常分计算模型,将待检测样本数据输入到异常分计算模型中进行检测,判断该样本数据是否异常;本发明采用矩阵素描和哈希学习技术不仅能降低数据规模和特征维度、提高检测速度和存储效率,而且通过在线更新检测模型能够自适应流数据分布的动态变化,有效地解决了当前大规模高维高速环境下无法实时高效地对流数据进行异常检测的问题。

Description

一种大规模高维高速流数据在线异常检测的方法及系统
技术领域
本发明属于流数据挖掘技术领域,具体涉及一种大规模高维高速流数据在线异常检测的方法及系统。
背景技术
流数据(Streaming Data,SD)通常是指一组顺序、大量、快速、连续到达的数据序列,具有海量、高速、连续、无边界、分布动态变化与不平衡等特性。异常检测方法能够从流数据中检测出异常数据,是数据挖掘领域中的重要技术方法。现有的异常检测方法主要采用基于统计、机器学习、信息理论等方法构建检测模型,并在静态数据集中得到了广泛的研究和应用。但是这些方法需要完整的数据集,且需要进行多次数据分析读取,具有实时性差、计算量大等缺陷,难以满足未来5G时代大规模高维高速流数据环境下的实时性和存储要求。
目前,为了满足在有限的存储和计算资源下日益增长的流数据异常检测需求,提出了一种包括基于距离的、基于密度的、增量学习(Incremental Learning)、在线集成学习(Ensemble Learning)等大规模高维高速流数据在线检测的关键技术;另外,也提出了隔离深林(Isolation Forest)、过滤树(Filter Tree)、二分空间树(Half-Space Trees,HS-Trees)、Hoeffding树、超格结构(Hyper-Grid Structure)等多种与增量学习和集成学习的融合技术用来减少计算和存储开销。
然而这些流数据异常检测技术均采用空间划分、多个检测器组合等方法,该方法依赖基于几何与统计距离的相似性度量准则,需要较高的存储和计算开销,无法有效处理高维流数据异常检测,并且上述方法中没有考虑数据编码特性。因此,急需一种面向大规模高维高速流数据的在线异常检测方法。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种大规模高维高速流数据在线异常检测的方法,该方法包括:获取高速传输的正常数据块,将正常数据块中的数据输入到在线异常检测模型中进行训练;将待测样本数据输入到训练好的在线异常检测模型,判断待测样本数据是否为正常数据;若为正常数据,则将该数据进行更新,生成新的正常数据块,并作为下次数据异常检测的训练数据;若为异常数据,则对该数据进行标记;所述在线异常检测模型包括改进的矩阵素描模型、哈希学习模型以及异常分计算模型。
优选的,将待测样本数据输入到训练好的在线异常检测模型进行检测的过程包括:
S1:将正常数据块中的数据输入到改进的矩阵素描模型中,得到素描矩阵;
S2:将素描矩阵输入到哈希学习模型中,通过哈希目标函数对素描矩阵进行优化,得到最优模型参数
Figure BDA0002978088070000021
根据最优模型参数得到哈希投影矩阵;
S3:采用哈希投影矩阵对素描矩阵进行映射,得到特征哈希表Ht
S4:获取待检测样本数据;
S5:将待检测数据和输入到异常分计算模型中,判断该数据是否为异常数据。
进一步的,采用改进的矩阵素描模型对正常数据块中的数据进行处理的过程包括:
S11:根据正常数据块中的数据构建数据矩阵Z,选取精度参数ε;其中数据矩阵
Figure BDA0002978088070000022
其中,
Figure BDA0002978088070000023
表示一个d×l的实数空间;
S12:根据数据矩阵Z设置迭代次数;
S13:根据精度参数ε初始化一个d×l的全零矩阵,其中B=[b1,b2,…,bi,…bl];
S14:将数据矩阵Z的第i列数据替换全零矩阵B的最后一列,构成新的矩阵T;其中,i∈1,2,...,n;
S15:对新的矩阵T进行奇异值分解,得到新矩阵的奇异值、矩阵T的左奇异矩阵U以及矩阵T的对角矩阵∑;
S16:选取矩阵T的最小奇异值δ,根据最小奇异值对矩阵T的对角矩阵进行扫描更新;
S17:根据更新后的对角矩阵
Figure BDA0002978088070000031
以及左奇异矩阵U构建更新素描矩阵B;将i的值加1;
S18:判断此时i和迭代次数的大小,若i大于设置的迭代次数,则输出此时的是素描矩阵B,否则返回步骤S14。
优选的,采用哈希学习模型对素描矩阵进行处理的过程包括:采用哈希投影分方法分别对素描矩阵中的各列数据进行处理,得到各列数据的哈希投影向量;根据哈希投影向量以及素描矩阵,得到最优模型参数
Figure BDA0002978088070000032
该模型的最优参数为哈希目标函数优化的最大目标函数,根据最大目标函数得到投影矩阵。
进一步的,最优模型参数的公式为:
Figure BDA0002978088070000033
优选的,根据哈希投影矩阵得到特征哈希表的公式为:
Figure BDA0002978088070000034
优选的,采用异常分计算模型对处理后的待检测样本数据的过程包括:
步骤1:将处理后的待检测样本数据矩阵和正常样本特征哈希表、哈希投影矩阵输入到异常分计算模型中;
步骤2:设置阈值参数ζ;
步骤3:根据哈希投影矩阵对待检测样本数据矩阵中的各列数据xi进行二值哈希编码
Figure BDA0002978088070000035
其中i∈1,2,...,n;
步骤4:从正常样本特征哈希表中寻找二值哈希编码
Figure BDA0002978088070000036
的K个最近邻哈希编码
Figure BDA0002978088070000037
步骤5:计算二值哈希编码
Figure BDA0002978088070000038
与K个最近邻哈希编码
Figure BDA0002978088070000039
之间汉明距离的平均值ai
步骤6:判断平均值ai与设置的阈值参数ζ的大小,若ai≤ζ,则该列数据为正常数据;否则该列数据为异常数据;
步骤7:确定待检测样本中的数据是否检测完,若检测完成,则将所有的异常数据进行集合标记,输出正常数据;若未检测完,则返回步骤3。
进一步的,二值哈希编码与最近邻哈希编码
Figure BDA0002978088070000041
的汉明距离平均值的公式为:
Figure BDA0002978088070000042
优选的,对数据进行更新的过程包括:将得到的正常数据转化为数据矩阵;采用基于线性哈希投影方法将矩阵素描模型得到的素描矩阵映射到二值汉明空间中,得到更新后的哈希投影矩阵;将数据矩阵和素描素描矩阵进行打包,形成新的正常数据块。
一种大规模高维高速流数据在线异常检测系统,该系统包括:数据采集模块、矩阵素描模块、哈希学习模块、异常判断模块、判断结果输出模块以及模型更新模块;
所述数据采集模块用于采集数据,并将采集的数据输入到矩阵素描模块中;
所述矩阵素描模块用于对大规模高维高速流数据进行矩阵素描,生成素描矩阵;
所述哈希学习模块用于将素描矩阵中的数据映射到汉明空间,生成哈希投影矩阵和特征哈希表;
所述异常判断模块根据哈希投影矩阵和特征哈希表计算待测数据的异常分,将计算出异常分与设置的异常阈值进行比较,得到待检测数据的检测结果;
所述判断结果输出模块用于输出检测结果;
所述模型更新模块根据待检测数据的检测结果对模型的数据属性和分布特点进行更新。
本发明将矩阵素描技术和哈希学习技术有效的结合起来,为大规模高维高速流数据在线异常检测提供了一种新视角的解决方案,为当下乃至未来5G网络背景下大规模高维高速流数据在线异常检测的超高速、超高性能、超低时延、超高计算和存储效率提供了技术支持。
附图说明
图1为本发明所提出的大规模高维高速流数据在线异常检测方法原理结构框图;
图2是本发明所提出的大规模高维高速流数据在线异常检测方法技术路线图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种大规模高维高速流数据在线异常检测方法原理结构框图,将数据输入到矩阵素描驱动的子模型和哈希学习驱动子模型中,其中矩阵素描驱动的子模型和哈希学习驱动子模型通过耦合算子双向连接;经过模型处理后,得到正常数据和异常数据。在图1中,Xt+1表示在t+1时刻输入的流数据,
Figure BDA0002978088070000051
分别表示在t+1时刻模型实时检测出的正常和异常数据。
本发明将大规模高维高速流数据抽象为一个在时间轴上持续高速产生且无限增长的动态数据集合,即
Figure BDA0002978088070000052
其中,Dt表示第t时刻高速传输来的数据块,d和nt分别表示数据块Dt的特征空间维度和样本数据规模。
一种大规模高维高速流数据在线异常检测的方法,该方法包括:获取高速传输的正常数据块,将正常数据块中的数据输入到在线异常检测模型中进行训练;将待测样本数据输入到训练好的在线异常检测模型,判断待测样本数据是否为正常数据;若为正常数据,则将该数据进行更新,生成新的正常数据块,并作为下次数据异常检测的训练数据;若为异常数据,则对该数据进行标记;所述在线异常检测模型包括改进的矩阵素描模型、哈希学习模型以及异常分计算模型。
一种大规模高维高速流数据在线异常检测的方法的具体实施方式,包括:获取高速传输的正常数据块;采用改进的矩阵素描模型对正常数据块进行处理,得到素描矩阵;将素描矩阵输入到哈希学习模型中,通过哈希目标函数对素描矩阵进行优化,得到当前时刻最优模型参数
Figure BDA0002978088070000061
和一个特征哈希表Ht;获取下一时刻待检测样本数据,将该数据和特征哈希表Ht输入到异常分计算模型中,得到待检测样本数据的异常分;设置异常分阈值参数,将待检测样本数据的异常分与异常分阈值参数进行比较,若计算出的异常分大于设置的异常分阈值参数,则待检测样本数据为异常数据,将该数据删除;若计算出的异常分小于设置的异常分阈值参数,则该数据为正常数据。
一种将待测样本数据输入到训练好的在线异常检测模型进行检测的优选实施例,如图2所示,具体包括:
S1:将正常数据块中的数据输入到改进的矩阵素描模型中,得到素描矩阵;
S2:将素描矩阵输入到哈希学习模型中,通过哈希目标函数对素描矩阵进行优化,得到最优模型参数
Figure BDA0002978088070000062
根据最优模型参数得到哈希投影矩阵;
S3:采用哈希投影矩阵对素描矩阵进行映射,得到特征哈希表Ht
S4:获取待检测样本数据;
S5:将待检测数据和输入到异常分计算模型中,判断该数据是否为异常数据。
采用改进的矩阵素描模型对正常数据块中的数据进行处理的过程包括:
S11:根据正常数据块中的数据构建数据矩阵Z,选取精度参数ε;其中数据矩阵
Figure BDA0002978088070000063
Figure BDA0002978088070000064
表示一个d×n的实数空间。
可选的,选取的精度参数ε的取值范围为(0,1]。
S12:根据数据矩阵Z设置迭代次数。
由于数据矩阵Z为一个d×n的实数空间,因此设置的迭代次数为数据矩阵Z的列数,即设置的迭代次数为n。
S13:根据精度参数ε初始化一个d×l的全零矩阵,其中B=[b1,b2,…,bi,…bl]。
初始的全零矩阵中,由于选取的精度参数为ε,则有设置的全零矩阵的列数为精度参数的倒数向上取整,得到全零矩阵的列数,即
Figure BDA0002978088070000071
其中,
Figure BDA0002978088070000072
表示向上取整运算。
S14:将数据矩阵Z的第i列数据替换全零矩阵B的最后一列,构成新的矩阵T,即T←[b1,…,bl-1,zi],其中,i∈1,2,...,n。
S15:对新的矩阵T进行奇异值分解,得到新矩阵的奇异值、矩阵T的左奇异矩阵U以及矩阵T的对角矩阵∑。对新矩阵T进行奇异值分解的公式为:
[U,∑,V]←SVD(T)
∑=diag([σ1,…,σl]),σ1≥…≥σl
其中,U表示矩阵T的左奇异矩阵,∑表示矩阵T的对角矩阵,V表示矩阵T的右奇异矩阵,diag表示对角线元素为σ1,…,σl的对角矩阵,σl表示矩阵T的第l个奇异值。
S16:选取矩阵T的最小奇异值δ,根据最小奇异值对矩阵T的对角矩阵进行扫描更新。
选取的最小奇异值的公式为:
Figure BDA0002978088070000073
根据最小奇异值对矩阵T的对角矩阵进行扫描更新的公式为:
Figure BDA0002978088070000074
其中,Il表示l×l的单位矩阵,δ表示最小奇异值。
S17:根据更新后的对角矩阵
Figure BDA0002978088070000075
以及左奇异矩阵U构建更新素描矩阵B;将i的值加1;素描矩阵更新公式为:
Figure BDA0002978088070000076
S18:判断此时i和迭代次数的大小,若i大于设置的迭代次数,则输出此时的是素描矩阵B,否则返回步骤S14。
具体算法如算法1所示。
Figure BDA0002978088070000081
其中,ε表示素描矩阵设定的精度参数;
Figure BDA0002978088070000082
为一个d×l的实数空间;l为精度参数ε的倒数;bi表示矩阵B的第i列向量;zi表示数据矩阵的第i列向量;T表示新构造的矩阵[b1,…,bl-1,zi];U表示矩阵T的左奇异矩阵;∑表示矩阵T的对角矩阵;V表示矩阵T的右奇异矩阵;diag表示对角线元素为σ1,…,σl的对角矩阵;σl表示矩阵T的第l个奇异值;δ表示矩阵T的最小奇异值;
Figure BDA0002978088070000083
表示由
Figure BDA0002978088070000084
重新计算得到的对角矩阵,Il表示一个l×l的单位矩阵。
一种采用哈希学习模型对素描矩阵进行处理具体实施方式,包括:采用哈希投影分方法分别对素描矩阵中的各列数据进行处理,得到各列数据的哈希投影向量;根据哈希投影向量以及素描矩阵,得到最优模型参数
Figure BDA0002978088070000085
该模型的最优参数为哈希目标函数优化的最大目标函数,根据最大目标函数得到投影矩阵。
采用基于线性哈希投影方法构建哈希学习模型;线性哈希投影方法为:
Figure BDA0002978088070000091
其中,hk表示哈希函数组Ht=[h1,h2,…,hk,…,hr]的第k个哈希函数,
Figure BDA0002978088070000092
表示哈希投影矩阵
Figure BDA0002978088070000093
的第k个投影向量,sgn(·)为符号函数,
Figure BDA0002978088070000094
表示数据块Dt的素描矩阵,bi表示素描矩阵的第i列。
采用线性哈希投影方法计算特征哈希表,特征哈希表的计算公式为:
Figure BDA0002978088070000095
其中,Wt表示哈希投影矩阵,T表示转置,Bt表示数据块Dt的素描矩阵。
哈希目标函数优化是最大化目标函数,并求解模型参数Wt的过程。其中最大化目标函数的公式为:
Figure BDA0002978088070000096
其中,
Figure BDA0002978088070000097
表示一个d×r的实数空间,Bt表示素描矩阵,Wt表示投影矩阵,T表示转置,tr(·)表示矩阵的迹,Ir表示一个r×r的单位矩阵。
一种采用异常分计算模型对处理后的待检测样本数据的具体实施方式,包括:
步骤1:将处理后的待检测样本数据矩阵
Figure BDA0002978088070000098
和正常样本特征哈希表
Figure BDA0002978088070000099
哈希投影矩阵
Figure BDA00029780880700000910
输入到异常分计算模型中;其中r≤d。
步骤2:设置阈值参数ζ;
步骤3:根据哈希投影矩阵对待检测样本数据矩阵中的各列数据xi进行二值哈希编码
Figure BDA00029780880700000911
其中i∈1,2,...,n。
步骤4:从正常样本特征哈希表中寻找二值哈希编码
Figure BDA00029780880700000912
的K个最近邻哈希编码
Figure BDA00029780880700000913
步骤5:计算二值哈希编码
Figure BDA00029780880700000914
与K个最近邻哈希编码
Figure BDA00029780880700000915
之间汉明距离的平均值ai
步骤6:判断平均值ai与设置的阈值参数ζ的大小,若ai≤ζ,则该列数据为正常数据;否则该列数据为异常数据;
步骤7:确定待检测样本中的数据是否检测完,若检测完成,则将所有的异常数据进行集合标记,输出正常数据;若未检测完,则返回步骤3。
异常分计算模型是基于待检测样本数据的二值哈希编码
Figure BDA0002978088070000101
与它在特征哈希表中K个最邻近哈希编码
Figure BDA0002978088070000102
之间的汉明距离的平均值构建得到的。
待检测样本数据的二值哈希编码可表示为:
Figure BDA0002978088070000103
其中,
Figure BDA0002978088070000104
为xi在汉明空间的二值哈希编码。
汉明距离的平均值计算公式为:
Figure BDA0002978088070000105
其中,ai定义为待检测样本的异常分(Anomaly Score);K表示用户设定的最近邻哈希编码个数,一般取值为10;
Figure BDA0002978088070000106
表示
Figure BDA0002978088070000107
Figure BDA0002978088070000108
之间的汉明距离,并通过设置的阈值参数来识别其是否异常,即:
Figure BDA0002978088070000109
其中,ζ为阈值参数。
识别该样本数据是否异常的算法如算法2所示。
Figure BDA00029780880700001010
Figure BDA0002978088070000111
根据样本数据累积情况动态实时在线更新检测模型是当样本数据累积到设定数据规模大小时重复执行上述步骤一和步骤二,对模型参数
Figure BDA0002978088070000112
素描矩阵Bt和特征哈希表Ht进行在线更新。
模型参数
Figure BDA0002978088070000121
素描矩阵Bt和特征哈希表Ht更新算法如算法3所示。
Figure BDA0002978088070000122
正常数据块Dt是由当前时刻检出的正常数据Yt和上一时刻的素描矩阵Bt-1构成。正常数据Yt在t=0时其数据集通过人工标记获得。
一种大规模高维高速流数据在线异常检测系统,该系统包括:数据采集模块、矩阵素描模块、哈希学习模块、异常判断模块、判断结果输出模块以及模型更新模块;
所述数据采集模块用于采集数据,并将采集的数据输入到矩阵素描模块中;
所述矩阵素描模块用于对大规模高维高速流数据进行矩阵素描,生成素描矩阵;
所述哈希学习模块用于将素描矩阵中的数据映射到汉明空间,生成哈希投影矩阵和特征哈希表;
所述异常判断模块根据哈希投影矩阵和特征哈希表计算待测数据的异常分,将计算出异常分与设置的异常阈值进行比较,得到待检测数据的检测结果;
所述判断结果输出模块用于输出检测结果;
所述模型更新模块根据待检测数据的检测结果对模型的数据属性和分布特点进行更新。
数据采集模块包括传感器、数据采集器等相关设备,通过这些设备对各种上网日志数据、工业传感器数据及其他域的各种数据进行采集。
矩阵素描模块对正常的数据块进行处理的过程包括:根据正常数据块中的数据构建数据矩阵Z,选取精度参数ε;根据数据矩阵Z设置迭代次数;根据精度参数ε初始化一个d×l的全零矩阵;将数据矩阵Z的第i列数据替换全零矩阵B的最后一列,构成新的矩阵T;对新的矩阵T进行奇异值分解,得到新矩阵的奇异值、矩阵T的左奇异矩阵U以及矩阵T的对角矩阵∑;选取矩阵T的最小奇异值δ,根据最小奇异值对矩阵T的对角矩阵进行扫描更新;根据更新后的对角矩阵
Figure BDA0002978088070000131
以及左奇异矩阵U构建更新素描矩阵B;将i的值加1;判断此时i和迭代次数的大小,若i大于设置的迭代次数,则输出此时的是素描矩阵B,否则重新选取数据矩阵Z的数据进行矩阵素描。
哈希学习模块处理数据的过程包括:采用哈希投影分方法分别对素描矩阵中的各列数据进行处理,得到各列数据的哈希投影向量;根据哈希投影向量以及素描矩阵,得到最优模型参数
Figure BDA0002978088070000132
该模型的最优参数为哈希目标函数优化的最大目标函数,根据最大目标函数得到投影矩阵。
异常判断模块处理数据的过程包括:将处理后的待检测样本数据矩阵和正常样本特征哈希表、哈希投影矩阵输入到异常分计算模型中;设置阈值参数ζ;据哈希投影矩阵对待检测样本数据矩阵中的各列数据xi进行二值哈希编码
Figure BDA0002978088070000133
从正常样本特征哈希表中寻找二值哈希编码
Figure BDA0002978088070000134
的K个最近邻哈希编码
Figure BDA0002978088070000135
计算二值哈希编码
Figure BDA0002978088070000136
与K个最近邻哈希编码
Figure BDA0002978088070000137
之间汉明距离的平均值ai;判断平均值ai与设置的阈值参数ζ的大小,若ai≤ζ,则该列数据为正常数据;否则该列数据为异常数据;确定待检测样本中的数据是否检测完,若检测完成,则将所有的异常数据进行集合标记,输出正常数据;若未检测完,则重新进行检测。
判断结果输出模块对检测的结果进行更新输出。
模型更新模块进行数据更新的过程包括:将得到的正常数据转化为数据矩阵;采用基于线性哈希投影方法将矩阵素描模型得到的素描矩阵映射到二值汉明空间中,得到更新后的哈希投影矩阵;将数据矩阵和素描素描矩阵进行打包,形成新的正常数据块。
本发明系统具体实施方式与本发明中方法的具体实施方式相同。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种大规模高维高速流数据在线异常检测的方法,其特征在于,包括:获取高速传输的正常数据块,将正常数据块中的数据输入到在线异常检测模型中进行训练;将待测样本数据输入到训练好的在线异常检测模型,判断待测样本数据是否为正常数据;若为正常数据,则将该数据进行更新,生成新的正常数据块,并作为下次数据异常检测的训练数据;若为异常数据,则对该数据进行标记;所述在线异常检测模型包括改进的矩阵素描模型、哈希学习模型以及异常分计算模型。
2.根据权利要求1所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,将待测样本数据输入到训练好的在线异常检测模型进行检测的过程包括:
S1:将正常数据块中的数据输入到改进的矩阵素描模型中,得到素描矩阵;
S2:将素描矩阵输入到哈希学习模型中,通过哈希目标函数对素描矩阵进行优化,得到最优模型参数Wt *;根据最优模型参数得到哈希投影矩阵;
S3:采用哈希投影矩阵对素描矩阵进行映射,得到特征哈希表Ht
S4:获取待检测样本数据;
S5:将待检测数据和输入到异常分计算模型中,判断该数据是否为异常数据。
3.根据权利要求2所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,采用改进的矩阵素描模型对正常数据块中的数据进行处理的过程包括:
S11:根据正常数据块中的数据构建数据矩阵Z,选取精度参数ε;其中,数据矩阵
Figure FDA0002978088060000011
Figure FDA0002978088060000012
表示一个d×l的实数空间;
S12:根据数据矩阵Z设置迭代次数;
S13:根据精度参数ε初始化一个d×l的全零矩阵,其中B=[b1,b2,…,bi,…bl];
S14:将数据矩阵Z的第i列数据替换全零矩阵B的最后一列,构成新的矩阵T;其中,i∈1,2,...,n;
S15:对新的矩阵T进行奇异值分解,得到新矩阵的奇异值、矩阵T的左奇异矩阵U以及矩阵T的对角矩阵∑;
S16:选取矩阵T的最小奇异值δ,根据最小奇异值对矩阵T的对角矩阵进行扫描更新;
S17:根据更新后的对角矩阵
Figure FDA0002978088060000023
以及左奇异矩阵U构建更新素描矩阵B;将i的值加1;
S18:判断此时i和迭代次数的大小,若i大于设置的迭代次数,则输出此时的是素描矩阵B,否则返回步骤S14。
4.根据权利要求2所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,采用哈希学习模型对素描矩阵进行处理的过程包括:采用哈希投影分方法分别对素描矩阵中的各列数据进行处理,得到各列数据的哈希投影向量;根据哈希投影向量以及素描矩阵,得到最优模型参数Wt *,该模型的最优参数为哈希目标函数优化的最大目标函数,根据最大目标函数得到投影矩阵。
5.根据权利要求4所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,最优模型参数的公式为:
Figure FDA0002978088060000021
其中,
Figure FDA0002978088060000022
表示一个d×r的实数空间,Bt表示素描矩阵,Wt表示投影矩阵,T表示转置,tr(·)表示矩阵的迹,Ir表示一个r×r的单位矩阵。
6.根据权利要求2所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,根据哈希投影矩阵得到特征哈希表的公式为:
Ht=sgn(Wt TBt)
其中,sgn(·)表示符号函数,Wt表示哈希投影矩阵,T表示转置,Bt表示素描矩阵。
7.根据权利要求2所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,采用异常分计算模型对处理后的待检测样本数据的过程包括:
步骤1:将处理后的待检测样本数据矩阵和正常样本特征哈希表、哈希投影矩阵输入到异常分计算模型中;
步骤2:设置阈值参数ζ;
步骤3:根据哈希投影矩阵对待检测样本数据矩阵中的各列数据xi进行二值哈希编码
Figure FDA0002978088060000031
其中i∈1,2,...,n;
步骤4:从正常样本特征哈希表中寻找二值哈希编码
Figure FDA0002978088060000032
的K个最近邻哈希编码
Figure FDA0002978088060000033
步骤5:计算二值哈希编码
Figure FDA00029780880600000310
与K个最近邻哈希编码
Figure FDA0002978088060000034
之间汉明距离的平均值ai
步骤6:判断平均值ai与设置的阈值参数ζ的大小,若ai≤ζ,则该列数据为正常数据;否则该列数据为异常数据;
步骤7:确定待检测样本中的数据是否检测完,若检测完成,则将所有的异常数据进行集合标记,输出正常数据;若未检测完,则返回步骤3。
8.根据权利要求7所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,二值哈希编码与最近邻哈希编码
Figure FDA0002978088060000035
的汉明距离平均值的公式为:
Figure FDA0002978088060000036
其中,K表示用户设定的最近邻哈希编码个数,
Figure FDA0002978088060000037
表示
Figure FDA0002978088060000038
Figure FDA0002978088060000039
之间的汉明距离。
9.根据权利要求1所述的一种大规模高维高速流数据在线异常检测的方法,其特征在于,对数据进行更新的过程包括:将得到的正常数据转化为数据矩阵;采用基于线性哈希投影方法将矩阵素描模型得到的素描矩阵映射到二值汉明空间中,得到更新后的哈希投影矩阵;将数据矩阵和素描素描矩阵进行打包,形成新的正常数据块。
10.一种大规模高维高速流数据在线异常检测系统,其特征在于,该系统包括:数据采集模块、矩阵素描模块、哈希学习模块、异常判断模块、判断结果输出模块以及模型更新模块;
所述数据采集模块用于采集数据,并将采集的数据输入到矩阵素描模块中;
所述矩阵素描模块用于对大规模高维高速流数据进行矩阵素描,生成素描矩阵;
所述哈希学习模块用于将素描矩阵中的数据映射到汉明空间,生成哈希投影矩阵和特征哈希表;
所述异常判断模块根据哈希投影矩阵和特征哈希表计算待测数据的异常分,将计算出异常分与设置的异常阈值进行比较,得到待检测数据的检测结果;
所述判断结果输出模块用于输出检测结果;
所述模型更新模块根据待检测数据的检测结果对模型的数据属性和分布特点进行更新。
CN202110279428.4A 2021-03-16 2021-03-16 一种大规模高维高速流数据在线异常检测的方法及系统 Active CN112988815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110279428.4A CN112988815B (zh) 2021-03-16 2021-03-16 一种大规模高维高速流数据在线异常检测的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110279428.4A CN112988815B (zh) 2021-03-16 2021-03-16 一种大规模高维高速流数据在线异常检测的方法及系统

Publications (2)

Publication Number Publication Date
CN112988815A true CN112988815A (zh) 2021-06-18
CN112988815B CN112988815B (zh) 2023-09-05

Family

ID=76336058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110279428.4A Active CN112988815B (zh) 2021-03-16 2021-03-16 一种大规模高维高速流数据在线异常检测的方法及系统

Country Status (1)

Country Link
CN (1) CN112988815B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114826675A (zh) * 2022-03-28 2022-07-29 杭州趣链科技有限公司 基于数据块集成分类的网络流量异常检测方法、设备及存储介质
CN115563570A (zh) * 2022-12-05 2023-01-03 上海飞旗网络技术股份有限公司 一种资源的异常检测方法、装置及设备
CN116029220A (zh) * 2023-03-24 2023-04-28 国网福建省电力有限公司 一种电压互感器运行误差评估方法、系统、设备及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389408B1 (en) * 1999-06-30 2002-05-14 The United States Of America As Represented By The Secretary Of The Army Neural network systems for chemical and biological pattern recognition via the Mueller matrix
WO2002057987A2 (en) * 2001-01-16 2002-07-25 Infolenz Corporation System and method for association of object sets
US20070240061A1 (en) * 2006-03-29 2007-10-11 Lucent Technologies Inc. Method for distributed tracking of approximate join size and related summaries
US7383253B1 (en) * 2004-12-17 2008-06-03 Coral 8, Inc. Publish and subscribe capable continuous query processor for real-time data streams
US20110052000A1 (en) * 2009-08-31 2011-03-03 Wesley Kenneth Cobb Detecting anomalous trajectories in a video surveillance system
CN102299897A (zh) * 2010-06-23 2011-12-28 电子科技大学 基于特征关联的对等网络特征分析方法
US8977627B1 (en) * 2011-11-01 2015-03-10 Google Inc. Filter based object detection using hash functions
CN104731884A (zh) * 2015-03-11 2015-06-24 北京航空航天大学 一种基于多特征融合的多哈希表的查询方法
CN105335975A (zh) * 2015-10-22 2016-02-17 西安电子科技大学 基于低秩分解和直方图统计的极化sar图像分割方法
CN105894336A (zh) * 2016-05-25 2016-08-24 北京比邻弘科科技有限公司 一种基于移动互联网的大数据挖掘方法及系统
CN109871379A (zh) * 2018-12-10 2019-06-11 宁波大学 一种基于数据块学习的在线哈希最近邻查询方法
CN110023991A (zh) * 2016-12-02 2019-07-16 皇家飞利浦有限公司 用于从对象类中识别对象的装置
CN111367187A (zh) * 2015-08-27 2020-07-03 雾角系统公司 用于改进对分布式网络中的传感器流数据的处理的方法
CN112036460A (zh) * 2020-08-24 2020-12-04 河海大学 一种识别量化控制泉流量潜在因素的方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389408B1 (en) * 1999-06-30 2002-05-14 The United States Of America As Represented By The Secretary Of The Army Neural network systems for chemical and biological pattern recognition via the Mueller matrix
WO2002057987A2 (en) * 2001-01-16 2002-07-25 Infolenz Corporation System and method for association of object sets
US7383253B1 (en) * 2004-12-17 2008-06-03 Coral 8, Inc. Publish and subscribe capable continuous query processor for real-time data streams
US20070240061A1 (en) * 2006-03-29 2007-10-11 Lucent Technologies Inc. Method for distributed tracking of approximate join size and related summaries
US20110052000A1 (en) * 2009-08-31 2011-03-03 Wesley Kenneth Cobb Detecting anomalous trajectories in a video surveillance system
CN102299897A (zh) * 2010-06-23 2011-12-28 电子科技大学 基于特征关联的对等网络特征分析方法
US8977627B1 (en) * 2011-11-01 2015-03-10 Google Inc. Filter based object detection using hash functions
CN104731884A (zh) * 2015-03-11 2015-06-24 北京航空航天大学 一种基于多特征融合的多哈希表的查询方法
CN111367187A (zh) * 2015-08-27 2020-07-03 雾角系统公司 用于改进对分布式网络中的传感器流数据的处理的方法
CN105335975A (zh) * 2015-10-22 2016-02-17 西安电子科技大学 基于低秩分解和直方图统计的极化sar图像分割方法
CN105894336A (zh) * 2016-05-25 2016-08-24 北京比邻弘科科技有限公司 一种基于移动互联网的大数据挖掘方法及系统
CN110023991A (zh) * 2016-12-02 2019-07-16 皇家飞利浦有限公司 用于从对象类中识别对象的装置
CN109871379A (zh) * 2018-12-10 2019-06-11 宁波大学 一种基于数据块学习的在线哈希最近邻查询方法
CN112036460A (zh) * 2020-08-24 2020-12-04 河海大学 一种识别量化控制泉流量潜在因素的方法

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
CONG LENG等: "Online Sketching Hashing", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
CONG LENG等: "Online Sketching Hashing", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 31 December 2015 (2015-12-31), pages 1 - 3 *
HAO HUANG等: "Streaming Anomaly Detection Using Randomized Matrix Sketching", 《PROCEEDINGS OF THE VLDB ENDOWMEN》 *
HAO HUANG等: "Streaming Anomaly Detection Using Randomized Matrix Sketching", 《PROCEEDINGS OF THE VLDB ENDOWMEN》, vol. 9, no. 3, 3 November 2015 (2015-11-03), pages 3 - 4 *
XIN MU 等: "Streaming Classfication with Emerging New Class by Class Matrix Sketching", 《THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
XIN MU 等: "Streaming Classfication with Emerging New Class by Class Matrix Sketching", 《THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, 13 February 2017 (2017-02-13), pages 2373 - 2379 *
吴培: "基于矩阵素描和哈希学习的流数据在线异常检测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
吴培: "基于矩阵素描和哈希学习的流数据在线异常检测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, no. 2022, 15 March 2022 (2022-03-15), pages 138 - 821 *
曹晓莉等: "基于聚类支持向量机的船用污水处理装置故障诊断", 《计算机应用》 *
曹晓莉等: "基于聚类支持向量机的船用污水处理装置故障诊断", 《计算机应用》, no. 10, 1 October 2008 (2008-10-01), pages 2648 - 2651 *
潘旭等: "智能配电网多维数据质量评价方法", 《中国电机工程学报》 *
潘旭等: "智能配电网多维数据质量评价方法", 《中国电机工程学报》, no. 05, 24 January 2018 (2018-01-24), pages 105 - 114 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114826675A (zh) * 2022-03-28 2022-07-29 杭州趣链科技有限公司 基于数据块集成分类的网络流量异常检测方法、设备及存储介质
CN114826675B (zh) * 2022-03-28 2024-05-28 杭州趣链科技有限公司 基于数据块集成分类的网络流量异常检测方法、设备及存储介质
CN115563570A (zh) * 2022-12-05 2023-01-03 上海飞旗网络技术股份有限公司 一种资源的异常检测方法、装置及设备
CN116029220A (zh) * 2023-03-24 2023-04-28 国网福建省电力有限公司 一种电压互感器运行误差评估方法、系统、设备及介质
CN116029220B (zh) * 2023-03-24 2023-07-18 国网福建省电力有限公司 一种电压互感器运行误差评估方法、系统、设备及介质

Also Published As

Publication number Publication date
CN112988815B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN112988815B (zh) 一种大规模高维高速流数据在线异常检测的方法及系统
Kumari et al. Comparison and analysis of different software cost estimation methods
JP2004054370A (ja) 時系列データに対する自己回帰モデル学習装置並びにそれを用いた外れ値および変化点の検出装置
Zhou et al. Deep learning enabled cutting tool selection for special-shaped machining features of complex products
CN113822284A (zh) 一种基于边界注意力的rgbd图像语义分割方法
CN108764541B (zh) 一种结合时空特征和误差处理的风能预测方法
Iturbide et al. A comparison between LARS and LASSO for initialising the time-series forecasting auto-regressive equations
CN114580747A (zh) 基于数据相关性和模糊系统的异常数据预测方法及系统
Yang et al. Parallel fractional hot-deck imputation and variance estimation for big incomplete data curing
CN115168326A (zh) Hadoop大数据平台分布式能源数据清洗方法及系统
Li et al. Multi scale temporal graph networks for skeleton-based action recognition
CN118230415A (zh) 一种图注意力网络驱动的人体异结构动作数据预测方法
Cui Complex industrial automation data stream mining algorithm based on random Internet of robotic things
CN111767324B (zh) 一种智能关联的自适应数据分析方法及装置
CN113098848A (zh) 基于矩阵素描和哈希学习的流数据异常检测方法及其系统
Zhang et al. LIFE: Learning individual features for multivariate time series prediction with missing values
CN116821745B (zh) 智能线切割慢走丝设备的控制方法及其系统
US10339235B1 (en) Massively parallel processing (MPP) large-scale combination of time series data
CN110175287B (zh) 一种基于Flink的矩阵分解隐式反馈推荐方法和系统
CN113297185A (zh) 一种特征衍生方法及装置
Ye et al. Improved SVD algorithm based on Slope One
CN113835964B (zh) 基于小样本学习的云数据中心服务器能耗预测方法
AU2021106594A4 (en) Online anomaly detection method and system for streaming data
CN108717444A (zh) 一种基于分布式结构的大数据聚类方法和装置
CN115935285A (zh) 基于掩码图神经网络模型的多元时间序列异常检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Fan Xingrong

Inventor after: Zhang Xianming

Inventor after: Wang Jianhui

Inventor after: Guo Zhiwei

Inventor after: Zhao Xiaolong

Inventor after: Zhao Dujiang

Inventor after: Shen Yu

Inventor before: Fan Xingrong

Inventor before: Wang Jianhui

Inventor before: Guo Zhiwei

Inventor before: Zhao Xiaolong

Inventor before: Zhao Dujiang

Inventor before: Shen Yu

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant