CN110287048A - 数据异常检测方法和装置 - Google Patents

数据异常检测方法和装置 Download PDF

Info

Publication number
CN110287048A
CN110287048A CN201910383583.3A CN201910383583A CN110287048A CN 110287048 A CN110287048 A CN 110287048A CN 201910383583 A CN201910383583 A CN 201910383583A CN 110287048 A CN110287048 A CN 110287048A
Authority
CN
China
Prior art keywords
data
data set
attribute
value
exceptional value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910383583.3A
Other languages
English (en)
Other versions
CN110287048B (zh
Inventor
宋韶旭
王喜
方晨光
王建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910383583.3A priority Critical patent/CN110287048B/zh
Publication of CN110287048A publication Critical patent/CN110287048A/zh
Application granted granted Critical
Publication of CN110287048B publication Critical patent/CN110287048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据异常检测方法和装置。所述方法包括:对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值;根据各属性的权值计算各数据集中不同数据对象间的余弦距离,并根据各数据对象与其他数据对象间的余弦距离计算各数据对象的初始异常值;对计算好所有数据对象的初始异常值的各数据集按照时序插入有序序列;根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值;对各数据集的数据进行检测,对异常值超过指定阈值的数据判断为异常。本发明实施例能够对区块链第三方存储介质上数据进行检测,具有较好的准确率和召回率。

Description

数据异常检测方法和装置
技术领域
本发明涉及计算机数据管理技术领域,尤其涉及一种数据异常检测方法和装置。
背景技术
随着比特币的发展和普及,区块链技术的研究和应用呈现出爆发式的增长。区块链平台的交易性能很低,尚不能满足工业界大规模数据上链的需求,业界普遍的做法是将数据存在第三方存储介质上,然后将索引(指针)存储在链上,这种方案使得量大的数据也可以实现“上链”,这种思想已成为业界大规模数据上链的主流方式,并且已有相对成熟的存储介质星际文件系统IPFS(Inter-Planetary File System)等。
随着区块链技术的发展,越来越多的设备运维时序数据上链管理,与区块链第三方存储介质相关的异常检测逐渐被人重视。有关异常检测的算法也被广泛使用,现有的研究运用了各种各样的方法,如基于滑动时间窗口的检测方法和传统基于密度的时序数据异常检测,但上述两种方法对于区块链第三方存储介质上时序数据做在线异常检测有以下不足:(1)没有考虑数据不同属性对异常值的影响不同;(2)没有考虑区块链第三方存储介质上数据存储和访问的特性。因此,急需研究能对区块链第三方存储介质上时序数据在线做异常检测的高效算法。
发明内容
针对现有技术问题,本发明实施例提供一种数据异常检测方法和装置。
本发明实施例提供一种数据异常检测方法,应用于基于区块链的第三方数据存储介质,包括:并发获取区块链第三方存储介质上的数据,得到待检测数据块,每个数据块中的数据对象组成有时序的数据集,每个数据对象包括多个维度的属性信息;所述方法还包括:
对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值;
根据各属性的权值计算各数据集中不同数据对象间的余弦距离,并根据各数据对象与其他数据对象间的余弦距离计算各数据对象的初始异常值;
对计算好所有数据对象的初始异常值的各数据集按照时序插入有序序列;
根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值;
对各数据集的数据进行检测,对异常值超过指定阈值的数据判断为异常。
本发明实施例提供一种数据异常检测装置,应用于基于区块链的第三方数据存储介质,包括:获取单元,用于并发获取区块链第三方存储介质上的数据,得到待检测数据块,每个数据块中的数据对象组成有时序的数据集,每个数据对象包括多个维度的属性信息;所述装置还包括:
第一计算单元,用于对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值;
第二计算单元,用于根据各属性的权值计算各数据集中不同数据对象间的余弦距离,并根据各数据对象与其他数据对象间的余弦距离计算各数据对象的初始异常值;
排序单元,用于对计算好所有数据对象的初始异常值的各数据集按照时序插入有序序列;
第一更新单元,用于根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值;
检测单元,用于对各数据集的数据进行检测,对异常值超过指定阈值的数据判断为异常。
本发明实施例还提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据异常检测方法。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述数据异常检测方法。
本发明实施例提供的数据异常检测方法和装置,使用余弦距离度量数据之间的距离,使用信息熵刻画不同属性对异常状态值的不同贡献度,结合区块链第三方存储介质上数据存储和访问的特性,在保证实时性检测的同时,具有较好的准确率和召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的数据异常检测方法的流程示意图;
图2为本发明实施例数据异常检测装置的结构示意图;
图3为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明实施例提供的一种数据异常检测方法的流程示意图。
本发明实施例提供的数据异常检测方法应用于基于区块链的第三方数据存储介质,包括:并发获取区块链第三方存储介质上的数据,得到待检测数据块,每个数据块中的数据对象组成有时序的数据集,每个数据对象包括多个维度的属性信息,如图1所示,还包括以下步骤:
S11、对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值;
具体地,通过并发请求获得区块链第三方存储介质上的数据,得到的数据块之间是无序的,每一块的数据是时序的。
本发明实施例适用于高维度数据,每个数据块对应一个数据集S,|S|>1,如果数据集S的维度为s,q是S中的一个属性,那么数据集S被对象q划分为{q}和{S-q},计算{q}和{S-q}的信息熵差量;重复上述过程计算所有属性的去一划分信息熵差量,然后对信息熵差量取倒数,并做归一化为wi(1<=i<=s),得到不同属性的不同权值。
S12、根据各属性的权值计算各数据集中不同数据对象间的余弦距离,并根据各数据对象与其他数据对象间的余弦距离计算各数据对象的初始异常值;
具体地,数据集S的维度为s,x和y是数据集中的两个数据对象,xi和yi是第i(i=1,2,....,s)维属性的值,结合wi计算数据对象x和数据对象y的余弦距离,得到不同时刻数据对象间的距离,接着计算数据对象的初步异常值(Local Outlier Factor),Outlier(p)表示数据对象p初步计算的异常值。以上计算用于每一份数据块的所有数据对象,即可得到所有已请求数据对象的初始异常值。
S13、对计算好所有数据对象的初始异常值的各数据集按照时序插入有序序列;
具体地,对于计算好异常状态值的数据块,按照数据时序将已计算好异常状态值数据集插入到有序序列中。
S14、根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值;
具体地,然后通过上一时刻和下一时刻的数据的异常状态,更新当前时刻的数据对象的异常状态值。
S15、对各数据集的数据进行检测,对异常值超过指定阈值的数据判断为异常。
具体地,根据设置的异常值阈值对数据进行异常检测,对于异常值超过阈值的数据将其判断为异常。
持续并发获取区块链第三方存储介质上的数据并重复以上步骤做计算,即可对区块链第三方存储介质上时序数据做异常检测。
本发明实施例提供的数据异常检测方法,通过使用余弦距离度量数据之间的距离,使用信息熵刻画不同属性对异常状态值的不同贡献度,结合区块链第三方存储介质上数据存储和访问的特性,在保证实时性检测的同时,具有较好的准确率和召回率。
在上述实施例的基础上,S11具体包括:
选取属性为q的数据对象将数据集S划分为{q}和{S-q},q为数据集中任一属性;
计算{q}和{S-q}的信息熵差量;
对所述信息熵差量取倒数,并做归一化处理,得到属性q的权值。
具体地,数据集S的维度为s,q是S中的一个属性,那么数据集S被对象q划分为{q}和{S-q},计算{q}和{S-q}的信息熵差量;重复上述过程计算所有属性的去一划分信息熵差量,然后对信息熵差量取倒数,并做归一化为wi(1<=i<=s),得到不同属性的不同权值。
在上述实施例的基础上,S14具体包括:
判断出对当前数据集的两侧数据有影响的数据,当有影响的数据中出现异常时,对两侧数据异常值的影响乘以第一数值;
判断出对当前数据集的中间数据有影响的数据,当有影响的数据中出现异常时,对中间数据异常值的影响乘以第二数值;
当中间数据出现异常时,对有影响的两侧数据的影响乘以第三数值。
具体地,当前时刻的数据块两侧的异常值受上一时刻和下一时刻数据块异常状态的影响。当上一时刻和下一时刻数出现异常时,其对当前时刻数据的影响指乘以一定系数。
而上一时刻和下一时刻的数据对当前时刻数据块的中间数据是否有影响需要判断。
给定时间差阈值△T,对于与此时刻的时间差相差在该阈值内的数据,根据计算其距离,接着更新相应数据对象的第K距离和可达距离,然后根据以下原则更新异常值:当两侧数内数据出现异常时其对异常值的影响乘以常量λ1;当中间数据出现异常时其对两侧数据异常值的影响乘以常量λ2
在上述实施例的基础上,所述方法还包括:
选取连续序列块开始部分和结束部分对中间部分的数据集的异常值进一步更新。
具体地,序列中可能连续多个数据块对中间部分的数据有影响,因此需要设置一定时长,根据设定时长内的开始和结束部分多个数据块(如3个或5个)来更新中间部分数据块(中间部分数据块也可以1个或多个)的异常值。
图2示出了本发明实施例提供的一种数据异常检测装置的结构示意图。所述装置应用于基于区块链的第三方数据存储介质,包括:获取单元,用于并发获取区块链第三方存储介质上的数据,得到待检测数据块,每个数据块中的数据对象组成有时序的数据集,每个数据对象包括多个维度的属性信息;如图2所示,所述装置还包括:第一计算单元11、第二计算单元12、排序单元13、第一更新单元14和检测单元15,其中:
所述第一计算单元11,用于于对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值;
具体地,通过并发请求获得区块链第三方存储介质上的数据,得到的数据块之间是无序的,每一块的数据是时序的。
本发明实施例适用于高维度数据,每个数据块对应一个数据集S,|S|>1,如果数据集S的维度为s,q是S中的一个属性,那么数据集S被对象q划分为{q}和{S-q},计算{q}和{S-q}的信息熵差量;重复上述过程计算所有属性的去一划分信息熵差量,然后对信息熵差量取倒数,并做归一化为wi(1<=i<=s),得到不同属性的不同权值。
所述第二计算单元12,用于根据各属性的权值计算各数据集中不同数据对象间的余弦距离,并根据各数据对象与其他数据对象间的余弦距离计算各数据对象的初始异常值;
具体地,数据集S的维度为s,x和y是数据集中的两个数据对象,xi和yi是第i(i=1,2,....,s)维属性的值,结合wi计算数据对象x和数据对象y的余弦距离,得到不同时刻数据对象间的距离,接着计算数据对象的初步异常值(Local Outlier Factor),Outlier(p)表示数据对象p初步计算的异常值。以上计算用于每一份数据块的所有数据对象,即可得到所有已请求数据对象的初始异常值。
所述排序单元13,用于对计算好所有数据对象的初始异常值的各数据集按照时序插入有序序列;
具体地,对于计算好异常状态值的数据块,按照数据时序将已计算好异常状态值数据集插入到有序序列中。
所述第一更新单元14,用于根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值;
具体地,然后通过上一时刻和下一时刻的数据的异常状态,更新当前时刻的数据对象的异常状态值。
所述检测单元15,用于对各数据集的数据进行检测,对异常值超过指定阈值的数据判断为异常。
具体地,根据设置的异常值阈值对数据进行异常检测,对于异常值超过阈值的数据将其判断为异常。
持续并发获取区块链第三方存储介质上的数据并重复以上步骤做计算,即可对区块链第三方存储介质上时序数据做异常检测。
本发明实施例提供的数据异常检测装置,通过使用余弦距离度量数据之间的距离,使用信息熵刻画不同属性对异常状态值的不同贡献度,结合区块链第三方存储介质上数据存储和访问的特性,在保证实时性检测的同时,具有较好的准确率和召回率。
在上述实施例的基础上,所述第一计算单元11包括:
划分模块,用于选取属性为q的数据对象将数据集S划分为{q}和{S-q},q为数据集中任一属性;
第一计算模块,用于计算{q}和{S-q}的信息熵差量;
第二计算模块,用于对所述信息熵差量取倒数,并做归一化处理,得到属性q的权值。
具体地,数据集S的维度为s,q是S中的一个属性,那么数据集S被对象q划分为{q}和{S-q},计算{q}和{S-q}的信息熵差量;重复上述过程计算所有属性的去一划分信息熵差量,然后对信息熵差量取倒数,并做归一化为wi(1<=i<=s),得到不同属性的不同权值。
在上述实施例的基础上,所述第一更新单元14包括:
第一更新模块,用于判断出对当前数据集的两侧数据有影响的数据,当有影响的数据中出现异常时,对两侧数据异常值的影响乘以第一数值;
第二更新模块,用于判断出对当前数据集的中间数据有影响的数据,当有影响的数据中出现异常时,对中间数据异常值的影响乘以第二数值;
第三更新模块,用于当中间数据出现异常时,对有影响的两侧数据的影响乘以第三数值。
具体地,当前时刻的数据块两侧的异常值受上一时刻和下一时刻数据块异常状态的影响。当上一时刻和下一时刻数出现异常时,其对当前时刻数据的影响指乘以一定系数。
而上一时刻和下一时刻的数据对当前时刻数据块的中间数据是否有影响需要判断。
给定时间差阈值△T,对于与此时刻的时间差相差在该阈值内的数据,根据计算其距离,接着更新相应数据对象的第K距离和可达距离,然后根据以下原则更新异常值:当两侧数内数据出现异常时其对异常值的影响乘以常量λ1;当中间数据出现异常时其对两侧数据异常值的影响乘以常量λ2
在上述实施例的基础上,所述装置还包括:
第二更新单元,用于选取连续序列块开始部分和结束部分对中间部分的数据集的异常值进一步更新。
具体地,序列中可能连续多个数据块对中间部分的数据有影响,因此需要设置一定时长,根据设定时长内开始和结束部分多个数据块(如3个或5个)来更新中间部分数据块(中间部分数据块也可以1个或多个)的异常值。
图3示例了一种服务器的实体结构示意图,如图3所示,该服务器可以包括:处理器(processor)21、通信接口(Communications Interface)22、存储器(memory)23和通信总线24,其中,处理器21,通信接口22,存储器23通过通信总线24完成相互间的通信。处理器21可以调用存储器23中的逻辑指令,以执行如下方法:
对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值;
根据各属性的权值计算各数据集中不同数据对象间的余弦距离,并根据各数据对象与其他数据对象间的余弦距离计算各数据对象的初始异常值;
对计算好所有数据对象的初始异常值的各数据集按照时序插入有序序列;
根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值;
对各数据集的数据进行检测,对异常值超过指定阈值的数据判断为异常。
此外,上述的存储器23中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:
对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值;
根据各属性的权值计算各数据集中不同数据对象间的余弦距离,并根据各数据对象与其他数据对象间的余弦距离计算各数据对象的初始异常值;
对计算好所有数据对象的初始异常值的各数据集按照时序插入有序序列;
根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值;
对各数据集的数据进行检测,对异常值超过指定阈值的数据判断为异常。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据异常检测方法,应用于基于区块链的第三方数据存储介质,包括:并发获取区块链第三方存储介质上的数据,得到待检测数据块,每个数据块中的数据对象组成有时序的数据集,每个数据对象包括多个维度的属性信息;其特征在于,所述方法还包括:
对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值;
根据各属性的权值计算各数据集中不同数据对象间的余弦距离,并根据各数据对象与其他数据对象间的余弦距离计算各数据对象的初始异常值;
对计算好所有数据对象的初始异常值的各数据集按照时序插入有序序列;
根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值;
对各数据集的数据进行检测,对异常值超过指定阈值的数据判断为异常。
2.根据权利要求1所述的数据异常检测方法,其特征在于,所述对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值包括:
选取属性为q的数据对象将数据集S划分为{q}和{S-q},q为数据集中任一属性;
计算{q}和{S-q}的信息熵差量;
对所述信息熵差量取倒数,并做归一化处理,得到属性q的权值。
3.根据权利要求1所述的数据异常检测方法,其特征在于,所述根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值包括:
判断出对当前数据集的两侧数据有影响的数据,当有影响的数据中出现异常时,对两侧数据异常值的影响乘以第一数值;
判断出对当前数据集的中间数据有影响的数据,当有影响的数据中出现异常时,对中间数据异常值的影响乘以第二数值;
当中间数据出现异常时,对有影响的两侧数据的影响乘以第三数值。
4.根据权利要求3所述的数据异常检测方法,其特征在于,所述方法还包括:
选取连续序列块开始部分和结束部分对中间部分的数据集的异常值进一步更新。
5.一种数据异常检测装置,所述装置应用于基于区块链的第三方数据存储介质,包括:获取单元,用于并发获取区块链第三方存储介质上的数据,得到待检测数据块,每个数据块中的数据对象组成有时序的数据集,每个数据对象包括多个维度的属性信息;其特征在于,所述装置还包括:
第一计算单元,用于对各数据集按照属性进行去一划分,并根据划分后的数据集的信息熵计算各属性的权值;
第二计算单元,用于根据各属性的权值计算各数据集中不同数据对象间的余弦距离,并根据各数据对象与其他数据对象间的余弦距离计算各数据对象的初始异常值;
排序单元,用于对计算好所有数据对象的初始异常值的各数据集按照时序插入有序序列;
第一更新单元,用于根据序列中任一数据集的上一时刻和下一时刻的数据集的异常状态更新所述任一数据集的数据对象的初始异常值;
检测单元,用于对各数据集的数据进行检测,对异常值超过指定阈值的数据判断为异常。
6.根据权利要求5所述的数据异常检测装置,其特征在于,所述第一计算单元包括:
划分模块,用于选取属性为q的数据对象将数据集S划分为{q}和{S-q},q为数据集中任一属性;
第一计算模块,用于计算{q}和{S-q}的信息熵差量;
第二计算模块,用于对所述信息熵差量取倒数,并做归一化处理,得到属性q的权值。
7.根据权利要求5所述的数据异常检测装置,其特征在于,所述第一更新单元包括:
第一更新模块,用于判断出对当前数据集的两侧数据有影响的数据,当有影响的数据中出现异常时,对两侧数据异常值的影响乘以第一数值;
第二更新模块,用于判断出对当前数据集的中间数据有影响的数据,当有影响的数据中出现异常时,对中间数据异常值的影响乘以第二数值;
第三更新模块,用于当中间数据出现异常时,对有影响的两侧数据的影响乘以第三数值。
8.根据权利要求7所述的数据异常检测装置,其特征在于,所述装置还包括:
第二更新单元,用于选取连续序列块开始部分和结束部分对中间部分的数据集的异常值进一步更新。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述数据异常检测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述数据异常检测方法的步骤。
CN201910383583.3A 2019-05-09 2019-05-09 数据异常检测方法和装置 Active CN110287048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910383583.3A CN110287048B (zh) 2019-05-09 2019-05-09 数据异常检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910383583.3A CN110287048B (zh) 2019-05-09 2019-05-09 数据异常检测方法和装置

Publications (2)

Publication Number Publication Date
CN110287048A true CN110287048A (zh) 2019-09-27
CN110287048B CN110287048B (zh) 2020-06-02

Family

ID=68001660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910383583.3A Active CN110287048B (zh) 2019-05-09 2019-05-09 数据异常检测方法和装置

Country Status (1)

Country Link
CN (1) CN110287048B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090685A (zh) * 2019-12-19 2020-05-01 第四范式(北京)技术有限公司 一种数据异常特征的检测方法及装置
CN112445842A (zh) * 2020-11-20 2021-03-05 北京思特奇信息技术股份有限公司 一种基于时间序列数据的异常值检测方法和系统
CN113722753A (zh) * 2021-08-25 2021-11-30 银清科技有限公司 基于区块链的隐私数据处理方法、装置及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107281755A (zh) * 2017-07-14 2017-10-24 网易(杭州)网络有限公司 检测模型的构建方法、装置、储存介质、处理器和终端
CN108055119A (zh) * 2017-12-11 2018-05-18 北方工业大学 一种群智感知应用中基于区块链的安全激励方法和系统
US20180240062A1 (en) * 2015-10-28 2018-08-23 Fractal Industries, Inc. Collaborative algorithm development, deployment, and tuning platform
CN108696589A (zh) * 2018-05-14 2018-10-23 百度在线网络技术(北京)有限公司 区块链数据传输方法、装置、设备和存储介质
CN109194466A (zh) * 2018-10-29 2019-01-11 南开大学 一种基于区块链的云端数据完整性检测方法及系统
CN109614775A (zh) * 2018-11-20 2019-04-12 安徽大学 一种基于区块链的版权溯源的保护框架及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180240062A1 (en) * 2015-10-28 2018-08-23 Fractal Industries, Inc. Collaborative algorithm development, deployment, and tuning platform
CN107281755A (zh) * 2017-07-14 2017-10-24 网易(杭州)网络有限公司 检测模型的构建方法、装置、储存介质、处理器和终端
CN108055119A (zh) * 2017-12-11 2018-05-18 北方工业大学 一种群智感知应用中基于区块链的安全激励方法和系统
CN108696589A (zh) * 2018-05-14 2018-10-23 百度在线网络技术(北京)有限公司 区块链数据传输方法、装置、设备和存储介质
CN109194466A (zh) * 2018-10-29 2019-01-11 南开大学 一种基于区块链的云端数据完整性检测方法及系统
CN109614775A (zh) * 2018-11-20 2019-04-12 安徽大学 一种基于区块链的版权溯源的保护框架及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘敖迪 等: "基于区块链的大数据访问控制机制", 《软件学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090685A (zh) * 2019-12-19 2020-05-01 第四范式(北京)技术有限公司 一种数据异常特征的检测方法及装置
CN111090685B (zh) * 2019-12-19 2023-08-22 第四范式(北京)技术有限公司 一种数据异常特征的检测方法及装置
CN112445842A (zh) * 2020-11-20 2021-03-05 北京思特奇信息技术股份有限公司 一种基于时间序列数据的异常值检测方法和系统
CN113722753A (zh) * 2021-08-25 2021-11-30 银清科技有限公司 基于区块链的隐私数据处理方法、装置及系统
CN113722753B (zh) * 2021-08-25 2024-05-10 银清科技有限公司 基于区块链的隐私数据处理方法、装置及系统

Also Published As

Publication number Publication date
CN110287048B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN107193876B (zh) 一种基于最近邻knn算法的缺失数据填补方法
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
CN110287048A (zh) 数据异常检测方法和装置
CN104778123B (zh) 一种检测系统性能的方法及装置
CN107037978A (zh) 数据迁移校正方法及系统
CN101963969B (zh) Oracle RAC系统中实现负载均衡的方法和数据库服务器
CN113379042B (zh) 保护数据隐私的业务预测模型训练方法及装置
CN111144548A (zh) 抽油机井工况的识别方法及装置
CN107644081A (zh) 数据去重方法及装置
CN110874744A (zh) 一种数据异常检测方法及装置
CN112396211A (zh) 一种数据预测方法及装置、设备和计算机存储介质
CN111047406B (zh) 一种电信套餐推荐方法、装置、存储介质和设备
Sun et al. Timed dataflow: Reducing communication overhead for distributed machine learning systems
CN104506636B (zh) 一种数据同步方法及装置
CN112990583A (zh) 一种数据预测模型的入模特征确定方法及设备
CN110610140B (zh) 人脸识别模型的训练方法、装置、设备及可读存储介质
CN112699142A (zh) 冷热数据处理方法、装置、电子设备及存储介质
CN105589683B (zh) 样本抽取方法和装置
CN114722048B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN107562703A (zh) 字典树重构方法及系统
WO2023050649A1 (zh) 基于数据补全的esg指数确定方法及相关产品
CN108829750A (zh) 一种数据质量确定系统以及方法
CN113516065B (zh) 基于区块链的资料权重测算方法、装置、服务器及存储介质
CN110163701A (zh) 推送信息的方法和装置
CN110472233B (zh) 基于知识库内头尾实体分布的关系相似度度量方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant