CN106547852A - 异常数据检测方法及装置、数据预处理方法及系统 - Google Patents

异常数据检测方法及装置、数据预处理方法及系统 Download PDF

Info

Publication number
CN106547852A
CN106547852A CN201610911559.9A CN201610911559A CN106547852A CN 106547852 A CN106547852 A CN 106547852A CN 201610911559 A CN201610911559 A CN 201610911559A CN 106547852 A CN106547852 A CN 106547852A
Authority
CN
China
Prior art keywords
data
tested
matrix
data set
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610911559.9A
Other languages
English (en)
Other versions
CN106547852B (zh
Inventor
张戎
赵伟
冯亚兵
廖宇
赖俊斌
柴海霞
潘宣良
刘黎春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610911559.9A priority Critical patent/CN106547852B/zh
Publication of CN106547852A publication Critical patent/CN106547852A/zh
Application granted granted Critical
Publication of CN106547852B publication Critical patent/CN106547852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种异常数据检测方法及装置、数据预处理方法及系统,其异常数据检测方法,包括以下步骤:将待检测数据集利用主成分算法进行降维处理,形成第一数据集;将所述第一数据集利用主成分算法进行重构,形成第二数据集,所述第二数据集与所述待检测数据集具有相同的维度;计算所述待检测数据集与所述第二数据集对应数据之间的相关性;获取所述待检测数据中与所述第二数据集中对应数据差异大的异常数据。本发明不用假设要分析的数据集合服从某种特定的分布,具有很强的可靠性、通用性和稳定性。

Description

异常数据检测方法及装置、数据预处理方法及系统
技术领域
本发明涉及计算机技术领域,特别涉及一种异常数据检测方法及装置、数据预处理方法及系统。
背景技术
在图像处理系统、信用卡欺诈行为检测系统、征信预警系统等领域中,常常会涉及到异常点的检测,异常点检测(又称为离群点检测)是找出其行为很不同于预期对象的一个检测过程,这些不同于预期对象的点被称为异常点或者离群点。最常见的异常点检测是基于统计学的方法,根据处理变量的数目可以分为一元和多元的情况,例如:
1)基于正态分布的一元异常点检测方法
假设有n个样本点(x1,x2,…,xn),那么可以计算出这n个点的均值μ和方差σ。均值和方差分别被定义为:
在正态分布的假设下,区域μ±3σ包含了99.7%的数据,如果某个值距离分布的均值μ超过了3σ,那么这个值就可以被简单的标记为一个异常点。
2)多元异常点的检测方法
涉及两个或者两个以上变量的数据称为多元数据,很多一元异常点的检测方法都可以扩展到高维空间中,从而处理多元数据。通常采用卡方分布的异常点检测方法,基于角度的异常点检测算法,基于高斯分布假设的异常点检测算法等。
但是,基于统计学的异常点检测方法在很大程度上依赖于要分析的数据集是满足某种特定概率分布模型,模型的参数、异常点的数目等对基于统计学的方法都有非常重要的意义,而确定这些参数通常往往都比较困难。此外,基于统计学的异常点检测算法大多基于高斯分布的假设,而实际工程应用中,数据集的维度是很高的,并且对数据集合的分布情况也是未知的。以上缺陷都大大限制了基于统计方法异常点检测的应用,使得现有异常点检测方法的可移植性较差。
发明内容
本发明实施例的目的是提供一种异常数据检测方法及装置、数据预处理方法及系统,以解决现有的异常点检测方法在处理大量缺失值、特征维度高、样本属性差别大的数据时受到限制的问题。
本发明实施例提出一种异常数据检测方法,包括以下步骤:
将待检测数据集利用主成分算法进行降维处理,形成第一数据集;
将所述第一数据集利用主成分算法进行重构,形成第二数据集,所述第二数据集与所述待检测数据集具有相同的维度;
计算所述待检测数据集与所述第二数据集对应数据之间的相关性;
获取所述待检测数据中与所述第二数据集中对应数据差异大的异常数据。
本发明实施例还提出一种数据预处理方法,包括以下步骤:
通过异常数据检测方法获取待检测数据中的异常数据;
过滤掉所述待检测数据中的异常数据。
本发明实施例还提出一种异常数据检测装置,包括:
降维单元,用于将待检测数据集利用主成分算法进行降维处理,形成第一数据集;
重构单元,用于将所述第一数据集利用主成分算法进行重构,形成第二数据集,所述第二数据集与所述待检测数据集具有相同的维度;
相关性计算单元,用于计算所述待检测数据集与所述第二数据集对应数据之间的相关性;
异常数据获取单元,用于获取所述待检测数据中与所述第二数据集中对应数据差异大的异常数据。
本发明实施例还提出一种数据预处理系统,包括异常数据检测装置以及一过滤单元,所述过滤单元用于根据所述异常数据检测装置获取的待检测数据中的异常数据,过滤掉所述待检测数据中的异常数据。
相对于现有技术,本发明的有益效果是:本发明实施例的异常数据检测方法及装置、数据预处理方法及系统,利用主成分分析的算法对待检测数据进行降维处理,再重构成原始数据结构,并根据对应数据之间的相关性差异来找出异常数据,适用于存在大量缺失值、特征维度很高以及特征属性差别很大的数据的处理,不用假设要分析的数据集合服从某种 特定的分布,具有很强的可靠性和通用性,并且在系统预警机制建立之初就可以将数据集中的异常样本点挑选出来,以便于对这些异常样本点可以作单独处理,可以有效避免对后期系统建设造成较大干扰,进而保证系统性能的稳定性。
附图说明
图1为本发明实施例的一种异常数据检测方法的流程图;
图2为本发明实施例的另一种异常数据检测方法的流程图;
图3为本发明实施例的一种基于矩阵分解的变化过程示意图;
图4为本发明实施例的一种异常数据检测装置的结构图;
图5为本发明实施例的另一种异常数据检测装置的结构图;
图6为本发明实施例的一种数据预处理系统的结构图;
图7为本发明实施例的一种异常数据检测方法及装置、数据预处理方法及系统的应用环境示意图。
具体实施方式
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
本发明实施例涉及一种异常数据检测方法及装置、数据预处理方法及系统,其应用于服务器,请参阅图7,其为上述的异常数据检测方法及 装置、数据预处理方法及系统的运行环境示意图。一种服务器1200,该服务器1200包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图7中示出的服务器结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
存储器120可用于存储软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器1200的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。 其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及服务器1200的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图7中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
处理器180是服务器1200的控制中心,利用各种接口和线路连接整个服务器1200的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行服务器1200的各种 功能和处理数据,从而对服务器1200进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
服务器1200还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
本发明提供的技术方案是在建模数据集中样本之间的数据属性差别很大基础上,为使模型性能稳定(不会发生较大波动)而设计的解决方案。本发明实施例核心算法采取主成分分析方法(Principal component analysis,PCA)矩阵分解思想,实现将数据中的异常样本点提前甄别处理。对高维的数据集合,本发明实施例的方法可以直接进行计算,无需考虑每一维度的分布情况。
实施例一
本发明实施例提出一种异常数据检测方法,用于找出待检测数据中的异常数据,请参见图1,本实施例的方法包括以下步骤:
S101,将待检测数据集利用主成分算法进行降维处理,形成第一数据集。
S102,将所述第一数据集利用主成分算法进行重构,形成第二数据 集,所述第二数据集与所述待检测数据集具有相同的维度。
S103,计算所述待检测数据集与所述第二数据集对应数据之间的相关性。
S104,获取所述待检测数据中与所述第二数据集中对应数据差异大的异常数据。
步骤S101中,本实施例的待检测数据例如可以是图像处理系统、信用卡欺诈行为检测系统、征信预警系统等大数据,待检测数据可能是高维的数据,而主成分算法本质上就是对数据进行降维,比如从k维降为j维,k大于j。为了便于理解本发明实施例,下面首先以二维数据对本实施例方法的一种主成分算法的降维过程进行说明。
假设二维数据如下:
行代表了样例,列代表特征,这里有10个样例,每个样例两个特征。例如可以这样认为,有10辆汽车,x是千米/小时的速度,y是英里/小时的速度。
第一步分别求x和y的平均值,然后对于所有的样例,都减去对应的均值。这里x的均值是1.81,y的均值是1.91,得到:
第二步,求特征协方差矩阵,协方差矩阵用于表现不同维度之间的协方差,得到特征协方差矩阵:
对角线上分别是x和y的方差,非对角线上是协方差。协方差大于0表示x和y若有一个增,另一个也增;小于0表示一个增,一个减;协方差为0时,两者独立。协方差绝对值越大,两者对彼此的影响越大,反之越小。
第三步,求协方差的特征值和特征向量,得到:
eigenvalues是两个特征值,eigenvectors是与特征值对应的特征向量,特征值0.0490833989对应特征向量为(-0.735178656,-0.677873399)T,,这里的特征向量都归一化为单位向量。
第四步,将特征值按照从大到小的顺序排序,选择其中大的一个,然 后将其对应的特征向量分别作为列向量组成特征向量矩阵,这里选出的特征值是1.28402771,对应的特征向量是(0.677873399,-0.735178656)T
第五步,将样本点投影到选取的特征向量上。这里获得降维后的数据集FinalData(10*1)=DataAdjust(10*2矩阵)×特征向量(0.677873399,-0.735178656)T
得到结果:
这样,就将原始样例的二维待检测数据集变成了一维的第一数据集,这一维的第一数据集就是原待检测数据集在二维上的投影。上述仅以二维的待检测数据为例,实际上待检测数据往往是大维度的大数据,比如征信预警系统中的数据可能达到一千维以上,减少的维度数量可以根据实际需要来设定,而运算原理与二维数据的处理相同,在此不再赘述。
步骤S102中,所述的重构是指根据第一数据集构建的第二数据集的数据结构与待检测数据集相同,即假如待检测数据集含有N个样例,每个样例含有k个特征,那么第二数据集同样也是含有N个样例和k个特征,这样第二数据集与待检测数据集之间的数据就可以一一对应起来。
从第一数据集重构为第二数据集实际上是增加维度的过程,需要遵循 前一步骤主成分算法的原理。同样以前述二维的待检测数据集为例来说明。
依前述,第一数据集为:
第一数据集对应的特征向量是(0.677873399,-0.735178656)T,那么第二数据集可以根据通过第一数据集与其对应的特征向量的转置向量的乘积获得,可以得到结果:
步骤S103中,待检测数据集与第二数据集对应数据之间的相关性,可以是指两者对应数据之间的关系大多是符合某种线性关系,比如对应数据之间的差值处于同一条直线或曲线上。
步骤S104中,如果待检测数据集与第二数据集大多数对应数据之间的关系都符合线性关系,而个别对应数据之间的关系不符合线性关系,那么可以认为这个别数据是异常数据。
本实施例的方法适用于存在大量缺失值、特征维度很高以及特征属性差别很大的数据的处理,在不用假设要处理数据服从某种特定分布的前提下,在预警模型建立之初将建模数据集中的异常样本点挑选出来,以便于对这些异常样本点可以作单独处理,也可以避免对后期模型建设造成较大干扰,进而保证系统模型性能的稳定性。
实施例二
本发明还可以基于主成分矩阵分解的方式对高维数据集合进行简化的算法,优选采用奇异值分解(Singular value decomposition,SVD)。请参见图2,其为本发明实施例的另一种异常数据检测方法的流程图,其包括以下步骤:
S201,计算所述待检测数据集的协方差矩阵。
S202,将所述待检测数据集的协方差矩阵通过奇异值分解,获得(k,k)维一正交矩阵。所述k为待检测数据集的维数。
S203,取所述正交矩阵的前j维,并构成所述投影矩阵。
S204,根据获取的所述投影矩阵以及待检测数据集计算所述第一数据集。
S205,将所述第一数据集利用主成分算法进行重构,形成第二数据集,所述第二数据集与所述待检测数据集具有相同的维度。
S206,计算所述待检测数据集与所述第二数据集对应数据之间的相关性。
S207,获取所述待检测数据中与所述第二数据集中对应数据差异大的异常数据。
步骤S201中,要获取协方差矩阵,首先要计算待检测数据集中各个特征之间的协方差,假设特征X和特征Y的均值分别为那么就可以用协方差来度量各个维度偏离其均值的程度,协方差cov的定义:
然后可以计算出待检测数据集的协方差矩阵,假设待检测数据集是三维数据集,即含有X、Y、Z三个特征,那么待检测数据集的协方差矩阵为:
更多维度的协方差矩阵的计算方式相同,在此不再赘述。
步骤S202中,获得协方差矩阵后,就可以利用奇异值对其进行分解,可以按照如下公式进行分解:
X=PDPT
其中,所述X为所述待检测数据集的协方差矩阵,所述P为(k,k)维的所述正交矩阵,所述k为待检测数据集的维度(即特征数量), 且所述正交矩阵的每一列都包含所述待检测数据集的协方差矩阵的特征向量,所述D为(k,k)维的对角矩阵,且所述对角矩阵包含了所述待检测数据集的协方差矩阵的特征值,所述PT为所述正交矩阵的转置矩阵。
步骤S203中,经过奇异值分解获得正交矩阵后,就可以提取正交矩阵的前j维,并构成所述投影矩阵,且j要小于k。这里提取j维的数据即主成分降维的思想,通常来说,可以按照协方差的值从大到小提取出j维的数据,当然j的数值可以根据需要来设定。
步骤S204中,获取了投影矩阵后,就可以根据投影矩阵以及待检测数据集计算所述第一数据集,可以依据以下公式来计算第一数据集:
Yj=dataMat=Pj
其中,所述Yj为第一数据集,dataMat为待检测数据集,Pj为(k,j)维的矩阵。如果待检测数据集是一个(N,k)维的数据集,那么Yj就是一个(N,j)维的数据集。至此主成分降维完成,即实现了将待测数据集投影到了低维主成分空间。
步骤S205中,将第一数据集重构成第二数据集,从表现形式来讲即将第一数据集从主成分空间映射到待测数据集所处的原始空间,可以依照以下公式获取所述第二数据集:
Rj=Yj×(Pj)T
所述Rj为所述第二数据集,所述Yj为第一数据集,Pj为(k,j)维的矩阵,k为待检测数据集的维度数量,j为第一数据集的维度数量,那么Rj就是一个(N,k)维的矩阵,也就是说第二数据集与待检测数 据集具有相同的数据结构。请参见图3,其为基于矩阵分解的变化过程示意图。
步骤S206中,获得了第二数据集之后,就可以计算待检测数据集与第二数据集对应数据之间的相关性,可以依照以下公式来计算:
其中,score(dataMati)为所述待检测数据集中的第i个数据与所述第二数据集中的对应数据之间的差异值,所述dataMati为所述待检测数据集中的第i个数据,所述为所述第二数据集中的第i个数据, 为所述待检测数据集中的第i个数据与所述第二数据集中的第i个数据差的欧几里德范数,k为待检测数据集的维度数量,j为第一数据集的维度数量,且j小于k,ev(j)为方差最大的j个主成分在所有主成分中所占的比例,λk为特征值。因为特征值是按照从大到小的顺序排列的,因此ev(j)是递增的序列,这就表示j越高,越多的方差就会被考虑在ev(j)中,因为是从1到j的求和。在这个定义下,偏差最大的第一个主成分获得最小的权重,偏差最小的最后一个主成分获得了最大的权重1。根据主成分算法的性质,异常点在最后一个主成分上可能有着较大的偏差,因此可以获得更高的分数。
步骤S207中,最后就可以根据相关性的差异值获取待检测数据中的异常数据。
本实施例的方法基于主成分矩阵分解对高维数据集合进行简化的算 法,提前甄别数据集中潜在异常样本点,进而可以保证后期系统模型效果的稳定性。
本实施例的方法在实际运用的时候,不需要假定数据集服从某种特定分布,保证模型效果的可靠性和通用性。
实施例三
本发明实施例还提出一种数据预处理方法,用于通过主成分分析方法找出并过滤掉大量数据中的异常数据,特别适用于对图像处理、信用卡欺诈行为检测、征信预警等系统输入数据的预处理。本实施例的数据预处理方法首先通过异常数据检测方法获取待检测数据中的异常数据,然后再过滤掉待检测数据中的异常数据。其中,异常数据检测方法的过程与实施例一及实施例二相同,在此不再赘述。
本实施例的数据预处理方法,在不用假设要处理数据服从某种特定分布的前提下,就可以将其中的异常样本点挑选出来,适用于存在大量缺失值、特征维度很高以及特征属性差别很大的数据的处理,具有很高的可靠性和通用性,也可以提高对经本实施例的数据预处理方法处理过的数据的分析的准确性。
实施例四
本发明实施例提出一种异常数据检测装置,请参见图4,本实施例的异常数据检测装置包括:降维单元41、重构单元42、相关性计算单元43以及异常数据获取单元44。
降维单元41用于将待检测数据集利用主成分算法进行降维处理,形成第一数据集。
重构单元42用于将所述第一数据集利用主成分算法进行重构,形成第二数据集,所述第二数据集与所述待检测数据集具有相同的维度。
相关性计算单元43用于计算所述待检测数据集与所述第二数据集对应数据之间的相关性。
异常数据获取单元44用于获取所述待检测数据中与所述第二数据集中对应数据差异大的异常数据。
本实施例的异常数据检测装置,基于主成分分析的算法,把待检测数据从原始的空间投影到主成分空间,然后再把投影拉回到原始的空间,不用假设要分析的数据集合服从某种特定的分布,适用于存在大量缺失值、特征维度很高以及特征属性差别很大的数据的处理,在预警模型建立之初将建模数据集中的异常样本点挑选出来,以便于对这些异常样本点可以作单独处理,也可以避免对后期模型建设造成较大干扰,进而保证系统模型性能的稳定性。
实施例五
请参见图5,其为本发明实施例的另一种异常数据检测装置的结构图。本实施例的异常数据检测装置包括:降维单元41、重构单元42、相关性计算单元43以及异常数据获取单元44。
其中,降维单元41又进一步包括:投影矩阵获取模块411和第一数据集获取模块412。投影矩阵获取模块411又进一步包括:协方差计算子模块4111、正交矩阵获取子模块4112和矩阵提取子模块4113。
进行数据检测时,首先由协方差计算子模块4111计算所述待检测数据集的协方差矩阵,要获取协方差矩阵,首先要计算待检测数据集中各 个特征之间的协方差,假设特征X和特征Y的均值分别为那么就可以用协方差来度量各个维度偏离其均值的程度,协方差cov的定义:
然后可以计算出待检测数据集的协方差矩阵,假设待检测数据集是三维数据集,即含有X、Y、Z三个特征,那么待检测数据集的协方差矩阵为:
更多维度的协方差矩阵的计算方式相同,在此不再赘述。
获得协方差矩阵后,正交矩阵获取子模块4112就可以利用奇异值对其进行分解,正交矩阵获取子模块4112可以按照如下公式进行分解:
X=PDPT
其中,所述X为所述待检测数据集的协方差矩阵,所述P为(k,k)维的所述正交矩阵,所述k为待检测数据集的维度(即特征数量),且所述正交矩阵的每一列都包含所述待检测数据集的协方差矩阵的特征向量,所述D为(k,k)维的对角矩阵,且所述对角矩阵包含了所述待检测数据集的协方差矩阵的特征值,所述PT为所述正交矩阵的转置矩阵。
经过奇异值分解获得正交矩阵后,矩阵提取子模块4113就可以提取正交矩阵的前j维,并构成所述投影矩阵,且j要小于k。这里提取j维的数据即主成分降维的思想,通常来说,可以按照协方差的值从大 到小提取出j维的数据,当然j的数值可以根据需要来设定。
获取了投影矩阵后,第一数据集获取模块412就可以根据投影矩阵以及待检测数据集计算所述第一数据集,第一数据集获取模块412可以依据以下公式来计算第一数据集:
Yj=dataMat×Pj
其中,所述Yj为第一数据集,dataMat为待检测数据集,Pj为(k,j)维的矩阵。如果待检测数据集是一个(N,k)维的数据集,那么Yj就是一个(N,j)维的数据集。至此主成分降维完成,即实现了将待测数据集投影到了低维主成分空间。
重构单元42用于将所述第一数据集利用主成分算法进行重构,形成第二数据集,所述第二数据集与所述待检测数据集具有相同的维度。将第一数据集重构成第二数据集,从表现形式来讲即将第一数据集从主成分空间映射到待测数据集所处的原始空间,重构单元42可以依照以下公式获取所述第二数据集:
Rj=Yj×(Pj)T
所述Rj为所述第二数据集,所述Yj为第一数据集,Pj为(k,j)维的矩阵,k为待检测数据集的维度数量,j为第一数据集的维度数量,那么Rj就是一个(N,k)维的矩阵,也就是说第二数据集与待检测数据集具有相同的数据结构。请参见图3,其为基于矩阵分解的变化过程示意图。
获得了第二数据集之后,相关性计算单元43就可以计算待检测数据集与第二数据集对应数据之间的相关性,相关性计算单元43可以依 照以下公式来计算:
其中,score(dataMati)为所述待检测数据集中的第i个数据与所述第二数据集中的对应数据之间的差异值,所述dataMati为所述待检测数据集中的第i个数据,所述为所述第二数据集中的第i个数据, 为所述待检测数据集中的第i个数据与所述第二数据集中的第i个数据差的欧几里德范数,k为待检测数据集的维度数量,j为第一数据集的维度数量,且j小于k,ev(j)为方差最大的j个主成分在所有主成分中所占的比例,λk为特征值。因为特征值是按照从大到小的顺序排列的,因此ev(j)是递增的序列,这就表示j越高,越多的方差就会被考虑在ev(j)中,因为是从1到j的求和。在这个定义下,偏差最大的第一个主成分获得最小的权重,偏差最小的最后一个主成分获得了最大的权重1。根据主成分算法的性质,异常点在最后一个主成分上可能有着较大的偏差,因此可以获得更高的分数。
最后异常数据获取单元44就可以根据相关性的差异值获取待检测数据中的异常数据。
本实施例的装置基于主成分矩阵分解对高维数据集合进行简化的算法,提前甄别数据集中潜在异常样本点,进而可以保证后期系统模型效果的稳定性。
本实施例的装置在实际运用的时候,不需要假定数据集服从某种特定 分布,保证模型效果的可靠性和通用性。
实施例六
本发明实施例还提出一种数据预处理系统,用于通过主成分分析方法找出并过滤掉大量数据中的异常数据,特别适用于对图像处理、信用卡欺诈行为检测、征信预警等系统输入数据的预处理。请参见图6,本实施例的数据预处理系统包括异常数据检测装置61及过滤单元62。数据处理时,首先通过异常数据检测装置61获取待检测数据中的异常数据,然后再通过过滤单元62过滤掉待检测数据中的异常数据。其中,异常数据检测装置的结构及工作原理与实施例四及实施例五相同,在此不再赘述。
本实施例的数据预处理系统,在不用假设要处理数据服从某种特定分布的前提下,就可以将其中的异常样本点挑选出来,适用于存在大量缺失值、特征维度很高以及特征属性差别很大的数据的处理,具有很高的可靠性和通用性,也可以提高对经本实施例的数据预处理方法处理过的数据的分析的准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或网络设备等)执行本发明实施例各个实施场景所述的方法。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (16)

1.一种异常数据检测方法,其特征在于,包括以下步骤:
将待检测数据集利用主成分算法进行降维处理,形成第一数据集;
将所述第一数据集利用主成分算法进行重构,形成第二数据集,所述第二数据集与所述待检测数据集具有相同的维度;
计算所述待检测数据集与所述第二数据集对应数据之间的相关性;
获取所述待检测数据中与所述第二数据集中对应数据差异大的异常数据。
2.如权利要求1所述的异常数据检测方法,其特征在于,所述将待检测数据集利用主成分算法进行降维处理,形成第一数据集的步骤包括:
获取(k,j)维的投影矩阵,k为待检测数据集的维度数量,j为第一数据集的维度数量,且j小于k;
根据获取的所述投影矩阵以及待检测数据集计算所述第一数据集。
3.如权利要求2所述的异常数据检测方法,其特征在于,所述根据获取的所述投影矩阵以及待检测数据集计算所述第一数据集的步骤中,依照以下公式获取所述第一数据集:
Yj=dataMat×Pj
其中,所述Yj为第一数据集,dataMat为待检测数据集,Pj为(k,j)维的矩阵。
4.如权利要求2所述的异常数据检测方法,其特征在于,获取所述投影矩阵的步骤包括:
计算所述待检测数据集的协方差矩阵;
将所述待检测数据集的协方差矩阵通过奇异值分解,获得(k,k)维正交矩阵;
取所述正交矩阵的前j维,并构成所述投影矩阵。
5.如权利要求4所述的异常数据检测方法,其特征在于,所述将所述待检测数据集的协方差矩阵通过奇异值分解,获得所述投影矩阵的步骤中,依照以下公式:
X=PDPT
其中,所述X为所述待检测数据集的协方差矩阵,所述P为(k,k)维的所述正交矩阵,且所述正交矩阵的每一列都包含所述待检测数据集的协方差矩阵的特征向量,所述D为(k,k)维的对角矩阵,且所述对角矩阵包含了所述待检测数据集的协方差矩阵的特征值,所述PT为所述正交矩阵的转置矩阵。
6.如权利要求1所述的异常数据检测方法,其特征在于,所述将所述第一数据集利用主成分算法进行重构,形成第二数据集的步骤中,依照以下公式获取所述第二数据集:
Rj=Yj×(Pj)T
所述Rj为所述第二数据集,所述Yj为第一数据集,Pj为(k,j)维的矩阵,k为待检测数据集的维度数量,j为第一数据集的维度数量,且j小于k。
7.如权利要求1所述的异常数据检测方法,其特征在于,所述计算所述待检测数据集与所述第二数据集对应数据之间的相关性的步骤中,依照以下公式:
s c o r e ( dataMat i ) = Σ j = 1 k ( | dataMat i - R i j | ) × e v ( j )
其中,score(dataMati)为所述待检测数据集中的第i个数据与所述第二数据集中的对应数据之间的差异值,所述dataMati为所述待检测数据集中的第i个数据,所述为所述第二数据集中的第i个数据,为所述待检测数据集中的第i个数据与所述第二数据集中的第i个数据差的欧几里德范数,k为待检测数据集的维度数量,j为第一数据集的维度数量,且j小于k,ev(j)为方差最大的j个主成分在所有主成分中所占的比例。
8.一种数据预处理方法,其特征在于,包括以下步骤:
通过如权利要求1~7任一项所述的异常数据检测方法获取待检测数据中的异常数据;
过滤掉所述待检测数据中的异常数据。
9.一种异常数据检测装置,其特征在于,包括:
降维单元,用于将待检测数据集利用主成分算法进行降维处理,形成第一数据集;
重构单元,用于将所述第一数据集利用主成分算法进行重构,形成第二数据集,所述第二数据集与所述待检测数据集具有相同的维度;
相关性计算单元,用于计算所述待检测数据集与所述第二数据集对应数据之间的相关性;
异常数据获取单元,用于获取所述待检测数据中与所述第二数据集中对应数据差异大的异常数据。
10.如权利要求9所述的异常数据检测装置,其特征在于,所述降维单元进一步包括:
投影矩阵获取模块,用于获取(k,j)维的投影矩阵,k为待检测数据集的维度数量,j为第一数据集的维度数量,且j小于k;
第一数据集获取模块,用于根据获取的所述投影矩阵以及待检测数据集计算所述第一数据集。
11.如权利要求10所述的异常数据检测装置,其特征在于,所述第一数据集获取模块依照以下公式获取所述第一数据集:
Yj=dataMat=Pj
其中,所述Yj为第一数据集,dataMat为待检测数据集,Pj为(k,j)维的矩阵。
12.如权利要求10所述的异常数据检测装置,其特征在于,所述投影矩阵获取模块进一步包括:
协方差计算子模块,用于计算所述待检测数据集的协方差矩阵;
正交矩阵获取子模块,用于将所述待检测数据集的协方差矩阵通过奇异值分解,获得(k,k)维一正交矩阵;
矩阵提取子模块,用于取所述正交矩阵的前j维,并构成所述投影矩阵。
13.如权利要求12所述的异常数据检测装置,其特征在于,所述投影矩阵获取模块依照以下公式:
X=PDPT
其中,所述X为所述待检测数据集的协方差矩阵,所述P为(k,k)维的所述正交矩阵,且所述正交矩阵的每一列都包含所述待检测数据集的协方差矩阵的特征向量,所述D为(k,k)维的对角矩阵,且所述对角矩阵包含了所述待检测数据集的协方差矩阵的特征值,所述PT为所述正交矩阵的转置矩阵。
14.如权利要求9所述的异常数据检测装置,其特征在于,所述重构单元依照以下公式获取所述第二数据集:
Rj=Yj×(Pj)T
所述Rj为所述第二数据集,所述Yj为第一数据集,Pj为(k,j)维的矩阵,k为待检测数据集的维度数量,j为第一数据集的维度数量,且j小于k。
15.如权利要求9所述的异常数据检测装置,其特征在于,所述相关性计算单元依照以下公式计算所述待检测数据集与所述第二数据集对应数据之间的相关性:
s c o r e ( dataMat i ) = Σ j = 1 k ( | dataMat i - R i j | ) × e v ( j )
其中,score(dataMati)为所述待检测数据集中的第i个数据与所述第二数据集中的对应数据之间的差异值,所述dataMati为所述待检测数据集中的第i个数据,所述为所述第二数据集中的第i个数据,为所述待检测数据集中的第i个数据与所述第二数据集中的第i个数据差的欧几里德范数,k为待检测数据集的维度数量,j为第一数据集的维度数量,且j小于k,ev(j)为方差最大的j个主成分在所有主成分中所占的比例。
16.一种数据预处理系统,其特征在于,包括如权利要求9~14任一项所述的异常数据检测装置以及一过滤单元,所述过滤单元用于根据所述异常数据检测装置获取的待检测数据中的异常数据,过滤掉所述待检测数据中的异常数据。
CN201610911559.9A 2016-10-19 2016-10-19 异常数据检测方法及装置、数据预处理方法及系统 Active CN106547852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610911559.9A CN106547852B (zh) 2016-10-19 2016-10-19 异常数据检测方法及装置、数据预处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610911559.9A CN106547852B (zh) 2016-10-19 2016-10-19 异常数据检测方法及装置、数据预处理方法及系统

Publications (2)

Publication Number Publication Date
CN106547852A true CN106547852A (zh) 2017-03-29
CN106547852B CN106547852B (zh) 2021-03-12

Family

ID=58369304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610911559.9A Active CN106547852B (zh) 2016-10-19 2016-10-19 异常数据检测方法及装置、数据预处理方法及系统

Country Status (1)

Country Link
CN (1) CN106547852B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204875A (zh) * 2017-05-11 2017-09-26 腾讯科技(深圳)有限公司 数据上报链路监测方法、装置、电子设备及存储介质
CN108595381A (zh) * 2018-04-27 2018-09-28 厦门尚为科技股份有限公司 健康状态评价方法、装置及可读存储介质
CN108921424A (zh) * 2018-06-28 2018-11-30 广东电网有限责任公司 一种电力数据异常检测方法、装置、设备及可读存储介质
CN109470954A (zh) * 2018-11-08 2019-03-15 吉铁磊 一种基于大数据的电网运行状态监测系统及其监测方法
CN109934456A (zh) * 2019-01-29 2019-06-25 中国电力科学研究院有限公司 一种用于对采集运维系统进行智能故障检测的方法及系统
CN110321950A (zh) * 2019-06-30 2019-10-11 哈尔滨理工大学 一种信用卡欺诈识别方法
CN110472646A (zh) * 2018-05-09 2019-11-19 富士通株式会社 数据处理设备、数据处理方法及介质
CN111737099A (zh) * 2020-06-09 2020-10-02 国网电力科学研究院有限公司 一种基于高斯分布的数据中心异常检测方法及装置
CN112148763A (zh) * 2019-06-28 2020-12-29 京东数字科技控股有限公司 无监督数据异常检测方法、装置及存储介质
CN113221937A (zh) * 2021-02-24 2021-08-06 山东万博科技股份有限公司 基于人工智能判断的应急处理系统及方法
CN115834453A (zh) * 2023-02-14 2023-03-21 浙江德塔森特数据技术有限公司 手持协议检测终端的协议检测方法和手持协议检测终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110233A1 (en) * 2007-10-31 2009-04-30 Fortinet, Inc. Image spam filtering based on senders' intention analysis
CN102799682A (zh) * 2012-05-10 2012-11-28 中国电力科学研究院 一种海量数据预处理方法及其系统
CN104463137A (zh) * 2014-12-18 2015-03-25 上海交通大学 基于特征空间分裂的异常人脸图像检测方法及系统
CN105374054A (zh) * 2015-11-17 2016-03-02 重庆邮电大学 基于空谱特性的高光谱图像压缩方法
CN105938561A (zh) * 2016-04-13 2016-09-14 南京大学 一种基于典型相关性分析的计算机数据属性约简方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110233A1 (en) * 2007-10-31 2009-04-30 Fortinet, Inc. Image spam filtering based on senders' intention analysis
CN102799682A (zh) * 2012-05-10 2012-11-28 中国电力科学研究院 一种海量数据预处理方法及其系统
CN104463137A (zh) * 2014-12-18 2015-03-25 上海交通大学 基于特征空间分裂的异常人脸图像检测方法及系统
CN104463137B (zh) * 2014-12-18 2017-07-18 上海交通大学 基于特征空间分裂的异常人脸图像检测方法及系统
CN105374054A (zh) * 2015-11-17 2016-03-02 重庆邮电大学 基于空谱特性的高光谱图像压缩方法
CN105938561A (zh) * 2016-04-13 2016-09-14 南京大学 一种基于典型相关性分析的计算机数据属性约简方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204875A (zh) * 2017-05-11 2017-09-26 腾讯科技(深圳)有限公司 数据上报链路监测方法、装置、电子设备及存储介质
CN108595381A (zh) * 2018-04-27 2018-09-28 厦门尚为科技股份有限公司 健康状态评价方法、装置及可读存储介质
CN110472646A (zh) * 2018-05-09 2019-11-19 富士通株式会社 数据处理设备、数据处理方法及介质
CN110472646B (zh) * 2018-05-09 2023-02-28 富士通株式会社 数据处理设备、数据处理方法及介质
CN108921424A (zh) * 2018-06-28 2018-11-30 广东电网有限责任公司 一种电力数据异常检测方法、装置、设备及可读存储介质
CN109470954A (zh) * 2018-11-08 2019-03-15 吉铁磊 一种基于大数据的电网运行状态监测系统及其监测方法
CN109470954B (zh) * 2018-11-08 2020-10-13 中研国科智能设备(河北)有限公司 一种基于大数据的电网运行状态监测系统及其监测方法
CN109934456A (zh) * 2019-01-29 2019-06-25 中国电力科学研究院有限公司 一种用于对采集运维系统进行智能故障检测的方法及系统
CN112148763A (zh) * 2019-06-28 2020-12-29 京东数字科技控股有限公司 无监督数据异常检测方法、装置及存储介质
CN110321950A (zh) * 2019-06-30 2019-10-11 哈尔滨理工大学 一种信用卡欺诈识别方法
CN111737099A (zh) * 2020-06-09 2020-10-02 国网电力科学研究院有限公司 一种基于高斯分布的数据中心异常检测方法及装置
CN111737099B (zh) * 2020-06-09 2021-04-16 国网电力科学研究院有限公司 一种基于高斯分布的数据中心异常检测方法及装置
CN113221937A (zh) * 2021-02-24 2021-08-06 山东万博科技股份有限公司 基于人工智能判断的应急处理系统及方法
CN115834453A (zh) * 2023-02-14 2023-03-21 浙江德塔森特数据技术有限公司 手持协议检测终端的协议检测方法和手持协议检测终端
CN115834453B (zh) * 2023-02-14 2023-06-02 浙江德塔森特数据技术有限公司 手持协议检测终端的协议检测方法和手持协议检测终端

Also Published As

Publication number Publication date
CN106547852B (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN106547852A (zh) 异常数据检测方法及装置、数据预处理方法及系统
Krone-Martins et al. UPMASK: unsupervised photometric membership assignment in stellar clusters
US9411445B2 (en) Input object classification
US20190138721A1 (en) Dimensionality Reduction of Computer Programs
US20190265296A1 (en) Importance sampling method for multiple failure regions
CN103186279B (zh) 执行检测操作的方法和装置
Ozkan et al. MiniMax ε-stable cluster validity index for type-2 fuzziness
WO2016130542A1 (en) Code relatives detection
US20180143968A1 (en) System, method and non-transitory computer readable storage medium for conversation analysis
CN110208660A (zh) 一种用于电力设备局部放电缺陷诊断的训练方法及装置
CN108564569B (zh) 一种基于多核分类学习的混凝土裂缝检测方法及装置
CN104391616B (zh) 一种触摸屏的像素点电容值检测范围的获取方法和装置
JP4474416B2 (ja) 物体の形状を決定する方法及びそのような方法のためのシステム
Susan et al. Difference theoretic feature set for scale‐, illumination‐and rotation‐invariant texture classification
US9460393B2 (en) Inference of anomalous behavior of members of cohorts and associate actors related to the anomalous behavior based on divergent movement from the cohort context centroid
Dai et al. Multiscale Flow for robust and optimal cosmological analysis
US20190260572A1 (en) Efficient computation of bivariate statistical moments for side channel vulnerability evaluation
Rakotonirainy A machine learning approach for automated strip packing algorithm selection.
Woodring et al. Semi‐automatic time‐series transfer functions via temporal clustering and sequencing
CN104484601B (zh) 基于加权距离度量以及矩阵分解的入侵检测方法及装置
Perrot-Dockes et al. A variable selection approach in the multivariate linear model: an application to LC-MS metabolomics data
CN109696614A (zh) 电路测试优化方法及装置
US10318084B2 (en) Methods and systems for matrix electrode arrays
Peyton et al. Supervised deep learning and classification of single-event transients
Khare et al. Complex wavelet transform-based approach for human action recognition in video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant