CN101984428A - 数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法 - Google Patents
数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法 Download PDFInfo
- Publication number
- CN101984428A CN101984428A CN 201010531310 CN201010531310A CN101984428A CN 101984428 A CN101984428 A CN 101984428A CN 201010531310 CN201010531310 CN 201010531310 CN 201010531310 A CN201010531310 A CN 201010531310A CN 101984428 A CN101984428 A CN 101984428A
- Authority
- CN
- China
- Prior art keywords
- matrix
- data
- moore
- penrose
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000007418 data mining Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 90
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 25
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 9
- 230000007547 defect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 238000000691 measurement method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000002950 deficient Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002427 irreversible effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010000234 Abortion spontaneous Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000015994 miscarriage Diseases 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 208000000995 spontaneous abortion Diseases 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Complex Calculations (AREA)
Abstract
一种数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法,包括以下步骤:1)计算数据总体X的协方差矩阵S;2)根据实对称矩阵的谱分解理论;3)构造权值矩阵M,N,具体过程如下:①构造n??n矩阵M;②构造n??n矩阵N;4)计算协方差阵S的加权Moore-Penrose逆矩阵;5)计算数据个体Xi,Xj之间的马氏距离。本发明提供了一种不受量纲影响(具有线性变换不变性)、保持数据均值和方差信息、并在处理任何相关性数据时都能确保正常进行且性能更高的数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法。
Description
技术领域
本发明涉及数据挖掘过程技术领域,尤其是一种处理有限相关性数据集的W MP马氏距离测定方法。
背景技术
随着企业或行业的业务数据不断积累,形成了海量数据集。如果单靠人工去整理或理解如此庞大的数据源已存在效率和准确性等问题。因此,越来越多企业正通过数据挖掘技术来解决海量数据的整理和知识发现问题,并为企业决策提供支持。而数据预处理大约占了整个数据挖掘过程60%-70%的工作量,并对数据挖掘的结果起着至关重要的作用。数据预处理中很重要的一步工作便是对原始数据中的缺损数据进行填补。在缺损值补值的过程中,距离测定方法是最重要的技术,如数据相似度判断等;另外,距离测定方法也被用于聚类分析、分类分析等数据挖掘最终过程。在神经网络、模式识别、信号处理、图像处理等领域,距离的测定方法也有广泛应用。
本发明涉及的数据集假设如下:
设X1,X2,…,Xm为m个数据个体,其中X i =(xi1,xi2,……,xin),i=1,2,…,m,而n为数据个体X i 的属性个数,则数据总体可表示为X=(X1,X2,…,Xm)T,即:
对任意两个数据个体X i =(x i1 ,x i2 ,……,x in ),X j =(x j1 ,x j2 ,……,x jn ),
1、 欧式(Euclidean)距离
2、 绝对值距离(Manhattan距离)
3、 切比雪夫距离(Chebyshev距离)
4、明可夫斯基距离(Minkowski距离)
通过简单的数学分析可知,(1)、(2)、(3)式都是(4)式中p为某个特殊值的特例或p趋于无穷大时的极限值。虽然它们的计算过程相对简单,但主要存在如下不足:
1) 除欧氏距离(1)式外,其它距离都不具备平移不变性。
2) 它们都极易受到数据量纲的影响,而数据挖掘中的实际数据通常都是有量纲的。
3) 实际应用中常常通过对原始数据的标准化来消除量纲,以方便使用以上距离公式。但数据标准化的过程会导致原始数据的均值及方差这两个重要的统计信息丢失。
4) 它们都未考虑数据之间的相关性。
5、 Camberra距离
(5)
Camberra距离消除了量纲的影响,但仍不能满足属性之间相关性数据的处理需求,而且只适用于正实数域,更不能完全满足科学研究中大多数领域的实际应用需求。
6、马氏(Mahalanobis)距离
(6)
其中S为数据总体X的协方差矩阵。
容易验证,马氏距离对于一切非奇异线性变换都是不变的,也就是说它不受量纲的影响,也不损失数据集的均值和方差等统计信息。同时,由于协方差阵的引进,它可以忽略冗余的数据,并充分考虑了数据之间的相关性。这是马氏距离的主要优点。但是,协方差矩阵所反映的数据相关性并不一定与数据挖掘研究的主题一致。当它与数据挖掘的研究主题相离甚至相悖时,S所反映的相关信息会使计算结果更加糟糕。马氏距离的另一个重大缺点是要求协方差矩阵S可逆,而在很多实际应用中,比如电子商务的数据挖掘中,其数据集的协方差矩阵S可能并不可逆,致使距离计算无法进行,最终导致实际应用流产。
除了上述距离外,还有Harmming距离、Hausdroff距离等局限于一些个别领域中的特殊应用,如Harmming距离主要在信息编码中应用。
综上所述,现有距离计算方法在处理相关性数据时都存在诸多不足之处,因此,研究一种不受量纲影响、完整保持数据的均值和方差等统计信息,处理相关性数据时稳定性更强,且对于任何数据集都能确保计算过程正常进行的高可靠性距离测定方法具有重要的理论和实际意义。
发明内容
为了克服现有数据挖掘过程的距离测定方法存在的受量纲影响、不能完整保持数据源的均值和方差、处理相关性数据时稳定性较差、可靠性差的弊端,本发明提供了一种不受量纲影响(具有线性变换不变性)、保持数据均值和方差信息、并在处理任何相关性数据时都能确保正常进行且性能更高的,数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法。
本发明中解决关键问题的技术方案如下:
一种数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法,如果a为一向量或矩阵,则用a T 表示a的转置;
设X1,X2,…,Xm为m个数据个体,其中X i =(xi1,xi2,……,xin),i=1,2,…,m,n为数据个体X i 的属性个数,则数据总体可表示为X=(X1,X2,…,Xm)T,即:
所述测定方法包括以下步骤:
其中,,S为n??n矩阵;
其中,λi为S的第i个特征值,e i 为对应的n维标准化特征向量(列向量) i=1,2,…,n , 且当i≠j时,e i T e j =0;
3) 构造权值矩阵M,N,具体过程如下:
① 构造n??n矩阵M
而λi为S的第i个特征值,e i 为对应的n维标准化特征向量,即列向量, i=1,2,…,n,且当i≠j时,e i T e j =0;
② 构造n??n矩阵N
其中,b i >0,为a i 的倒数经标准化后的值,即,且n i 为向量e i 中各个元素取倒数后再归一化所得到的向量,如若e i =(e 1i ,e 2i ,…,e ni )T,则令v i=(v 1i,v 2i,…,v ni)T,,j=1,2,…,n;
4) 计算协方差阵S的加权Moore-Penrose逆矩阵
5) 计算数据个体X i ,X j 之间的马氏距离:
本发明的技术构思为:由于马氏距离的优点(不受量纲影响、处理相关性数据性能高等)及缺点(稳定性差,计算可能无法进行等)均是因在其计算过程中引进协方差阵的逆矩阵引起的。因此,本发明的核心在于利用加权Moore-Penrose逆的定义,提出了一个关于协方差矩阵S的加权Moore-Penrose逆计算方法,从而设计出基于加权Moore-Penrose逆的WMP马氏距离测定方法。
加权Moore-Penrose逆的定义:对于任意矩阵A,满足以下4个方程(称为加权Penrose方程组)的矩阵B称为矩阵A的加M、N权Moore-Penrose逆(以下均简称为加权Moore-Penrose逆)。
① ABA=A, ② BAB=B, ③ (MAB)T=MAB, ④ (NBA)T=NBA。
其中,A∈Rm*n,M、N分别是m与n阶(Hermite)正定矩阵。
协方差矩阵S的权矩阵M、N的构造:在数据集X较小时,M、N的确定可以由专家主观意识给出,但是考虑到实际数据挖掘中的数据集是相当庞大的,而M、N的阶正好是数据集的属性个数,因此,在通常情况下由专家给出权矩阵M、N是相当困难的。此处,我们给出一种客观的、完全依托于数据总体X的权矩阵M、N计算方法。
因为对于任意一个数据总体X,它的协方差矩阵必定是半正定的,则根据对称矩阵的谱分解理论,可将n阶协方差矩阵S谱分解为:
其中l i 为S的第i个特征值,e i 为对应的标准化正交特征向量。
从上述分解形式我们可以看出,若某一特征值越大,则说明该特征值对应的特征向量对矩阵S的贡献(影响)越大。
根据S的分解,我们可构造n*n阶权矩阵M,
S的加权Moore-Penrose逆的构造:S的加权Moore-Penrose逆为:
而根据(9),定义
首先,因为M的特征值αi均为正,所以M是正定矩阵。同理,N也为正定矩阵,它们都满足加权Moore-Penrose逆关于M、N正定矩阵的要求。以下验证它们满足加权Penrose方程组的①-④方程。
1) 验证方程①
所以,
根据Moore-Penrose逆的定义,有
所以 ,方程①验证完毕。
2) 验证方程②
根据Moore-Penrose逆的定义,有
3) 验证方程③
因为,
又因为M为对称矩阵
4) 验证方程④
所以,
又因为N为对称矩阵
所以 ,方程④验证完毕。
WMP马氏距离函数构造:
本发明的有益效果为:(1)当协方差矩阵S不可逆时,本方法都能确保WMP马氏距离计算正常进行,因为协方差阵S的加权Moore-Penrose逆一定存在,可保证距离计算过程不会中断和夭折。而传统马氏距离可能由于协方差矩阵不可逆而导致距离计算无法进行,最终导致无法在实际问题中应用。(2)当协方差矩阵S可逆时,本方法比传统方法有更高的可靠性;在马氏距离中,协方差矩阵体现了数据间的相关性,但是这种相关性有可能是与主题相悖的。在WMP马氏距离中,通过权矩阵来缓冲和消解这种错误。当协方差阵正确反应数据关系时,权矩阵增强了该效果;当协方差阵错误地反应数据相关性时,权矩阵纠正并缓冲,甚至可以消解这种错误信息。(3)本方法不受数据量纲影响,且保证均值与方差信息不丢失。
具体实施方式
下面对本发明做进一步的说明。
一种数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法,设定a为一向量或矩阵,则a T 表示a的转置;
设X1,X2,…,Xm为m个数据个体,其中X i =(xi1,xi2,……,xin),i=1,2,…,m,n为数据Xi的属性个数。则数据总体可表示为X=(X1,X2,…,Xm)T,即:
所述测定方法包括以下步骤:
2)根据实对称矩阵的谱分解理论将协方差矩阵展开,可得
其中,λi为S的第i个特征值,e i 为对应的n维标准化特征向量(列向量) i=1,2,…,n , 且当i≠j时,e i T e j =0。
3)构造权值矩阵M,N
① 构造n??n矩阵M
其中,λi为S的第i个特征值,e i 为对应的n维标准化特征向量(列向量) , i=1,2,…,n,且当i≠j时,e i T e j =0。
② 构造n??n矩阵N
4)计算协方差阵S的加权Moore-Penrose逆矩阵
5)计算数据个体X i ,X j 的WMP马氏距离
该测定方法在数据挖掘的缺损数据补值过程中应用方案如下:
对于任意数据集Z={Z1,Z2,…,Zm},其中Zi=[zi1,zi2,…,zin],i=1,2,…,m;则Z可分解为如下形式:Z=X∪Y,X∩Y=Ф;其中
X={X1,X2,…,Xk},Xi=[xi1,xi2,…,xin],且对于任意i (i=1,2,…,k),任意j (j=1, 2,…,n),有xij≠null (空值),即X中的任意数据个体不存在缺损数据;
Y={Y1,Y2,…,Ym-k},Yi=[yi1,yi2,…,yin],且对于任意i (i=1,2,…,m-k),存在j (j=1, 2, …,n),使得yij=null (空值),即Y中任意数据个体Yi均存在缺损数据。
为方便叙述,假设Y中的数据Yt仅存在缺损值ytq,则对ytq进行补值的计算过程如下:
1) 测量P中每一数据Xi’与Yt’的WMP马氏距离d i ,作为未缺损数据Xi与缺损数据Yt的关联程度,i=1,2,…,k.
其中,S为数据集P的协方差矩阵。
2) 计算每一数据Xi的属性值xiq对缺损数据Yt的缺损值ytq的贡献度ri。
3) 缺损值ytq的补值为:
Claims (1)
1.一种数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法,其特征在于:设定若a为一向量或矩阵,则a T 表示a的转置;设X1,X2,…,Xm为m个数据个体,其中X i =(xi1,xi2,……,xin),i=1,2,…,m,n为数据个体X i 的属性个数,则数据总体可表示为X=(X1,X2,…,Xm)T,即:
所述测定方法包括以下步骤:
其中,λi为S的第i个特征值,e i 为对应的n维标准化特征向量,即列向量, i=1,2,…,n , 且当i≠j时,e i T e j =0;
3) 构造权值矩阵M,N,具体过程如下:
① 构造n??n矩阵M
而λi为S的第i个特征值,e i 为对应的n维标准化特征向量,即列向量, i=1,2,…,n,且当i≠j时,e i T e j =0;
② 构造n??n矩阵N
其中,b i >0,为a i 的倒数经标准化后的值,即,且n i 为向量e i 中各个元素取倒数后再归一化所得到的向量,如若e i =(e 1i ,e 2i ,…,e ni )T,则令v i=(v 1i,v 2i,…,v ni)T,,j=1,2,…,n;
4) 计算协方差阵S的加权Moore-Penrose逆矩阵
5) 计算数据个体X i ,X j 之间的马氏距离:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010531310 CN101984428A (zh) | 2010-11-03 | 2010-11-03 | 数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010531310 CN101984428A (zh) | 2010-11-03 | 2010-11-03 | 数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101984428A true CN101984428A (zh) | 2011-03-09 |
Family
ID=43641597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010531310 Pending CN101984428A (zh) | 2010-11-03 | 2010-11-03 | 数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101984428A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1945595A (zh) * | 2006-10-30 | 2007-04-11 | 邹采荣 | 一种基于加权主动形状建模的人脸特征定位方法 |
CN101593520A (zh) * | 2008-05-27 | 2009-12-02 | 北京凌声芯语音科技有限公司 | 高性能语音识别协处理器及其协处理的实现方法 |
-
2010
- 2010-11-03 CN CN 201010531310 patent/CN101984428A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1945595A (zh) * | 2006-10-30 | 2007-04-11 | 邹采荣 | 一种基于加权主动形状建模的人脸特征定位方法 |
CN101593520A (zh) * | 2008-05-27 | 2009-12-02 | 北京凌声芯语音科技有限公司 | 高性能语音识别协处理器及其协处理的实现方法 |
Non-Patent Citations (5)
Title |
---|
《宁波大学学报(理工版)》 20071231 章劲鸥等 具有泛分解态射的加权Moore-Penrose逆 第476-480页 1 第20卷, 第4期 2 * |
《山东大学学报(理学版)》 20101031 王宏兴等 整环上矩阵的一类加权Moore-Penrose逆 第9-14页 1 第45卷, 第10期 2 * |
《岩石力学与工程学报》 20100930 姚银佩等 加权距离判别分析法在岩体质量等级分类中的应用 第4119-4123页 1 第29卷, 2 * |
《湖南文理学院学报(自然科学版)》 20050930 朱惠倩 聚类分析的一种改进方法 第7-9,16页 1 第17卷, 第3期 2 * |
《火力与指挥控制》 20090831 王雪飘等 基于马氏距离的飞行缺失数据估计方法 第113-115页 1 第34卷, 第8期 2 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Robust low-rank kernel multi-view subspace clustering based on the schatten p-norm and correntropy | |
Zhu et al. | Unsupervised feature selection by regularized self-representation | |
Yang et al. | Learning from hidden traits: Joint factor analysis and latent clustering | |
Zhang et al. | Robust non-negative matrix factorization | |
Zeng et al. | An antinoise sparse representation method for robust face recognition via joint l1 and l2 regularization | |
Zhao et al. | Statistical inference for generalized random coefficient autoregressive model | |
Deng et al. | Invariant subspace learning for time series data based on dynamic time warping distance | |
Talwalkar et al. | Distributed low-rank subspace segmentation | |
CN109063757A (zh) | 基于块对角表示和视图多样性的多视图子空间聚类方法 | |
Fan et al. | A projection-based conditional dependence measure with applications to high-dimensional undirected graphical models | |
CN110705636A (zh) | 一种基于多样本字典学习和局部约束编码的图像分类方法 | |
Jin et al. | Multiple graph regularized sparse coding and multiple hypergraph regularized sparse coding for image representation | |
Dong et al. | Sparse subspace clustering via smoothed ℓp minimization | |
CN116680363A (zh) | 一种基于多模态评论数据的情感分析方法 | |
Yang et al. | A sparse SVD method for high-dimensional data | |
Chen et al. | Sparse general non-negative matrix factorization based on left semi-tensor product | |
Kong et al. | Projection-preserving block-diagonal low-rank representation for subspace clustering | |
CN113221992A (zh) | 一种基于l2,1范数的大规模数据快速聚类方法 | |
Herrera et al. | Denise: Deep learning based robust PCA for positive semidefinite matrices | |
Yan et al. | Improved spectral clustering algorithm based on similarity measure | |
CN101984428A (zh) | 数据挖掘过程中基于加权Moore-Penrose逆的马氏距离测定方法 | |
Li et al. | Consistent representation learning for high dimensional data analysis | |
Wu et al. | Functional Autoencoder for Smoothing and Representation Learning | |
Ge et al. | An Incremental Two‐Dimensional Principal Component Analysis for Object Recognition | |
CN111582321A (zh) | 一种基于hsic最大化的张量子空间学习算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110309 |