CN105938561A

CN105938561A - 一种基于典型相关性分析的计算机数据属性约简方法

Info

Publication number: CN105938561A
Application number: CN201610228398.3A
Authority: CN
Inventors: 商琳; 李萍; 吴建阳
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2016-04-13
Filing date: 2016-04-13
Publication date: 2016-09-14

Abstract

本发明公开了一种基于典型相关性分析的计算机数据属性约简方法，包括：(1)通过均分的思路将信息表中的原始属性集合分割成多个子属性集合，将每个子属性集合分别看做原属性集合的一个子视图；(2)通过对这些视图进行典型相关性分析得出视图特征之间的相关性情况；(3)按照相关性由大到小的顺序合并属性，将子视图再次合并到一个视图中，得到新的属性集合；(4)对新属性集合计算每个属性的属性重要度并按照从大到小排序；(5)选择属性重要度大的属性加入到约简集合中；(6)计算约简集合的依赖度，如果依赖度与原属性集合的依赖度相近，则输出约简集合；否则转至步骤5。

Description

一种基于典型相关性分析的计算机数据属性约简方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于典型相关性分析的计算机数据属性约简方法。

背景技术

粗糙集是数据挖掘中解决不精确性和不确定性问题的有效工具。属性约简方法是粗糙集中用来对数据进行处理的一个重要手段，其目的在于从原始属性集合中选择出一些最有效的属性以去除冗余属性，降低数据集维度，提高学习算法的性能。现实世界中，互联网等产生的数据往往不能直接运用到数据挖掘过程，需要对这些“脏数据”进行特定的去噪和化简处理，即数据预处理。据统计，数据预处理在数据挖掘整体过程中大约占到60％以上。粗糙集属性约简方法即是数据预处理的一种有力工具，在解决数据挖掘基本问题时有着广泛应用。

经典的属性约简算法只是针对信息表中条件属性与决策属性的关系，而没有考虑到条件属性本身之间的相关性，因此约简的效果不是很理想。特征融合技术是一种通过研究多视图特征之间的相关性程度，将目标的多种视图的特征表示融合到一个目标的子空间中，从而尽量在不损失多视图信息的同时，减少维度。典型相关性分析方法是特征融合的常用方法。如果考虑条件属性之间的相关性，利用典型相关性分析方法将相关性较大的属性进行降维处理，得到初步约简集，再在此约简集上利用粗糙集约简算法进行进一步约简，得到的最终约简集将更具价值。

发明内容

发明目的：本发明的目的是针对现有的属性约简方法没有考虑信息表中条件属性之间相关性的问题，提出一种基于典型相关性分析(Canonical Correlation Analysis，CCA)的计算机数据属性约简方法。该方法能够有效提高粗糙集属性约简方法的约简效果。

为实现上述目的，本发明采用如下的技术方案：

本发明将典型相关性分析方法应用于粗糙集属性约简方法中，该方法包括以下步骤：

步骤1，典型相关性分析：采集需要进行约简的计算机数据，基于均分方法将数据信息表中的原始属性集合分割成两个子属性集合，每个子属性集合看成是原始属性集合的子视图；通过典型相关性分析得出两个子视图的特征之间的相关性；按照相关性由大到小的顺序合并属性得到新的属性集合，将子视图再次合并到一个视图中；所述计算机数据包括数据信息表，数据信息表包括数据的原始属性集合；

步骤2，粗糙集属性约简：利用粗糙集中基于重要性的约简算法对新的属性集合进行约简得到最后的约简集合。

其中，步骤1包括如下步骤：

步骤1-1，采集需要进行约简的计算机数据，将数据信息表中的原始属性集合均分成两个子集合A₁和A₂，假设子集合维度为W，子集合A₁和A₂对应的采样数据样本分别为X和Y，X和Y的大小相等；

步骤1-2，分别求出X的方差矩阵Sig₁₁和Y的方差矩阵Sig₂₂；再求出X与Y的协方差矩阵Sig₁₂以及Y与X的协方差矩阵Sig₂₁；

步骤1-3，根据步骤1-2得到的方差矩阵和协方差矩阵求得综合矩阵F和综合矩阵G的值；

步骤1-4，通过如下公式分别求出综合矩阵F的特征向量矩阵F′和综合矩阵G的特征向量矩阵G′：

|A-λE|＝0，

AH＝λH，

其中，A表示综合矩阵，λ是A的特征值矩阵，H是特征向量矩阵，E是单位矩阵；

步骤1-5，更新采样数据样本X＝F′X，样本Y＝G′Y，回到步骤1-2，执行步骤1-2至步骤1-5W次；

步骤1-6，将更新后的采样数据样本按照属性相关性由大到小进行排序，假设属性融合粒度大小是n，n取值为自然数且n<W，对更新后的采样数据样本X和Y最相关的前n维数据二者选其一，即保留X的前n维或者保留Y的前n维，将剩余属性合并，得到新的属性集合，维度为2W-n。

步骤1-1中所述数据信息表定义为：

S＝(U,C∪D,V,f)，

其中U是采集的数据的非空有限集合，C是条件属性集合，D是决策属性集合(这是粗糙集中的定义，在粗糙集中属性包括条件属性和决策属性，条件属性即是特征；决策属性是类标)，V＝∪_a∈(C∪D)V_a，V_a表示属性a∈C∪D的值域，∪_a∈(C∪D)V_a表示所有属性在数据信息表中值域的并集，f表示U×(C∪D)→V的一个映射，称为信息函数。

步骤1-2中采用如下公式计算方差矩阵和协方差矩阵：

Sig₁₁＝E[(X-μ_X)(X-μ_X)]，

Sig₂₂＝E[(Y-μ_Y)(Y-μ_Y)]，

Sig₁₂＝E[(X-μ_X)(Y-μ_Y)]，

Sig₂₁＝E[(Y-μ_Y)(X-μ_X)]，

其中μ_X和μ_Y分别代表采样数据样本X的均值和采样数据样本Y的均值。

步骤1-3中采用如下公式计算综合矩阵F和综合矩阵G：

F = {Sig}_{11}^{- 1} {Sig}_{12} {Sig}_{22}^{- 1} {Sig}_{21},

G = {Sig}_{22}^{- 1} {Sig}_{21} {Sig}_{11}^{- 1} {Sig}_{12} .

步骤2包括以下步骤：

步骤2-1，计算每个条件属性M_i的属性重要度，M_i表示第i个条件属性，M_i∈M，将结果存放在向量SigArray中；

步骤2-2，使用快速排序算法对向量SigArray中的属性按照属性重要度由大到小排序，结果存放在向量SortedArray中，定义约简集合

步骤2-3，计算条件属性集合M关于决策属性集合D的属性依赖度r_M(D)；

步骤2-4，从向量SortedArray中选择当前属性m，加入到约简集合RedArray中，同时将属性m从向量SortedArray中去除；

步骤2-5，计算约简集合RedArray中的属性关于决策属性的属性依赖度k_temp，如果k_temp！＝r_M(D)，回到步骤2-4；否则返回约简集合RedArray。

步骤2-1中采用如下公式计算条件属性的属性重要度

r_P(Q)＝|POS_P(Q)|/|U|，

{Sig}_{M_{i}} = r_{P} (Q) - r_{P - {M_{i}}} (Q),

{POS}_{P} (Q) = \underset{X &Element; U / Q}{\cup} P_{-} (X),

其中表示第i个条件属性M_i的属性重要度，P是条件属性集合，Q是决策属性集合，|*|代表个数；r_P(Q)是条件属性集合P对决策属性集合Q的属性依赖度表示去掉属性M_i后的剩余条件属性集合对决策属性集合Q的属性依赖度；POS_P(Q)是条件属性集合P关于决策属性集合Q的正域；P_{_}(X)是采样数据样本集合X关于条件属性集合P的下近似；[b]_P是采集的数据的非空有限集合U关于条件属性集合P的等价类。

步骤2-3中采用如下公式计算属性依赖度r_M(D)：

r_M(D)＝|POS_M(D)|/|U|，

其中，POS_M(D)是条件属性集合M关于决策属性集合D的正域。

有益效果：

本发明将典型相关性分析步骤加入粗糙集属性约简过程中，能有效分析条件属性之间的关系，将相关性大的条件属性进行初步约简，接着采用粗糙集属性约简方法对预处理过后的数据集进行约简，不仅能提高约简的速度，同时也能提高约简效果以及算法的分类性能。本发明能约简冗余度高的属性，有效降低特征维度，并提高原数据的分类精度。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明方法的总体结构图。

图2是本发明方法的流程图。

图3是本发明中典型相关性分析过程图。

图4是本发明中属性约简方法过程图。

具体实施方式

如图1所示，本发明方法包含2个基本部分：首先利用典型相关性分析方法分析信息表中条件属性之间的相关性，对相关性大的属性进行融合，得到初步融合后的新的属性集合；接着利用属性约简方法对新属性集合进行约简得到最后的约简集合。

本发明方法流程如图2所示，下面详细说明：

步骤(1)典型相关性分析阶段，过程如图3所示：

(11)将信息表S＝(U,C∪D,V,f)中原属性集合均分成两个子集合A₁和A₂，假设子集合维度为W。保证A₁和A₂对应的数据样本数量相等，分别为X和Y。

(12)对于X和Y，分别求出各自的方差矩阵Sig₁₁和Sig₂₂；再求出X与Y以及Y与X的协方差矩阵Sig₁₂和Sig₂₁。

(13)求得综合矩阵F和综合矩阵G的值。

(14)分别求出F和G的特征向量矩阵F′和G′。

(15)更新X＝F′X，Y＝G′Y，回到步骤(12)，执行这个循环W次。

(16)将更新后的采样数据样本按照属性相关性由大到小进行排序，假设属性融合粒度大小是n，n取值为自然数且n<W，对更新后的采样数据样本X和Y最相关的前n维数据二者选其一，即保留X的前n维或者保留Y的前n维，将剩余属性合并，得到新的属性集合，维度为2W-n。

步骤(2)属性约简阶段，过程如图4所示：

(21)对于新信息表中的条件属性，计算每个条件属性M_i∈M的属性重要度，结果存放在向量SigArray中。

(22)使用快速排序算法对向量SigArray中的属性按照属性重要度由大到小排序，结果存放在SortedArray中；定义约简集合

(23)计算条件属性M关于决策属性D的属性依赖度r_M(D)。

(24)从SortedArray中选择当前属性m，加入到RedArray中，同时将属性a从SortedArray中去除。

(25)计算RedArray关于决策属性D的属性依赖度k_temp。如果k_temp！＝r_M(D)，回到步骤(24)；否则返回约简子集RedArray。

实施例1

下面根据实施例说明本发明的各个步骤。本发明方法基本适用于所有用来做分类处理的数据。本实施例以常用的文本数据举例。豆瓣网会将大量的图书进行分类以便向用户推荐某一类别的图书。如果手动对这些图书进行分类几乎不太现实，因此根据图书的文本内容对图书进行自动类别划分将具有很大的现实意义。但是文本处理最大的问题是文本数据包含大量的词汇，造成文本的维度很高，有的甚至达到上万维。同时，这上万维的数据里通常包含了很多无用数据，不仅对分类准确率造成干扰，同时也非常耗时。因此就需要对这类数据进行属性约简，降低文本维度，提高分类准确率。这里，构造一个简单的文本数据，用来说明本发明方法的实施步骤，之后会将该发明方法应用于真实的数据中。

表1信息表

该文本数据包含5本书分别从B1到B5，总共包含8个单词，表中的数值代表该单词在文本中出现的次数，d是对文本的分类。将该文本抽象成信息表，因此共有8个条件属性分别从a₁到a₈，d是决策属性，x₁到x₅是样本。

对于步骤(11)，先将条件属性平均分成两部分，得到两个属性子集A₁＝{a₁,a₂,a₃,a₄}和A₂＝{a₅,a₆,a₇,a₈}。此时维度W＝4，

对于步骤(12)，根据公式分别求出X和Y的方差矩阵和协方差矩阵。其中μ_X和μ_Y代表矩阵X和矩阵Y的均值。

Sig₁₁＝E[(X-μ_X)(X-μ_X)]

Sig₂₂＝E[(Y-μ_Y)(Y-μ_Y)]

Sig₁₂＝E[(X-μ_X)(Y-μ_Y)]

Sig₂₁＝E[(Y-μ_Y)(X-μ_X)]

对于步骤(13)，根据公式求得综合矩阵F和G的值。

F = {Sig}_{11}^{- 1} {Sig}_{12} {Sig}_{22}^{- 1} {Sig}_{21}

G = {Sig}_{22}^{- 1} {Sig}_{21} {Sig}_{11}^{- 1} {Sig}_{12}

对于步骤(14)，求得综合矩阵F和G的特征向量矩阵F′和G′。先计算F和G的特征值矩阵，再根据特征值求得特征向量矩阵。A表示矩阵，λ是A的特征值矩阵，H是特征向量矩阵，E是单位矩阵。

|A-λE|＝0

AH＝λH

对于步骤(15)，根据公式更新X和Y，再次回到步骤(12)，循环4次。

X＝F′X

Y＝G′Y

对于步骤(16)，假设融合粒度n为2，根据以上步骤，得出矩阵X中的属性{a₁,a₃}与矩阵Y中的属性{a₆,a₇}相关性最大，因此可以保留两组属性中的任意一组，这里保留{a₁,a₃}。将该组属性与剩余属性合并，形成初步约简结果集合{a₁,a₂,a₃,a₄,a₅,a₈}，该集合的维度为6，相比于初始属性集合的维度减少了2维。

对于步骤(21)，根据公式计算每个条件属性的重要度，存放在向量SigArray中。这里可得SigArray＝{0.7,0.5,0.8,0.3,0.2,0.6}。

r_P(Q)＝|POS_P(Q)|/|U|

{Sig}_{M_{i}} = r_{P} (Q) - r_{P - {M_{i}}} (Q)

{POS}_{P} (Q) = \underset{X &Element; U / Q}{\cup} P_{-} (X)

对于步骤(22)，利用快速排序算法对属性集合{a₁,a₂,a₃,a₄,a₅,a₈}按照属性重要度从大到小排序，将结果存放在SortedArray中。因此SortedArray＝{a₃,a₁,a₈,a₂,a₄,a₅}。并且定义约简集合

对于步骤(23)，根据依赖度计算公式计算所有属性{a₁,a₂,a₃,a₄,a₅,a₈}对决策属性d的依赖度r_M(D)。这里r_M(D)＝0.99。

对于步骤(24)，从SortedArray中选择当前属性加入到RedArray中，同时将SortedArray中的当前属性去除，因此RedArray＝{a₃}，SortedArray＝{a₁,a₈,a₂,a₄,a₅}。

对于步骤(25)，根据依赖度计算公式计算属性集合RedArray＝{a₃}对决策属性d的依赖度k_temp。这里k_temp＝0.8。因为k_temp！＝r_M(D)，因此回到步骤(24)，直到k_temp＝r_M(D)停止。

最后得到约简集合RedArray＝{a₃,a₁,a₈}。

因此可以将原先的文本数据变成只包含math,guitar和picture 3个单词组成的数据，将那些无意义的类似于haha,oh等单词删除，这不仅能降低数据量，提高分类的时间性能，同时剔除一些干扰词汇后，也能提高分类的准确度。

为了进一步说明本发明方法的准确性和有效性，将该方法应用于两个真实的数据中。

第一个数据来自于UCI库中的YearPredictionMSD，是哥伦比亚大学LabROSA实验室和回音网The Echo Nest合作的百万歌曲数据集(Million Song Dataset)中的一部分数据。每一条数据包含一首流行歌曲的声音特征和一些元数据。声音特征并不是指真实的声音，而是从这些声音中提取出来的特征数据，例如声音的哈希值，声音的响度，每一段的最大响度，音乐的打击时间等等。元数据包括歌手的信息例如歌手名称，歌手在回音网拥有的标签等。根据这些特征来预测歌曲的发布年份。该数据集总共包含90维条件属性特征。

对于步骤(1)典型相关性分析阶段，首先将数据集平均划分成两份，每份数据包含45个条件属性；然后利用典型相关性分析方法计算两份数据子集中条件属性的相关性程度，对相关性较大的属性进行融合。分别设置融合粒度n为5,10,15,20,25,30。如表1所示，给出在不同融合粒度后，初步约简结果，以及利用SVM分类器进行分类的分类精度。从结果可以看出，原始属性集合的分类精度只能保持在70.8％左右，说明数据集中含有大量的冗余和噪声属性。进行典型相关性属性融合后，不仅属性个数降低了，同时分类的准确率也得到大幅度提升。

表2数据集1下不同融合粒度下的分类精度

对于步骤(2)属性约简阶段，对于上述产生的新的数据集，计算每个属性的重要性，并按照属性重要性从大到小进行排列，选择重要性大的属性加入约简集合，直到约简集合的属性依赖度与原属性集合的依赖度基本相近为止。如表2所示，对融合后的属性集合进行属性约简后，利用SVM分类器进行分类。从结果可以看出，对原数据集进行约简后的属性个数为23，同时分类精度为73.8％，分类精度略低。对融合后的属性集合进行属性约简，属性个数得到明显的降低，同时分类精度也得到大幅度提升。证明本发明方法是正确而有效的。

表3数据集1下融合与属性约简后的分类精度

实施例2

第二个数据集来源于两家医疗机构。该数据集包含正常人和病人的诊断信息，目的是根据这些数据区分正常人诊断数据和病人诊断数据。所有的数据是通过SELDI技术提取的质谱数据，之后对该质谱数据进行处理，得到10000维特征。但是这10000维特征中包含很多冗余信息，直接对其进行区分，分类效果不会太好，因此需要先对其进行降维处理。

对于步骤(1)典型相关性分析阶段，同样将数据属性集合划分成两个子集合，每个集合的属性维度为5000。之后对其进行属性相关性分析，因为属性维度较大，这里将融合粒度设置稍大一些，为100,300,500,700,1000，依然采用SVM分类器对融合前后的数据集进行分类。表4是融合后的分类结果。从结果可以看出，相比于没有进行融合的原属性集合，SVM分类器在融合后的数据集上得到了更好的分类效果。

表4数据集2下不同融合粒度下的分类精度

对于步骤(2)属性约简阶段，依然采用相同的方法对上述新产生的数据集的每个属性计算其重要度，然后对这些属性按照重要度大小排序。每次往约简结果集中加入重要性最大的属性，直到约简集的依赖度与原属性集合依赖度相当为止。对约简产生的最终结果，同样采用SVM算法对其分类。表5为经过融合以及属性约简之后的SVM分类效果。从结果上可以看出，经过属性约简之后，属性个数由初始的10000个属性降低为最少22个，属性压缩比例接近99％。同时也发现分类的准确率也有所提升。

表5数据集1下融合与属性约简后的分类精度

从两个真实的数据集上的测试效果表明，本发明方法不仅能有效降低数据中的属性维度，同时也能将冗余的无意义的脏数据剔除，从而提高分类的质量。

本发明提供了一种基于典型相关性分析的计算机数据属性约简方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于典型相关性分析的计算机数据属性约简方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1包括如下步骤：

|A-λE|＝0，

AH＝λH，

3.根据权利要求2所述的方法，其特征在于，步骤1-1中所述数据信息表定义为：

S＝(U,C∪D,V,f)，

其中U是采集的数据的非空有限集合，C是条件属性集合，D是决策属性集合，V＝∪_a∈(C∪D)V_a，V_a表示属性a∈C∪D的值域，∪_a∈(C∪D)V_a表示所有属性在数据信息表中值域的并集，f表示U×(C∪D)→V的一个映射，称为信息函数。

4.根据权利要求3所述的方法，其特征在于，步骤1-2中采用如下公式计算方差矩阵和协方差矩阵：

Sig₁₁＝E[(X-μ_x)(X-μ_x)]，

Sig₂₂＝E[(Y-μ_Y)(Y-μ_Y)]，

Sig₁₂＝E[(X-μ_X)(Y-μ_Y)]，

Sig₂₁＝E[(Y-μ_Y)(X-μ_X)]，

5.根据权利要求4所述的方法，其特征在于，步骤1-3中采用如下公式计算综合矩阵F和综合矩阵G：

F = {Sig}_{11}^{- 1} {Sig}_{12} {Sig}_{22}^{- 1} {Sig}_{21},

G = {Sig}_{22}^{- 1} {Sig}_{21} {Sig}_{11}^{- 1} {Sig}_{12} .

6.根据权利要求5所述的方法，其特征在于，步骤2包括以下步骤：

7.根据权利要求6中所述的方法，其特征在于，步骤2-1中采用如下公式计算条件属性的属性重要度

r_P(Q)＝|POS_P(Q)|/|U|，

{Sig}_{M_{i}} = r_{P} (Q) - r_{P - {M_{i}}} (Q),

{POS}_{P} (Q) = \underset{X &Element; U / Q}{\cup} P_{-} (X),

8.根据权利要求7中所述的方法，其特征在于，步骤2-3中采用如下公式计算属性依赖度r_M(D)：

r_M(D)＝|POS_M(D)|/|U|，

其中，POS_M(D)是条件属性集合M关于决策属性集合D的正域。