CN110334777A

CN110334777A - 一种加权多视角无监督属性选择方法

Info

Publication number: CN110334777A
Application number: CN201910636201.3A
Authority: CN
Inventors: 朱晓峰; 杜婷婷; 张乐园; 郑威; 李佳烨; 张师超
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-10-15

Abstract

本发明公开了一种加权多视角无监督属性选择方法，具体步骤如下：（一）输入数据集；（二）使用Z‑score方法对数据预处理；（三）求解出属性的权重矩阵并排序，构建目标函数；（四）选取最大数据所对应属性实现降维；（五）用降维后的数据集训练出聚类模型，训练出聚类模型；（六）对训练出的聚类模型进行聚类；（七）输出聚类结果。本发明的可解释性以及准确性都较现有技术都有了较大的改进。

Description

一种加权多视角无监督属性选择方法

技术领域

本发明涉及数据库知识发现技术领域，尤其涉及一种加权多视角无监督属性选择方法。

背景技术

近年来，随着数据库技术的飞速发展以及人们获取数据手段的多样化，人类所拥有的数据急剧增加。这些数据可以广泛使用，并且迫切的需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛应用于各种应用，包括商务管理，生产控制，市场分析，工程设计和科学探索等。可是目前用于对这些数据进行分析处理的工具很少。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含其中的、事先不知道的、但又潜在的有用信息和知识的过程。根据提取信息的方式，大致可以将数据挖掘分为以下几种模式：分类模式、聚类模式、回归模式、关联模式、序列模式、偏差模式等。

在数据挖掘的各种模式中，分类是一种主要的分析手段，旨在生成一个分类函数或者分类模型，由该模型把数据库中的数据项映射到某一给定的类别中。数据分类一般分为两个过程。第一步是建立分类模型，描述预定的数据类集或者概念集。通过分析有属性描述的数据库元组来构造模型。通常这样的分类模型用分类规则集、决策树或者数学公式的形式给出。第二步是使用分类对新的数据集进行划分，主要涉及分类规则的准确性、过分适合、矛盾划分的取舍等。一个好的分类规则集合应该是对新的数据集而言具有很高准确性、尽可能少的矛盾划分以及较小的规则集。为了提高分类的准确性、有效性和可伸缩性，在分类之前，通常要对数据进行预处理，比如数据清理、相关性分析、数据变换等。

目前，很多领域的数据集朝着大规模发展，它们可能有着成千上万的属性，当样本的属性维数超过某个特定点时，分类器出现错误的概率就会很大。通常情况下，高维数据包含了大量不相关的、冗余的属性。这些不相关的和冗余的属性会模糊数据背后重要的内部结构，大量不相关和冗余属性的存在不但增加了不必要的工作量，而且会降低学习算法的性能。因此，尽可能的从数据中将不相关的和冗余的属性剔除，避免这种维度灾难现象，从而使得传统学习算法仍然能在高维数据上学习训练，是很有必要的。属性选择是一个非常具有挑战性的问题，如何选出最优的属性子集，如何在非线性空间中进行属性选择，如何在保持原始数据结构的前提下去除不相关属性和冗余属性，这都是需要解决的基本问题。

发明内容

针对现有技术的不足，本发明所解决的技术问题是如何解决多视角大数据中维度过高和包含噪音问题。

为解决上述技术问题，本发明采用的技术方案是一种加权多视角无监督属性选择方法，具体步骤如下：

(一)输入数据集，将需要处理的数据Data按照样本×属性的维度做成矩阵D；

(二)使用Z-score方法对数据预处理，把生成的矩阵D对于每一个属性d_i使用Z-score方法即进行处理，其中μ_i为d_i的平均值，δ_i为d_i的标准差,从而得到标准化之后的矩阵X；

(三)求解出属性的权重矩阵并排序，将得到的矩阵X构建目标函数，具体分步骤如下：

(1)传统的图学习的无监督属性选择算法的目标函数可以表示为：

其中，W∈R^d×m是投影矩阵，x_i是第i个样本数据，d和m分别是原始维度和投影后的维度，||||是范数(norm)的意思；右上角的T代表着矩阵转置的意思，用S来保持样本之间的相似性，s_i是S中列向量，s_ij是亲和矩阵S∈R^n×n的元素，1是全1的列向量，I是单位矩阵，α和γ是正则化参数，使用l_2,1-norm实现W行稀疏；

(2)利用自表达的方式代替传统方法来构造亲和度矩阵，并以目标函数来实现上述目标：

其中，θ是特征权重矩阵，θ_i是θ中对角线元素，是距x_i最近的k个样本的集合；

(3)进一步扩展目标函数，将其应用于多视角数据；

用表示v个视角的特征矩阵，扩展公式(2)式，得出动态样本空间结构的多视角无监督特征选择算法DSS-UFS：

其中，α_v是第v个视角的调整参数，W^(v)是第v个视角的投影矩阵，X^(v)是第v个视角的样本矩阵，Θ^(v)是第v个视角的对角属性权重矩阵，d_v是第v个视角的属性个数，是一个对角矩阵并且设使那么对于第v个视角，公式(3)重写为：

如果固定和α_v，那么可得到θ^(v)的最优解通过解决如下问题：

通过均值不等式得出在公式(5)取得最小时：

从而可以得到公式(3)的等价形式：

记公式(7)可以等价为：

同理由均值不等式可以得出

从而得到：

即证明了公式(3)和公式(10)等价；

因此求解公式(3)可以等价为求解如下问题：

接着对目标函数(11)进行如下优化：

1)先固定S优化W，目标函数可以重写为：

s.t.,W^(v)TW^(v)＝I

这里

其中

记M^(v)＝X^(v)(I-S)(I-S)^TX^(v)T+γQ^(v)，即有：

s.t.,W^(v)TW^(v)＝I

对每个视角单独求解，即W^(v)的解为M^(v)的特征值按升序排列之后的前c个特征向量所构成的矩阵；

2)固定优化S

s.t.,s_i,. ^T1＝1,s_i,i＝0,

令W^(v)TX^(v)＝A记B_i为A去掉第i列所得到的矩阵；T为S去掉对角线元素之后的的矩阵，T_i为S去掉对角线元素之后的第i列向量；即有：

s.t.,T_i ^T1＝1,

使用拉格朗日乘子法有：

令

即可根据加速近端梯度下降方法得到：

从而有：

其中，先对从大到小排序重新构造得到向量μ，然后令从而有

对T_i迭代近似求解即可得出矩阵T，从而对T矩阵按照之前所述由S变为T的方法还原成矩阵S即可求解出S；

目标函数(3)中X^(v)为训练集，W^(v)为映射矩阵，S是每个样本对于周围样本的线性表示矩阵，Θ^(v)是第v个视角对角线上元素为的对角矩阵；由于公式(3)、公式(11)两式等价，从公式(11)即可以看出优化出公式(11)中W^(v)矩阵即可得到属性权重矩阵Θ^(v)；公式(11)中第一项的目标是在对训练集X通过W映射之后的新数据集用S进行自表征的误差最小；第二项是对W矩阵进行行稀疏从而可以对各属性进行排序打分；限制条件W^(v)TW^(v)＝I是限制矩阵W中数值过大或过小；限制条件s_i,. ^T1＝1,s_i,i＝0是令每一个样本其对于其他样本的线性表示的权重值和为1；γ是可调参数；对此目标函数(11)进行优化求解得到的W是X的映射矩阵，进而求出属性权重系数矩阵W^(v)；

通过公式(3)求解出属性权重矩阵θ^(v)；通过得到的属性权重矩阵中对角线元素的数值比较其大小，对其所对应的属性从大到小进行排序；

(四)选取最大数据所对应属性实现降维，选取出排名靠前的属性，即筛除掉排名靠后的属性从而对样本数据X实现降维处理得到数据矩阵X₁；

(五)用降维后的数据集使用K-means方法训练出聚类模型，对进行属性选择之后得到的降维数据矩阵X₁使用当前流行的K-means方法训练出聚类模型。

所述K-means模型将各个聚类子集内所有的数据样本的均值作为该聚类的代表点，通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类类内紧凑，类间独立，具体的实现分步骤为：

(1)选定某种距离作为数据样本间的相似性度量，一般最常使用的是欧氏距离；欧氏距离公式如下：

其中d(x_i,x_j)是x_i和x_j之间的距离。

(2)选择评价聚类性能的准则函数；K-means算法使用误差平方和准则函数来评价聚类性能；给定数据集X，其中只包含描述属性不包含类别属性；假设X包含k个聚子集X₁,X₂,...,X_K；各个聚类子集中的样本数量分别为n₁,n₂,...,n_k；各个聚类子集的均值代表点即聚类中心分别为m₁,m₂,...,m_k；则误差平方和准则函数公式为：

其中p是样本数据。

(3)计算相似度；具体来说，首先将所有的对象随机分配到k个非空的簇中；计算每个簇的平均值并用该平均值代表相应的簇；根据每个对象与各个簇中心的距离，分配给最近的簇；然后重新计算每个簇的平均值；将这个过程不断重复直到满足误差平方和准则函数才停止；

(六)对训练出的聚类模型进行聚类

将要进行聚类的数据矩阵X1使用上一步得到的聚类模型进行聚类处理；

(七)输出聚类结果

聚类完成之后会得到各样本之间的相似性关系、各类别中心等数据，此时根据样本之间的相似性关系以及类别中心信息将各样本分别聚入不同的类别，从而得到数据集X的聚类结果。

本发明有益效果：

现有技术通常直接使用投影矩阵进行对属性进行评分和直接对于各视角赋予相同的权重系数而缺乏足够的理论依据，本发明采用公式(3)中对于每个属性直接求出其权重系数来衡量每个属性的重要程度以及对每个视角给出其权重的形式，然后利用其等价形式(11)来完成优化，从而得出各视角内属性的重要程度并引入视角权重系数来衡量各视角的重要程度。本发明的可解释性以及准确性都较现有技术都有了较大的改进。

附图说明

图1为现有技术的属性选择算法原理图；

图2为本发明的属性选择算法原理图；

图3为本发明流程示意图；

图4为本发明得出的聚类结果效果图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的说明，但不是对本发明的限定。

图1示出了现有技术的属性选择算法原理；

先构造目标函数，然后直接对投影矩阵W施加2,1-norm的惩罚项来实现矩阵的行稀疏，然后对实现了行稀疏的矩阵W就出每一行的2-norm值来作为其所对应的属性的权重值来衡量此属性对于要实现目标的重要程度。

图2示出了本发明的属性选择算法原理；

本发明并未同现有技术一样直接对投影矩阵W直接施加惩罚实现稀疏，而是在投影矩阵和样本矩阵之间引入一个属性权重对角矩阵，直接去描述各属性的重要程度，然后求解出此属性权重对角矩阵并取其对角线元素的值来衡量各属性的重要程度。同时为了降低计算复杂度，本发明如发明内容中所言，通过严谨的数学证明将属性对角矩阵嵌入至投影矩阵W中，在求解出W的同时，属性权重系数也同时可以得出。

图3示出了一种加权多视角无监督属性选择方法，具体步骤如下：

(1)受光谱分析的启发，许多无监督特征选择方法试图保留局部流行结构，传统的图学习的无监督属性选择算法的目标函数可以表示为：

其中，W∈R^d×m是投影矩阵，x_i是第i个样本数据，d和m分别是原始维度和投影后的维度，|| ||是范数(norm)的意思；右上角的T代表着矩阵转置的意思，用S来保持样本之间的相似性，s_i是S中列向量，s_i,j是亲和矩阵S∈R^n×n的元素，1是全1的列向量，I是单位矩阵，α和γ是正则化参数，使用l_2,1-norm实现W行稀疏；

其中，θ是特征权重矩阵，θ_i是θ中对角线元素，是距x_i最近的k个样本的集合。

传统属性选择算法分两步获得属性权重，即先学习到稀疏矩阵，然后通过l₂-norm获得属性权重。引入θ_j来衡量特征的重要性，并且可以通过最大值来选择最重要的特征。同时，采用S来捕捉谱图的局部结构。通过迭代优化的方式去动态的学习亲和度矩阵S与稀疏矩阵W以便得到最优的S和W。

相较于传统方法一次性从原始数据中学习到S，本发明通过不断的优化S降低了噪音对样本相似性干扰。其中n和d^v分别是样本的数量和第v个视角数据的特征。

(3)进一步扩展目标函数，将其应用于多视角数据。

s.t.1^Tθ^(v)＝1,θ^(v)＞0

(4)

通过均值不等式得出在公式(5)取得最小时：

从而可以得到公式(3)的等价形式：

记公式(7)可以等价为：

同理由均值不等式可以得出

从而得到：

即证明了公式(3)和公式(10)等价；

因此求解公式(3)可以等价为求解如下问题：

接着对目标函数(11)进行如下优化：

1)先固定S优化W，目标函数可以重写为：

s.t.,W^(v)TW^(v)＝I

这里

其中wⁱ为第v个视角中W^(v)的第i行向量。

记M^(v)＝X^(v)(I-S)(I-S)^TX^(v)T+γQ^(v)，即有：

s.t.,W^(v)TW^(v)＝I

因此可以对每个视角单独求解，即W^(v)的解为M^(v)的特征值按升序排列之后的前c个特征向量所构成的矩阵。

2)固定优化S

s.t.,s_i ^T1＝1,s_i,i＝0,

令W^(v)TX^(v)＝A记B_i为A去掉第i列所得到的矩阵。T为S去掉对角线元素之后的的矩阵，T_i为S去掉对角线元素之后的第i列向量；即有：

s.t.,T_i ^T1＝1,

参考John Duchi的Efficient projections onto the l₁-ball for learningin high dimensions中提出的方法使用拉格朗日乘子法有：

令

即可根据加速近端梯度下降方法得到：

从而有：

对T_i迭代近似求解即可得出矩阵T，从而对T矩阵按照之前所述由S变为T的方法还原成矩阵S即可求解出S。

并且由于John Duchi文章中的方法中求出每个样本相关的样本和其个数是根据优化过程而改变的，因此相较于给定数量k和使用欧式距离来判断出这些样本更为合理。

目标函数(3)中X^(v)为训练集，W^(v)为映射矩阵，S是每个样本对于周围样本的线性表示矩阵，Θ^(v)是第v个视角对角线上元素为的对角矩阵。由于(3)(11)两式等价，从式(11)即可以看出优化出式(11)中W^(v)矩阵即可得到属性权重矩阵Θ^(v)。我们式(11)中第一项的目标是在对训练集X通过W映射之后的新数据集用S进行自表征的误差最小；第二项是对W矩阵进行行稀疏从而可以对各属性进行排序打分。限制条件W^(v)TW^(v)＝I是限制矩阵W中数值过大或过小；限制条件s_i，. ^T1＝1,s_i,i＝0是令每一个样本其对于其他样本的线性表示的权重值和为1。γ是可调参数。对此目标函数(11)进行优化求解得到的W是X的映射矩阵，进而求出属性权重系数矩阵W^(v)。

然后通过公式(3)求解出属性权重矩阵θ^(v)。通过得到的属性权重矩阵中对角线元素的数值比较其大小，对其所对应的属性从大到小进行排序。

(四)选取最大数据所对应属性实现降维，选取出排名靠前的属性，即筛除掉排名靠后的属性从而对样本数据X实现降维处理得到数据矩阵X₁。

(1)选定某种距离作为数据样本间的相似性度量，一般最常使用的是欧氏距离。欧氏距离公式如下：

其中d(x_i,x_j)是x_i和x_j之间的距离。

(2)选择评价聚类性能的准则函数。K-means算法使用误差平方和准则函数来评价聚类性能。给定数据集X，其中只包含描述属性不包含类别属性。假设X包含k个聚子集X₁,X₂,...,X_K；各个聚类子集中的样本数量分别为n₁,n₂,...,n_k；各个聚类子集的均值代表点(也称聚类中心)分别为m₁,m₂,...,m_k。则误差平方和准则函数公式为：

其中p是样本数据。

(3)计算相似度。具体来说，首先将所有的对象随机分配到k个非空的簇中；计算每个簇的平均值并用该平均值代表相应的簇；根据每个对象与各个簇中心的距离，分配给最近的簇；然后重新计算每个簇的平均值。将这个过程不断重复直到满足误差平方和准则函数才停止。

(六)对训练出的聚类模型进行聚类，将要进行聚类的数据矩阵X1使用上一步得到的聚类模型进行聚类处理。

(七)输出聚类结果，聚类完成之后会得到各样本之间的相似性关系、各类别中心等数据，此时根据样本之间的相似性关系以及类别中心信息将各样本分别聚入不同的类别，从而得到数据集X的聚类结果。

图4示出了本发明得出的聚类结果效果，从图中可以看出本发明得到的聚类准确率在选取30％，50％，70％和90％属性的时候相差无几，因此即使筛除掉70％属性也对原始数据的聚类影响不大，由此可见，可证明本发明的有效性，可以极大降低原始数据的维度而对聚类的效果影响甚微。

以上结合附图对本发明的实施方式做出了详细说明，但本发明不局限于所描述的实施方式。对于本领域技术人员而言，在不脱离本发明的原理和精神的情况下，对这些实施方式进行各种变化、修改、替换和变型仍落入本发明的保护范围内。

Claims

1.一种加权多视角无监督属性选择方法，其特征在于，具体步骤如下：

(三)求解出属性的权重矩阵并排序，将得到的矩阵X构建目标函数；

(五)用降维后的数据集使用K-means方法训练出聚类模型，对进行属性选择之后得到的降维数据矩阵X₁使用当前流行的K-means方法训练出聚类模型；

(六)对训练出的聚类模型进行聚类，将要进行聚类的数据矩阵X1使用上一步得到的聚类模型进行聚类处理；

2.根据权利要求1所述的加权多视角无监督属性选择方法，其特征在于，步骤(三)具体分步骤如下：

(3)进一步扩展目标函数，将其应用于多视角数据；

用表示v个视角的特征矩阵，扩展公式(2)式，得出动态样本空间结构的多视角无监督属性选择算法DSS-UFS：

其中，α_v是第v个视角的可调参数，W^(v)是第v个视角的投影矩阵，X^(v)是第v个视角的样本矩阵，Θ^(v)是第v个视角的对角属性权重矩阵，d_v是第v个视角的属性个数，是一个对角矩阵并且设使那么对于第v个视角，公式(3)重写为：

通过均值不等式得出在公式(5)取得最小时：

从而可以得到公式(3)的等价形式：

记公式(7)可以等价为：

同理由均值不等式可以得出

从而得到：

即证明了公式(3)和公式(10)等价；

因此求解公式(3)可以等价为求解如下问题：

接着对目标函数(11)进行如下优化：

1)先固定S优化W，目标函数可以重写为：

s.t.,W^(v)TW^(v)＝I

这里

其中tr()是矩阵的迹，

记M^(v)＝X^(v)(I-S)(I-S)^TX^(v)T+γQ^(v)，即有：

s.t.,W^(v)TW^(v)＝I

2)固定优化S

s.t.,s_i,. ^T1＝1,s_i,i＝0,

s.t.,T_i ^T1＝1,

使用拉格朗日乘子法有：

令

即可根据加速近端梯度下降方法得到：

从而有：

通过公式(3)求解出属性权重矩阵θ^(v)；通过得到的属性权重矩阵中对角线元素的数值比较其大小，对其所对应的属性从大到小进行排序。

3.根据权利要求1所述的加权多视角无监督属性选择方法，其特征在于，步骤(五)中，所述K-means模型将各个聚类子集内所有的数据样本的均值作为该聚类的代表点，通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类类内紧凑，类间独立，具体的实现分步骤为：

(1)选定某种距离作为数据样本间的相似性度量，一般最常使用的是欧氏距离，欧氏距离公式如下：

其中d(x_i,x_j)是x_i和x_j之间的距离。

其中p是样本数据。

(3)计算相似度；具体来说，首先将所有的对象随机分配到k个非空的簇中；计算每个簇的平均值并用该平均值代表相应的簇；根据每个对象与各个簇中心的距离，分配给最近的簇；然后重新计算每个簇的平均值；将这个过程不断重复直到满足误差平方和准则函数才停止。