CN109902762A

CN109902762A - 基于1/2相似度偏离的数据预处理方法

Info

Publication number: CN109902762A
Application number: CN201910207769.3A
Authority: CN
Inventors: 王熙照; 周欣蕾; 颜达森
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-06-18

Abstract

本发明公开一种基于1/2相似度偏离的数据预处理方法，这种预处理是一种线性变换，主要任务是学习一个变换矩阵W，然后将原始数据集S变换成为新的数据集

Description

基于1/2相似度偏离的数据预处理方法

技术领域

本发明涉及数据挖掘技术领域，且更具体地涉及一种基于1/2相似度偏离的数据预处理方法。

背景技术

众多领域的一些学习问题都能归结于一个数学模型的预测问题。为了能够得到更高的预测精度和更快的预测速度，各类预测算法层出不穷。然而除了对算法性能的不断追求外，从数据本身入手进行预处理操作对提高算法的预测效果也具有重要意义。但如今大多数数据挖掘领域的研究人员面对提升数学模型的预测性能问题，都着力于预测算法的研究。而数据预处理方法及相关技术的研究都相对较少。

数据预处理中一类关键方法是数据变换，它是指将数据集中数据的某种表示形式转换成一种便于挖掘或学习的形式，从而使得数据分析过程更为方便，分析结果更为准确。常用的数据变换方法有主成分分析、数据规范化等，如使用基于距离的数据挖掘算法时，将各维特征数据进行归一化即将其映射到[0,1]之间，消除各项特征之间由于单位和数值量级之间的差别带来的影响，从而提升算法的预测性能。然而数据变换能够带来的预测性能增益远不止于此。例如，基于多层前馈神经网络的深度学习，已在很多领域取得了显著成果，其基本原理就是数据一系列的非线性变换，遗憾的是深度学习的这些变换一般不具可解释性。

在数据预处理中，如何定义数据样本间的相似性度量规则及设计有效的目标函数进而提升数据预处理收益是数据变换方法需要解决的首要问题。现有技术中普遍存在的一个问题是目标函数的设计及优化过程缺乏可解释性，如何在保证学习算法性能的前提下，同时使得变换矩阵W的求解过程具有可解释性是一个极具挑战性但又十分有意义的问题。

发明内容

针对上述技术的不足，本发明公开一种基于1/2相似度偏离的数据预处理方法，能够在提升学习算法性能的前提下，同时使得目标函数得到优化，使得数据变换矩阵的求解过程具有可解释性，改进了相似性学习算法，提高了数据预测能力和预测速度。

本发明采用以下技术方案：一种基于1/2相似度偏离的数据预处理方法，包括以下步骤：

(S1)给定训练数据集S，设计一个前馈神经网络，其中网络的连接权重即为所求的变换矩阵W；

(S2)以迭代的方式最小化设定的目标函数E(W)，并逐步更新变换矩阵W的值；

(S3)求得最终的变换矩阵W，并对原始的训练数据集S进行变换，从而得到新的训练数据集S^(W)。

作为本发明进一步的技术方案，所述步骤(S2)中目标函数的公式为：其中为经过W变换后样本和在新的特征空间的相似性，而是W＝I时为变换前样本和在原始特征空间的相似性，并且其中最小化设定的目标函数E(w)的方法为：

(S21)根据距离相似性公式确定β值，并利用单位阵将变换矩阵W初始化为I，其中相似性公式为：式中，β为平衡参数，与为变换前的两个不同的向量，与为变换后的两个不同的向量，d为距离，为欧式距离；

(S22)计算变换矩阵更新的梯度值，计算过程为：

定义：

则：

(S23)利用W+ΔW更新矩阵W中每个元素w_ij的值，其中：

其中，η为学习率，学习率η的求解方法为：

(S24)重复步骤(S22)、(S23)、(S24)，直到收敛为止，即直到目标函数E(W)的值小于或等于给定阈值，或者直到迭代次数超过某阈值。

作为本发明进一步的技术方案，所述网络结构为前馈神经网络结构，并且所述目标函数E(W)的优化过程为基于前馈神经网络进行优化的过程。

作为本发明进一步的技术方案，变换后数据间相似度矩阵ρ^(W)的模糊性公式为：其中当最小化目标函数E(W)后求得的相似度趋于1或者0时，Fuzziness(ρ^(W))的值为最小值。

作为本发明进一步的技术方案，采用以下评价指标评价聚类任务：ARI、NMI、CHI或SI，其中ARI和NMI为外部聚类指标，SI和CHI为内部聚类指标。

作为本发明进一步的技术方案，采用以下评价指标评价分类任务：训练精度与测试精度，其中：所述训练精度的公式为：Training Accuracy＝正确分类的样本/训练数据S中的总样本数；所述测试精度的公式为：Testing Accuracy＝正确分类的样本/测试数据T中的总样本数。

作为本发明进一步的技术方案，所述目标函数E(W)的拓展公式为：f(x,y)＝α(x)(1-a(y))+a(y)(1-a(x))；其中：α(x)、α(y)是定义于[0,1]区间的光滑函数，表示形式为：

作为本发明进一步的技术方案，当α(y)＝y时，目标函数的公式为：f(x,y)＝x(1-y)+y(1-x)(0≤x,y≤1)，其中：当y>0.5时，即f(x,y)对于固定的y>0.5关于x是严格单调减函数；当y<0.5时即f(x,y)对于固定的y<0.5关于x是严格单调增函数。

作为本发明进一步的技术方案，通过所述网络结构对所述变换矩阵W进行迭代求解的方法还包括批量梯度下降或随机梯度下降法。

作为本发明进一步的技术方案，作为平衡参数当W＝I为n阶单位矩阵时，退化为欧式距离。

积极有益效果：

本发明采用数据变换技术具有明显的可解释性，并且对基于相似性的学习算法有显著改进；采用的目标函数具有很强的拓展性，增加了数据变换的灵活性；本发明采用前馈神经网络表示及相应的梯度下降算法的求解，提高了的学习效率；本发明所提出的数据预处理技术在保证了数据预处理过程可解释性的前提下，显著提升了基于相似性的学习算法的预测精度或聚类质量等指标，使得数据分析过程更为方便，分析结果更为准确，大大提高了数据预处理收益。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图，其中：

图1为本发明数据处理的原理结构示意图；

图2为发明目标函数优化过程的网络表示结构示意图；

图3为本发明数据处理过程的方法流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

为了更清楚地理解本发明，先对本发明中的使用的符号进行以下说明。其中对符号定义如下：

Rⁿ：n维空间(n＝训练数据的特征数)；

S：N个训练样本(即训练数据)的集合，N为有限数，且

S^(W)：变换后训练样本的集合；

W：变换矩阵，W＝(w_ij)_n×n；

I：初始化的变换矩阵，(单位阵)；

数据变换前后的向量表示，

通过矩阵W变换之后样本p与样本q之间的距离度量；

x_ip：数据集中样本p的第i个特征的值，x_iq类同；

原始数据中样本p与样本q的相似度；

通过矩阵W变换之后样本p与样本q的相似度；

ρ^(W)：数据变换后的相似度矩阵，为ρ^(W)中p行q列的元素值；

β：相似度ρ^(w)的公式中所定义的平衡参数(正实数)；

E(W)：待优化的目标函数；

ΔW：变换矩阵中元素w_ij的改变量Δw_ij组成的矩阵即，ΔW＝(Δw_ij)_n×n；

η：矩阵W更新的学习率。

通过对符号进行解释说明，下面结合图1-图3对本发明做进一步地描述。

一种基于1/2相似度偏离的数据预处理方法：采用以下步骤进行：

在本步骤中，通常设是一个含有N个n维列向量的数据集即，同时，W＝(w_ij)_n×n是一个n×n的满秩矩阵则，假定存在分类(有监督学习)或聚类(无监督学习)任务，其中S是学习任务的训练集。选定具有监督学习或无监督学习算法，即可在S上完成学习(训练)任务，其学习结果(分类或聚类结果)的评价可按已有的多个指标进行计算。

首先对本发明的思路做出以下整体性说明：假定有一个分类(有监督学习)或聚类(无监督学习)任务，S是学习任务的训练集。选定一个有监督学习或无监督学习算法，即可在S上完成学习(训练)任务，其学习结果(分类或聚类结果)的评价可按已有的多个指标进行计算。针对原有的分类或聚类任务就相应的数据集S(且已知是一个含有N个n维列向量)求解出一个满秩变换矩阵W＝(w_ij)_n×n，将数据集S变换成一个新的数据集同样使用在S上选定的有监督学习或无监督学习算法，在S^(W)上完成学习(训练)任务，S与S^(W)这两个数据集的学习结果(分类或聚类结果)评价指标完全相同。理论分析及大量的实验结果表明：数据集S^(W)上学习结果的评价值优于S上学习结果的评价值，即学习算法在变换后数据集上的性能优于在变换前数据集上的性能。

下面结合具体的数据集通过介绍最小化目标函数E(W)的方法以及变换矩阵W的求解方法，进一步说明本发明所提出的方法能够使得模型在变换后数据集上的预测性能优于在变换前数据集上的预测性能。

1.使用欧氏距离度量两个n维向量：

上式中

注意到这个度量可以表示为：

则：

由上式可知，由于W满秩从而W^TW为正定矩阵，于是变换后与两向量间的欧式距离正好是变换前两向量与间的马氏(Mahalanobis)距离。

2.定义一个基于距离的相似性度量：

式中：

而β是一个平衡参数，我们按如下规则设定：

需要特别指明的是，当W＝I为n阶单位矩阵时，退化为欧式距离。

3.步骤(S2)中目标函数的公式为：

其中为经过W变换后样本和在新的特征空间的相似性，而是W＝I时为变换前样本和在原始特征空间的相似性。因此，最小化设定的目标函数E(w)的方法可为以下步骤：

(S22)计算变换矩阵更新的梯度值，计算过程为：

定义：

则：

(S23)利用W+ΔW更新矩阵W中每个元素w_ij的值，其中：

其中，η为学习率，学习率η的求解方法为：

在上述过程中，若视则：当时，极小化E(W)等价于单调减小；当时，极小化E(W)等价于单调增大；即，

从平均意义上看，目标函数E(W)的极小化可确定出一个矩阵W作为变换矩阵，如果两个向量的相似度在变换前小于0.5，则变换后的相似度变得更小。同理，如果变换前大于0.5，则变换后更大。

4.对于步骤(S2)中目标函数求解过程的补充说明：

1)在本发明中，目标函数E(W)的优化过程为基于前馈神经网络进行优化的过程。E(W)极小化的学习过程，使用梯度下降算法迭代求解矩阵W，使得E(W)→Minimum，即求ArgMinimum_rank(w)＝nE(W)，E(W)极小化的详细求解过程如上文所述。如图2所示，在网络结构中，网络结构的第一层是输入层，并以原始数据集S作为输入值。第一层与第二层网络之间通过权重矩阵(即变换矩阵W)相连，这个矩阵是整个网络结构中通过迭代不断优化更新的学习目标。网络结构的第三层表示原始数据通过矩阵W变换后两数据样本之间的距离值，并作为网络结构第四层中目标函数E(W)的输入。这样的结构设计也为训练提供了便利，我们可以根据需求选择批量梯度下降(Batch gradient descent)或随机梯度下降(Stochasticgradient descent)等进行迭代优化。

2)在本发明中，变换后数据间相似度矩阵ρ^(W)的模糊性公式为：

其中当最小化目标函数E(W)后求得的相似度趋于1或者0时，Fuzziness(ρ^(W))的值为最小值。

在本发明中，为了验证所提出的方法在聚类以及分类任务上的有效性，在实验中采用以下评价指标进行性能评估：

1.采用以下评价指标评价聚类任务：ARI、NMI、CHI或SI，其中ARI和NMI为外部聚类指标，SI和CHI为内部聚类指标。

1)ARI(Adjusted Rand Index)为外部聚类指标，即基于衡量不同簇数据间的关系而设计的评价指标。ARI需要以数据集(n个样本)的实际类别信息C作为参照，聚类后的类别信息记作V。若a表示在C与V中都属于同类别的样本对数，b表示在C与V中都是不同类别的样本对数，c表示在C中是同类别但在V中并不是同类别的样本对数，d表示在C中不是同类别但在V中是同类别的样本对数，则RI(Rand index)为：

其中表示数据集中可以组成的总样本对数。可以看出，对于随机结果，RI并不能保证此分式接近0，因此提出ARI：

其中，max(RI)表示所有数据样本聚类后的类别情况都属于a或b，即完全分类正确。E[RI]表示聚类后元素对属于情况a的期望。ARI取值范围为[0,1]，值越大意味着聚类结果与实际类别信息越吻合。从广义的角度来讲，ARI衡量的是两个数据分布的吻合程度。

2)NMI(Normalized Mutual Information)与ARI相同，NMI也是外部聚类指标，用于衡量聚类结果中两簇之间的共享信息：在某一簇确定的情况下多大程度减少了划分另一簇的不确定性。同样的，NMI指标也需要数据集(n个样本)实际的类别信息C，聚类后的类别信息记作V，则两种数据分布的熵(信息的混乱程度)计算如下：

其中C与V之间的互信息MI定义为：

其中标准化后的互信息则为：

3)CHI(Calinski-Harabasz Index)为内部聚类指标，即基于衡量同簇数据间的关系而设计的评价指标，定义为：

其中S_B是聚类后簇间离差矩阵的迹，S_W是聚类后簇内离差矩阵的迹，n_p表示聚类样本个数，k表示的是聚类后的簇族数。

4)SI(Silhouette Index)与CHI相同，SI也是内部聚类指标，适用于实际类别信息未知的情况。若样本i聚类后被划分至簇P，则记a为样本i与簇P中所有样本的平均距离，且记其他簇族中(非簇P)与簇P距离最近的簇族为Q，b为样本i与簇Q中所有样本的平均距离，SI定义为：

2.在分类任务中，主要使用训练精度(Training Accuracy)与测试精度(TestingAccuracy)作为评价指标。

精度又称为准确率，衡量的是分类正确的样本比例。在训练时通常采用“留出法”将数据集D以2:8或3:7的比例随机划分为测试数据T与训练数据S，需要注意的是该划分须保持数据分布的一致性，例如保持样本的类别比例相似。利用训练数据S进行模型训练，若验证模型性能的输入数据仍然是训练数据S，则所得的精度为训练精度，其中：TrainingAccuracy＝正确分类的样本/训练数据S中的总样本数；所述测试精度的公式为：TestingAccuracy＝＝正确分类的样本/测试数据T中的总样本数。

综上所述，本发明所提出的数据预处理技术能够将给定的训练数据集S预处理为S^(W)，使得利用数据集S^(W)训练的分类(聚类)模型性能优于利用数据集S训练的同一个分类(聚类)模型。本发明在保证了数据预处理过程可解释性的前提下，显著提升了基于相似性的学习算法的预测精度或聚类质量等指标，使得数据分析过程更为方便，分析结果更为准确，大大提高了数据预处理收益。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变。例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此，本发明的范围仅由所附权利要求书限定。

Claims

1.一种基于1/2相似度偏离的数据预处理方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于1/2相似度偏离的数据预处理方法，其特征在于：所述步骤(S2)中目标函数的公式为：其中为经过W变换后样本和在新的特征空间的相似性，而是W＝I时变换前样本和在原始特征空间的相似性，其中最小化设定的目标函数E(W)的方法为：

(S21)根据距离相似性公式确定β值，并利用单位阵将变换矩阵W初始化为I，其中相似性公式为：式中β为平衡参数，与为变换前的两个不同的向量，与为变换后的两个不同的向量，d为距离，为欧式距离；

(S22)计算变换矩阵更新的梯度值，计算过程为：

定义：

则：

(S23)利用W+ΔW更新矩阵W中每个元素w_ij的值，其中：

其中，η为学习率，学习率η的求解方法为：

3.根据权利要求2所述的基于1/2相似度偏离的数据预处理方法，其特征在于：所述网络结构为前馈神经网络结构，并且所述目标函数E(W)的优化过程为基于前馈神经网络进行优化的过程。

4.根据权利要求2所述的基于1/2相似度偏离的数据预处理方法，其特征在于：变换后数据间相似度矩阵ρ^(W)的模糊性公式为：

5.根据权利要求1所述的基于1/2相似度偏离的数据预处理方法，其特征在于：采用以下评价指标评价聚类任务：ARI、NMI、CHI或SI，其中ARI和NMI为外部聚类指标，SI和CHI为内部聚类指标。

6.根据权利要求1所述的基于1/2相似度偏离的数据预处理方法，其特征在于：采用以下评价指标评价分类任务：训练精度与测试精度，其中：

所述训练精度的公式为：Training Accuracy＝正确分类的样本/训练数据S中的总样本数；

所述测试精度的公式为：Testing Accuracy＝正确分类的样本/测试数据T中的总样本数。

7.根据权利要求3所述的基于1/2相似度偏离的数据预处理方法，其特征在于：所述目标函数E(w)的拓展公式为：

f(x,y)＝α(x)(1-α(y))+α(y)(1-α(x))；

其中：α(x)、α(y)是定义于[0,1]区间的光滑函数，表示形式为：

8.根据权利要求7所述的基于1/2相似度偏离的数据预处理方法，其特征在于：当α(y)＝y时，目标函数的公式为：f(x,y)＝x(1-y)+y(1-x)(0≤x,y≤1)，其中：当y>0.5时，即f(x,y)对于固定的y>0.5关于x是严格单调减函数；当y<0.5时，即f(x,y)对于固定的y<0.5关于x是严格单调增函数。

9.根据权利要求1所述的基于1/2相似度偏离的数据预处理方法，其特征在于：通过所述网络结构对所述变换矩阵W进行迭代求解的方法还包括批量梯度下降或随机梯度下降法。

10.根据权利要求1所述的基于1/2相似度偏离的数据预处理方法，其特征在于：作为平衡参数当W＝I为n阶单位矩阵时,退化为欧式距离。