CN109558899A

CN109558899A - 数据降维方法及装置

Info

Publication number: CN109558899A
Application number: CN201811343950.9A
Authority: CN
Inventors: 杨昊; 郑晓东; 李劲松; 魏超
Original assignee: Petrochina Co Ltd
Current assignee: Petrochina Co Ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-04-02

Abstract

本发明提供了一种数据降维方法及装置，该方法包括：构建用于数据降维的初始神经网络，并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出，所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数；基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数；根据所述神经网络目标函数优化调整所述初始神经网络的参数；利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。通过上述方案得到的低维数据集能够保持高维数据集的全局特征。

Description

数据降维方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据降维方法及装置。

背景技术

数据降维是指将高维数据集降低维度至低维数据集，并保证生成的低维数据集与原始的高维数据集所包含的主要信息是相似的。现实中，很多待处理和分析的数据集往往数据量很大，并且维度很高，比如，在地震勘探中，为了利用反射地震波形识别油气发育位置，需要处理和分析的数据集可能包含上百至上千万个样点，每个样点的维度可能达到100维。数据降维可以降低高维数据集的时间或空间复杂度，节省数据集处理的计算开销，去掉数据集中的无效信息和冗余信息，凸显数据集中的有效信息，实现高维数据集可视化，简化数据集分析难度。

现有的数据降维方法可以分为线性方法和非线性方法两大类：线性方法中最经典的方法是主分量分析(PCA)，PCA利用线性代数中均方误差准则下失真最小的K-L变换将原空间数据集变换到特征向量空间，但其降维结果往往具有一定的模糊性，不如原始样本完整，贡献率小、却可能将含有样本差异重要信息的主成分直接舍弃，造成信息丢失；非线性方法的代表方法有：核PCA方法、局部线性嵌入法(LLE)、等距映射法(ISOMap)等，其中，核PCA方法的降维效果依赖于核函数的选取，LLE与ISOMap都假设数据集具有流形结构，不能适应所有数据集类型。

以上方法存在不足：①都涉及矩阵运算，无法适应大数据集降维；②无法记忆数据集的特征，一旦数据集中加入新的样本，就需要重新计算；③部分方法的降维结果不能很好地保持高维数据集的全局样本点距离关系。

发明内容

有鉴于此，本发明提供了一种数据降维方法及装置，以解决现有技术中的一项或多项缺失。

为了达到上述目的，本发明采用以下方案实现：

在本发明一个实施例中，数据降维方法，包括：

构建用于数据降维的初始神经网络，并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出，所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数；

基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数；

根据所述神经网络目标函数优化调整所述初始神经网络的参数；

利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。

在本发明一个实施例中，根据所述神经网络目标函数优化调整所述初始神经网络的参数，包括：

根据所述神经网络目标函数，利用随机梯度下降法优化调整所述初始神经网络的参数。

在本发明一个实施例中，根据所述神经网络目标函数，利用随机梯度下降法优化调整所述初始神经网络的参数，包括：

从所述高维数据集中随机抽取设定数量的样本点；

将随机抽取的所述设定数量的样本点输入至所述初始神经网络，并输出所述低维数据集的样本点；

基于随机抽取的所述设定数量的样本点和输出的所述低维数据集的样本点计算所述神经网络目标函数的值；

根据所述神经网络目标函数的值利用随机梯度下降法优化调整所述初始神经网络的参数。

在本发明一个实施例中，数据降维装置，包括：

神经网络构建单元，用于构建用于数据降维的初始神经网络，并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出，所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数；

目标函数构建单元，用于基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数；

参数调整单元，用于根据所述神经网络目标函数优化调整所述初始神经网络的参数；

数据降维单元，用于利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。

在本发明一个实施例中，计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例所述方法的步骤。

在本发明一个实施例中，计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所述方法的步骤。

本发明的数据降维方法、数据降维装置、计算机设备及计算机可读存储介质，基于高维数据集的样本点距离关系和低维数据集的样本点距离关系构建神经网络目标函数，能够使神经网络目标函数包含样本点距离关系信息。根据该神经网络目标函数优化调整用于降维的初始神经网络的参数，能够使得利用优化调整后的初始神经网络降维得到的低维数据集很好地保持高维数据集的全局样本点距离关系。进一步，利用随机梯度下降法优化调整所述初始神经网络的参数，在训练神经网络不需要一次性输入整个大数据集，只需要多次输入大数据集中的小部分随机样本点即可，使得能够适应大数据集，而且优化后的神经网络可以很好的记忆数据集的特征，数据集中新加入样本点时无需重新计算。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明一实施例的数据降维方法的流程示意图；

图2是本发明一实施例中构建神经网络目标函数的方法流程示意图；

图3是本发明一实施例中利用随机梯度下降法优化调整初始神经网络的参数的方法流程示意图；

图4是本发明另一实施例中利用随机梯度下降法优化调整初始神经网络的参数的方法流程示意图；

图5是本发明一实施例中的高维数据集的样本点示意图；

图6是根据本发明一实施例的方法对图5所示高维数据集进行降维的结果示意图；

图7是根据PCA方法对图5所示高维数据集进行降维的结果示意图；

图8是本发明一实施例中的高维数据集的样本点示意图；

图9是根据本发明一实施例的方法对图8所示高维数据集进行降维的结果示意图；

图10是本发明一实施例的数据降维装置的结构示意图；

图11是本发明一实施例中目标函数构建单元的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

图1是本发明一实施例的数据降维方法的流程示意图。如图1所示，一些实施例的数据降维方法，可包括：

步骤S110：构建用于数据降维的初始神经网络，并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出，所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数；

步骤S120：基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数；

步骤S130：根据所述神经网络目标函数优化调整所述初始神经网络的参数；

步骤S140：利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。

在上述步骤S110中，在能够保证输入的高维数据集的样本点的维数和输出的低维数据集的样本点的维数满足设定要求即实现降维作用的情况下，该初始神经网络的具体结构可视需要选择，例如可选择多层卷积神经网络。该高维数据集包括多个样本点，各样本点具有相同的维数，例如100，每个样本点可以是一个列向量。该高维数据集是已知的数据集，可以是地震数据集，例如，可以是实际油气勘探工区的地震反射波形数据集，每个样本对应地震测网的一个平面位置，由多个像素表示。该低维数据集需要将该高维数据集输入至神经网络中输出得到，其样本点的维数可以明显小于该高维数据集中样本点的维数。可以将高维数据集中的全部样本点或部分样本点作为该初始神经网络的输入。

在上述步骤S120中，所述高维数据集的样本点距离关系、所述低维数据集的样本点距离关系可以由两个样本点的差值表示，相同两个样本点之间的距离为零。样本点距离关系可以度量样本的相似度，可以反映数据集的全局特征。所构建的神经网络目标函数的形式可以是多种不同形式，例如，其形式可使得当神经网络的参数使得输入的高维数据集和输出的低维数据集相似度越高的情况下该神经网络目标函数的值越小，随着神经网络的参数不断优化，该神经网络目标函数的值趋于稳定。

在上述步骤S130中，可以基于作为训练样本的高维数据集的样本点输出低维数据集的样本，进而计算神经网络目标函数的值。对于不同的神经网络的参数，计算得到的神经网络目标函数的值可能不同，根据神经网络目标函数的值的大小可以判断神经网络的参数的优劣，从而可以优化上述初始神经网络的参数。优化调整神经网络的参数过程可以由本方法执行主体自动进行。

在上述步骤S140中，该待处理数据可以是高维样本点或包含多个高维样本点的高维数据集。将待处理数据输入至优化调整参数后的所述初始神经网络可以输出降维后的数据。

本实施例中，基于高维数据集的样本点距离关系和低维数据集的样本点距离关系构建神经网络目标函数，能够使神经网络目标函数包含样本点距离关系信息。根据该神经网络目标函数优化调整用于降维的初始神经网络的参数，能够使得利用优化调整后的初始神经网络降维得到的低维数据集很好地保持高维数据集的全局样本点距离关系。

图2是本发明一实施例中构建神经网络目标函数的方法流程示意图。如图2所示，在上述步骤S120中，基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数，可包括：

步骤S121：分别将所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系表示为第一概率分布和第二概率分布；

步骤S122：利用所述第一概率分布和所述第二概率分布构建神经网络目标函数。

在上述步骤S121中，将所述高维数据集的样本点距离关系表示为第一概率分布，该第一概率分布的形式可以为：

其中，下角标i、j、k的遍历范围均为1,2,3,…,N，N为样本点个数，p_ji表示考察样本点x_i时，样本点x_j的条件概率。符号||||表示计算向量的二范数。α_i的取值原则是使p_ji的信息熵等于一个固定常数H，对于某一具体的降维问题，H的取值范围可以是1.5～4.0。

在其他实施例中，至少可以通过对上式作适当变换得到其他形式的第一概率分布。

所述低维数据集的样本点距离关系表示为第二概率分布，该第二概率分布的形式可以为：

其中，下角标i、j、k的遍历范围均为1,2,3,…,N，N为样本点个数，p_ji表示考察样本点x_i时，样本点x_j的条件概率。符号||||表示计算向量的二范数。υ的取值可以为一个固定常数，对于某一具体的降维问题，υ的取值范围可以是0.5～2.0。

在其他实施例中，至少可以通过对上式作适当变换得到其他形式的第二概率分布。

在上述步骤S122中，基于上述两个概率分布的神经网络目标函数的形式可以为：

其中，下角标i、j、k的遍历范围均为1,2,3,…,N，N为样本点个数。p_ij表示考察样本点x_j时，样本点x_i的条件概率。p_lk表示考察样本点x_k时，样本点x_l的条件概率。p_kl表示考察样本点x_l时，样本点x_k的条件概率。

在其他实施例中，至少可以通过对上式作适当变换得到其他形式的神经网络目标函数。

一些实施例中，上述步骤S130，即根据所述神经网络目标函数优化调整所述初始神经网络的参数，可包括：

步骤S131：根据所述神经网络目标函数，利用随机梯度下降法优化调整所述初始神经网络的参数。

本实施例中，该随机梯度下降法可以是现有的随机梯度下降方法。利用随机梯度下降法进行优化调整，更快更准确地得到所述初始神经网络的参数。而且，可以利用高维数据集中的部分样本点训练初始神经网络，训练神经网络不需要一次性输入整个大数据集，只需要多次输入大数据集中的小部分随机样本点即可，使得方法能够适应大数据集。

图3是本发明一实施例中利用随机梯度下降法优化调整初始神经网络的参数的方法流程示意图。如图3所示，上述步骤S131，即，根据所述神经网络目标函数，利用随机梯度下降法优化调整所述初始神经网络的参数，可包括：

步骤S1311：从所述高维数据集中随机抽取设定数量的样本点；

步骤S1312：将随机抽取的所述设定数量的样本点输入至所述初始神经网络，并输出所述低维数据集的样本点；

步骤S1313：基于随机抽取的所述设定数量的样本点和输出的所述低维数据集的样本点计算所述神经网络目标函数的值；

步骤S1314：根据所述神经网络目标函数的值利用随机梯度下降法优化调整所述初始神经网络的参数。

在上述步骤S1311～步骤S1312中，该设定数量可以视数据集的情况确定。高维数据集可以是一个很大的数据集。通过从中随机抽取的部分样本点，可以利用将部分样本点输入至初始神经网络，训练该初始神经网络，而不需要将整个高维数据集输入至初始神经网络，以此能够适应大数据集的计算，降低计算开销。而且由于该部分样本点的抽取是随机的，以此能够近似体现高维数据集中全部样本点的样本点距离关系的特征，从而使得小部分随机样本点保留整个高维数据集的全局样本点距离关系特征。

图4是本发明另一实施例中利用随机梯度下降法优化调整初始神经网络的参数的方法流程示意图。如图4所示，图3所示的利用随机梯度下降法优化调整初始神经网络的参数的方法，还可包括：

步骤S1315：从所述高维数据集中重新随机抽取所述设定数量的样本点；将重新随机抽取的所述设定数量的样本点输入至优化调整参数后的所述初始神经网络，并重新输出所述低维数据集的样本点；基于重新随机抽取的所述设定数量的样本点和重新输出的所述低维数据集的样本点重新计算所述神经网络目标函数的值；根据重新计算的所述神经网络目标函数的值利用所述随机梯度下降法重新优化调整所述初始神经网络的参数；依次迭代进行，直到重新计算的所述神经网络目标函数的值不再减小。

在上述步骤S1315中，每次随机抽取的样本点的数量可以相同，样本点可以不同。该步骤实际是重复执行上述步骤S1311～步骤S1314，区别在于每次所抽取的样本点可能不同。以此迭代计算，可以得到更优的神经网络参数。

为使本领域技术人员更好地了解本发明，下面将以具体实施例说明本发明的实施方式和功效。

一些实施例中，数据降维方法，可包括：

步骤101，构建一个用于数据降维的神经网络，将高维数据集作为神经网络的输入，将低维数据集作为神经网络的输出。

其中，高维数据集用矩阵X＝[x₁,x₂,x₃,…,x_N]表示。其中，x_i(i＝1,2,3,…,N)为一个列向量，代表高维空间中的一个样本点，向量的长度为高维空间的维度，用D_x表示；N为样本点个数；

低维数据集用矩阵Y＝[y₁,y₂,y₃,…,y_N]表示。其中，y_i(i＝1,2,3,…,N)为一个列向量，代表低维空间中的一个样本点，向量的长度为低维空间的维度，用D_y表示；N为样本点个数；

用于降维的神经网络用函数Y＝f(X)表示，在保证输入数据和输出数据的样本点维数分别为D_x和D_y的前提下，此神经网络的具体结构是可选的，一种可选的神经网络结构是多层卷积神经网络，一般地，这种神经网络的结构是卷积层1+池化层1+激活函数1+卷积层2+池化层2+激活函数3+…+卷积层N_c+池化层N_c+激活函数N_c+全连接层1+全连接层2+…+全连接层N_f。

步骤102，分别将高维数据集的样本点距离关系与低维数据集的样本点距离关系分别表示为两个概率分布，以这两个概率分布为基础构建神经网络目标函数。

其中，表示高维数据集的样本点距离关系的概率分布为：

其中，下角标i、j、k的遍历范围均为1,2,3,…,N，p_ji表示考察样本点x_i时，样本点x_j的条件概率。符号||||表示计算向量的二范数。α_i的取值原则是使p_ji的信息熵等于一个固定常数H，对于某一具体的降维问题，H的取值范围是1.5～4.0；

表示低维数据集的样本点距离关系的概率分布为：

其中，下角标i、j、k的遍历范围均为1,2,3,…,N，下同，p_ji表示考察样本点x_i时，样本点x_j的条件概率。符号||||表示计算向量的二范数，υ的取值为一个固定常数，对于某一具体的降维问题，υ的取值范围是0.5～2.0；

以上面两个概率分布为基础的神经网络目标函数为其中，下角标i、j、k、l的遍历范围均为1,2,3,…,N。

步骤103，训练并应用神经网络，实现数据降维。

其中，训练神经网络时，可采用随机梯度下降方法，具体步骤可包括：(1)从全部高维数据样本点中随机抽取部分样本点(此部分样本点应该能够近似体现全部样本点的距离关系特征)，构成步骤101中所述的高维数据集，并根据步骤101与102构建神经网络目标函数，进而依据随机梯度下降方法完成一次神经网络参数优化；(2)重复步骤(1)，直到目标函数值不再下降。

应用神经网络时，可以根据需要，选择感兴趣的高维数据样本点输入到神经网络，并得到相应的数据降维输出结果。

本实施例的方法，通过构建一个用于数据降维的神经网络，将高维数据集作为神经网络的输入，将低维数据集作为神经网络的输出，分别将高维数据集与低维数据集的样本点距离关系表示为两个概率分布，以这两个概率分布为基础构建神经网络目标函数，训练并应用神经网络，实现数据降维。具有优点：①训练神经网络不需要一次性输入整个大数据集，只需要多次输入大数据集中的小部分随机样本点即可，使得方法能够适应大数据集；②优化后的神经网络可以很好的记忆数据集的特征，数据集中新加入样本点时无需重新计算；③神经网络目标函数意义明确，降维后的低维数据集很好地保持了高维数据集的全局样本点距离关系。

一具体实施例中，以MNIST手写数字数据集降维为例，说明本发明实施例的方法的功效。图5是本发明一实施例中的高维数据集的样本点示意图。如图5所示，其数据集为MNIST手写数字数据集，该数据集包括60000个训练样本和10000个测试样本，每个样本为一个28*28个像素的手写数字图像。图5中显示了数据集中的部分样本。

本实施例中，在上述步骤101中，高维数据集中样本点的向量的长度(维数)D_x＝28×28＝784；低维数据集中样本点的向量的长度(维数)D_y＝2。在上述步骤102中，每次从全部高维数据样本点中随机抽取500样本点。通过上述步骤102～步骤103，采用随机梯度下降方法训练神经网络，并进行降维处理。

图6是根据本发明一实施例的方法对图5所示高维数据集进行降维的结果示意图。以降维结果的第一维为横坐标，第二维为纵坐标，可以在二维平面图上标出高维数据样本点的位置。可以看出，同一类手写数字图像相对汇聚，不同类手写数字图像相对远离，降维后的二维数据集很好地保持了高维数据集的全局样本点距离关系。

图7是根据PCA方法对图5所示高维数据集进行降维的结果示意图。以降维结果的第一维为横坐标，第二维为纵坐标，可以在二维平面图上标出高维数据样本点的位置。可以看出，手写数字图像分布比较散乱，降维后的二维数据集不能很好地保持高维数据集的全局样本点距离关系。

另一具体实施例中，以一个实际油气勘探工区的地震反射波形数据集降维为例，说明本发明实施例的方法的功效。图8是本发明一实施例中的高维数据集的样本点示意图。其数据集为一个实际油气勘探工区的地震反射波形数据集，该数据集包括1402401个样本，每个样本对应地震测网的一个平面位置，为一个由60个采样点数据构成的地震反射波形数据。图8中显示了数据集中的部分样本。

本实施例中，在上述步骤101中，高维数据集中样本点的向量的长度(维数)D_x＝60；低维数据集中样本点的向量的长度(维数)D_y＝2。在上述步骤102中，每次从全部高维数据样本点中随机抽取3500样本点。通过上述步骤102～步骤103，采用随机梯度下降方法训练神经网络，并进行降维处理。

图9是根据本发明一实施例的方法对图8所示高维数据集进行降维的结果示意图。以降维结果的第一维为横坐标，第二维为纵坐标，可以在二维平面图上标出高维数据样本点的位置。为了在图中展示全部样本在二维平面图上的分布特征，利用背景灰度表示样本点在二维平面图上某个位置出现的频数，并在稀疏网格上标出了对应的高维地震反射波形。可以看出，高维地震反射波形以渐变的规律分布于二维平面图形，降维后的二维数据集很好地保持了高维数据集的全局样本点距离关系。本实例还显示了实际钻井点的地震反射波形在降维空间中的分布情况，可以看出，同一类产气井相对汇聚，不同类产气井相对远离，降维结果为分析和提取高产气井地震反射波形特征提供了很好的可视化支持。

通过以上具体实施例可以看出，本发明实施例的数据降维方法很好地保持了高维数据集的全局样本点距离关系，所得到的低维数据集有效保持了高维数据集的全局特征。

基于与图1所示的数据降维方法相同的发明构思，本发明实施例还提供了一种数据降维装置，如下面实施例所述。由于该数据降维装置解决问题的原理与数据降维方法相似，因此该数据降维装置的实施可以参见数据降维方法的实施，重复之处不再赘述。

图10是本发明一实施例的数据降维装置的结构示意图。如图10所示，一些实施例的数据降维装置，可包括：神经网络构建单元210、目标函数构建单元220、参数调整单元230及参数调整单元230，上述各单元顺序连接。

神经网络构建单元210，用于构建用于数据降维的初始神经网络，并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出，所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数；

目标函数构建单元220，用于基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数；

参数调整单元230，用于根据所述神经网络目标函数优化调整所述初始神经网络的参数；

数据降维单元240，用于利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。

图11是本发明一实施例中目标函数构建单元的结构示意图。如图11所示，目标函数构建单元220，可包括：概率分布生成模块221和目标函数构建模块222，二者相互连接。

概率分布生成模块221，用于分别将所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系表示为第一概率分布和第二概率分布；

目标函数构建模块222，用于利用所述第一概率分布和所述第二概率分布构建神经网络目标函数。

一些实施例中，参数调整单元230，可包括：参数调整模块。

参数调整模块，用于根据所述神经网络目标函数，利用随机梯度下降法优化调整所述初始神经网络的参数。

一些实施例中，上述参数调整模块，可包括：样本点抽取模块、低维数据计算模块、目标函数计算模块及参数调整模块，上述各模块顺序连接。

样本点抽取模块，用于从所述高维数据集中随机抽取设定数量的样本点；

低维数据计算模块，用于将随机抽取的所述设定数量的样本点输入至所述初始神经网络，并输出所述低维数据集的样本点；

目标函数计算模块，用于基于随机抽取的所述设定数量的样本点和输出的所述低维数据集的样本点计算所述神经网络目标函数的值；

参数调整模块，用于根据所述神经网络目标函数的值利用随机梯度下降法优化调整所述初始神经网络的参数。

一些实施例中，上述参数调整模块，还可包括：参数重调整模块。

参数重调整模块，用于从所述高维数据集中重新随机抽取所述设定数量的样本点；将重新随机抽取的所述设定数量的样本点输入至优化调整参数后的所述初始神经网络，并重新输出所述低维数据集的样本点；基于重新随机抽取的所述设定数量的样本点和重新输出的所述低维数据集的样本点重新计算所述神经网络目标函数的值；根据重新计算的所述神经网络目标函数的值利用所述随机梯度下降法重新优化调整所述初始神经网络的参数；依次迭代进行，直到重新计算的所述神经网络目标函数的值不再减小。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所述方法的步骤。

综上所述，本发明实施例的数据降维方法、数据降维装置、计算机设备及计算机可读存储介质，基于高维数据集的样本点距离关系和低维数据集的样本点距离关系构建神经网络目标函数，能够使神经网络目标函数包含样本点距离关系信息。根据该神经网络目标函数优化调整用于降维的初始神经网络的参数，能够使得利用优化调整后的初始神经网络降维得到的低维数据集很好地保持高维数据集的全局样本点距离关系。进一步，利用随机梯度下降法优化调整所述初始神经网络的参数，在训练神经网络不需要一次性输入整个大数据集，只需要多次输入大数据集中的小部分随机样本点即可，使得能够适应大数据集，而且优化后的神经网络可以很好的记忆数据集的特征，数据集中新加入样本点时无需重新计算。

在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据降维方法，其特征在于，包括：

2.如权利要求1所述的数据降维方法，其特征在于，基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数，包括：

分别将所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系表示为第一概率分布和第二概率分布；

利用所述第一概率分布和所述第二概率分布构建神经网络目标函数。

3.如权利要求1所述的数据降维方法，其特征在于，根据所述神经网络目标函数优化调整所述初始神经网络的参数，包括：

4.如权利要求3所述的数据降维方法，其特征在于，根据所述神经网络目标函数，利用随机梯度下降法优化调整所述初始神经网络的参数，包括：

从所述高维数据集中随机抽取设定数量的样本点；

5.如权利要求4所述的数据降维方法，其特征在于，根据所述神经网络目标函数的值优化调整所述初始神经网络的参数，还包括：

从所述高维数据集中重新随机抽取所述设定数量的样本点；将重新随机抽取的所述设定数量的样本点输入至优化调整参数后的所述初始神经网络，并重新输出所述低维数据集的样本点；基于重新随机抽取的所述设定数量的样本点和重新输出的所述低维数据集的样本点重新计算所述神经网络目标函数的值；根据重新计算的所述神经网络目标函数的值利用所述随机梯度下降法重新优化调整所述初始神经网络的参数；依次迭代进行，直到重新计算的所述神经网络目标函数的值不再减小。

6.一种数据降维装置，其特征在于，包括：

7.如权利要求6所述的数据降维装置，其特征在于，目标函数构建单元，包括：

概率分布生成模块，用于分别将所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系表示为第一概率分布和第二概率分布；

目标函数构建模块，用于利用所述第一概率分布和所述第二概率分布构建神经网络目标函数。

8.如权利要求6所述的数据降维装置，其特征在于，参数调整单元，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5所述方法的步骤。