CN109558899A - 数据降维方法及装置 - Google Patents
数据降维方法及装置 Download PDFInfo
- Publication number
- CN109558899A CN109558899A CN201811343950.9A CN201811343950A CN109558899A CN 109558899 A CN109558899 A CN 109558899A CN 201811343950 A CN201811343950 A CN 201811343950A CN 109558899 A CN109558899 A CN 109558899A
- Authority
- CN
- China
- Prior art keywords
- neural network
- sample point
- dimensional data
- objective function
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013528 artificial neural network Methods 0.000 claims abstract description 173
- 230000006870 function Effects 0.000 claims description 87
- 238000013480 data collection Methods 0.000 claims description 47
- 238000009826 distribution Methods 0.000 claims description 34
- 238000011478 gradient descent method Methods 0.000 claims description 28
- 238000005457 optimization Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 28
- 238000012549 training Methods 0.000 description 8
- 238000000513 principal component analysis Methods 0.000 description 7
- 239000012141 concentrate Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 210000005036 nerve Anatomy 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 239000004215 Carbon black (E152) Substances 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229930195733 hydrocarbon Natural products 0.000 description 1
- 150000002430 hydrocarbons Chemical class 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据降维方法及装置,该方法包括:构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;根据所述神经网络目标函数优化调整所述初始神经网络的参数;利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。通过上述方案得到的低维数据集能够保持高维数据集的全局特征。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据降维方法及装置。
背景技术
数据降维是指将高维数据集降低维度至低维数据集,并保证生成的低维数据集与原始的高维数据集所包含的主要信息是相似的。现实中,很多待处理和分析的数据集往往数据量很大,并且维度很高,比如,在地震勘探中,为了利用反射地震波形识别油气发育位置,需要处理和分析的数据集可能包含上百至上千万个样点,每个样点的维度可能达到100维。数据降维可以降低高维数据集的时间或空间复杂度,节省数据集处理的计算开销,去掉数据集中的无效信息和冗余信息,凸显数据集中的有效信息,实现高维数据集可视化,简化数据集分析难度。
现有的数据降维方法可以分为线性方法和非线性方法两大类:线性方法中最经典的方法是主分量分析(PCA),PCA利用线性代数中均方误差准则下失真最小的K-L变换将原空间数据集变换到特征向量空间,但其降维结果往往具有一定的模糊性,不如原始样本完整,贡献率小、却可能将含有样本差异重要信息的主成分直接舍弃,造成信息丢失;非线性方法的代表方法有:核PCA方法、局部线性嵌入法(LLE)、等距映射法(ISOMap)等,其中,核PCA方法的降维效果依赖于核函数的选取,LLE与ISOMap都假设数据集具有流形结构,不能适应所有数据集类型。
以上方法存在不足:①都涉及矩阵运算,无法适应大数据集降维;②无法记忆数据集的特征,一旦数据集中加入新的样本,就需要重新计算;③部分方法的降维结果不能很好地保持高维数据集的全局样本点距离关系。
发明内容
有鉴于此,本发明提供了一种数据降维方法及装置,以解决现有技术中的一项或多项缺失。
为了达到上述目的,本发明采用以下方案实现:
在本发明一个实施例中,数据降维方法,包括:
构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;
基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;
根据所述神经网络目标函数优化调整所述初始神经网络的参数;
利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。
在本发明一个实施例中,根据所述神经网络目标函数优化调整所述初始神经网络的参数,包括:
根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数。
在本发明一个实施例中,根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数,包括:
从所述高维数据集中随机抽取设定数量的样本点;
将随机抽取的所述设定数量的样本点输入至所述初始神经网络,并输出所述低维数据集的样本点;
基于随机抽取的所述设定数量的样本点和输出的所述低维数据集的样本点计算所述神经网络目标函数的值;
根据所述神经网络目标函数的值利用随机梯度下降法优化调整所述初始神经网络的参数。
在本发明一个实施例中,数据降维装置,包括:
神经网络构建单元,用于构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;
目标函数构建单元,用于基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;
参数调整单元,用于根据所述神经网络目标函数优化调整所述初始神经网络的参数;
数据降维单元,用于利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。
在本发明一个实施例中,计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例所述方法的步骤。
在本发明一个实施例中,计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所述方法的步骤。
本发明的数据降维方法、数据降维装置、计算机设备及计算机可读存储介质,基于高维数据集的样本点距离关系和低维数据集的样本点距离关系构建神经网络目标函数,能够使神经网络目标函数包含样本点距离关系信息。根据该神经网络目标函数优化调整用于降维的初始神经网络的参数,能够使得利用优化调整后的初始神经网络降维得到的低维数据集很好地保持高维数据集的全局样本点距离关系。进一步,利用随机梯度下降法优化调整所述初始神经网络的参数,在训练神经网络不需要一次性输入整个大数据集,只需要多次输入大数据集中的小部分随机样本点即可,使得能够适应大数据集,而且优化后的神经网络可以很好的记忆数据集的特征,数据集中新加入样本点时无需重新计算。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例的数据降维方法的流程示意图;
图2是本发明一实施例中构建神经网络目标函数的方法流程示意图;
图3是本发明一实施例中利用随机梯度下降法优化调整初始神经网络的参数的方法流程示意图;
图4是本发明另一实施例中利用随机梯度下降法优化调整初始神经网络的参数的方法流程示意图;
图5是本发明一实施例中的高维数据集的样本点示意图;
图6是根据本发明一实施例的方法对图5所示高维数据集进行降维的结果示意图;
图7是根据PCA方法对图5所示高维数据集进行降维的结果示意图;
图8是本发明一实施例中的高维数据集的样本点示意图;
图9是根据本发明一实施例的方法对图8所示高维数据集进行降维的结果示意图;
图10是本发明一实施例的数据降维装置的结构示意图;
图11是本发明一实施例中目标函数构建单元的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1是本发明一实施例的数据降维方法的流程示意图。如图1所示,一些实施例的数据降维方法,可包括:
步骤S110:构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;
步骤S120:基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;
步骤S130:根据所述神经网络目标函数优化调整所述初始神经网络的参数;
步骤S140:利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。
在上述步骤S110中,在能够保证输入的高维数据集的样本点的维数和输出的低维数据集的样本点的维数满足设定要求即实现降维作用的情况下,该初始神经网络的具体结构可视需要选择,例如可选择多层卷积神经网络。该高维数据集包括多个样本点,各样本点具有相同的维数,例如100,每个样本点可以是一个列向量。该高维数据集是已知的数据集,可以是地震数据集,例如,可以是实际油气勘探工区的地震反射波形数据集,每个样本对应地震测网的一个平面位置,由多个像素表示。该低维数据集需要将该高维数据集输入至神经网络中输出得到,其样本点的维数可以明显小于该高维数据集中样本点的维数。可以将高维数据集中的全部样本点或部分样本点作为该初始神经网络的输入。
在上述步骤S120中,所述高维数据集的样本点距离关系、所述低维数据集的样本点距离关系可以由两个样本点的差值表示,相同两个样本点之间的距离为零。样本点距离关系可以度量样本的相似度,可以反映数据集的全局特征。所构建的神经网络目标函数的形式可以是多种不同形式,例如,其形式可使得当神经网络的参数使得输入的高维数据集和输出的低维数据集相似度越高的情况下该神经网络目标函数的值越小,随着神经网络的参数不断优化,该神经网络目标函数的值趋于稳定。
在上述步骤S130中,可以基于作为训练样本的高维数据集的样本点输出低维数据集的样本,进而计算神经网络目标函数的值。对于不同的神经网络的参数,计算得到的神经网络目标函数的值可能不同,根据神经网络目标函数的值的大小可以判断神经网络的参数的优劣,从而可以优化上述初始神经网络的参数。优化调整神经网络的参数过程可以由本方法执行主体自动进行。
在上述步骤S140中,该待处理数据可以是高维样本点或包含多个高维样本点的高维数据集。将待处理数据输入至优化调整参数后的所述初始神经网络可以输出降维后的数据。
本实施例中,基于高维数据集的样本点距离关系和低维数据集的样本点距离关系构建神经网络目标函数,能够使神经网络目标函数包含样本点距离关系信息。根据该神经网络目标函数优化调整用于降维的初始神经网络的参数,能够使得利用优化调整后的初始神经网络降维得到的低维数据集很好地保持高维数据集的全局样本点距离关系。
图2是本发明一实施例中构建神经网络目标函数的方法流程示意图。如图2所示,在上述步骤S120中,基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数,可包括:
步骤S121:分别将所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系表示为第一概率分布和第二概率分布;
步骤S122:利用所述第一概率分布和所述第二概率分布构建神经网络目标函数。
在上述步骤S121中,将所述高维数据集的样本点距离关系表示为第一概率分布,该第一概率分布的形式可以为:
其中,下角标i、j、k的遍历范围均为1,2,3,…,N,N为样本点个数,pji表示考察样本点xi时,样本点xj的条件概率。符号||||表示计算向量的二范数。αi的取值原则是使pji的信息熵等于一个固定常数H,对于某一具体的降维问题,H的取值范围可以是1.5~4.0。
在其他实施例中,至少可以通过对上式作适当变换得到其他形式的第一概率分布。
所述低维数据集的样本点距离关系表示为第二概率分布,该第二概率分布的形式可以为:
其中,下角标i、j、k的遍历范围均为1,2,3,…,N,N为样本点个数,pji表示考察样本点xi时,样本点xj的条件概率。符号||||表示计算向量的二范数。υ的取值可以为一个固定常数,对于某一具体的降维问题,υ的取值范围可以是0.5~2.0。
在其他实施例中,至少可以通过对上式作适当变换得到其他形式的第二概率分布。
在上述步骤S122中,基于上述两个概率分布的神经网络目标函数的形式可以为:
其中,下角标i、j、k的遍历范围均为1,2,3,…,N,N为样本点个数。pij表示考察样本点xj时,样本点xi的条件概率。plk表示考察样本点xk时,样本点xl的条件概率。pkl表示考察样本点xl时,样本点xk的条件概率。
在其他实施例中,至少可以通过对上式作适当变换得到其他形式的神经网络目标函数。
一些实施例中,上述步骤S130,即根据所述神经网络目标函数优化调整所述初始神经网络的参数,可包括:
步骤S131:根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数。
本实施例中,该随机梯度下降法可以是现有的随机梯度下降方法。利用随机梯度下降法进行优化调整,更快更准确地得到所述初始神经网络的参数。而且,可以利用高维数据集中的部分样本点训练初始神经网络,训练神经网络不需要一次性输入整个大数据集,只需要多次输入大数据集中的小部分随机样本点即可,使得方法能够适应大数据集。
图3是本发明一实施例中利用随机梯度下降法优化调整初始神经网络的参数的方法流程示意图。如图3所示,上述步骤S131,即,根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数,可包括:
步骤S1311:从所述高维数据集中随机抽取设定数量的样本点;
步骤S1312:将随机抽取的所述设定数量的样本点输入至所述初始神经网络,并输出所述低维数据集的样本点;
步骤S1313:基于随机抽取的所述设定数量的样本点和输出的所述低维数据集的样本点计算所述神经网络目标函数的值;
步骤S1314:根据所述神经网络目标函数的值利用随机梯度下降法优化调整所述初始神经网络的参数。
在上述步骤S1311~步骤S1312中,该设定数量可以视数据集的情况确定。高维数据集可以是一个很大的数据集。通过从中随机抽取的部分样本点,可以利用将部分样本点输入至初始神经网络,训练该初始神经网络,而不需要将整个高维数据集输入至初始神经网络,以此能够适应大数据集的计算,降低计算开销。而且由于该部分样本点的抽取是随机的,以此能够近似体现高维数据集中全部样本点的样本点距离关系的特征,从而使得小部分随机样本点保留整个高维数据集的全局样本点距离关系特征。
图4是本发明另一实施例中利用随机梯度下降法优化调整初始神经网络的参数的方法流程示意图。如图4所示,图3所示的利用随机梯度下降法优化调整初始神经网络的参数的方法,还可包括:
步骤S1315:从所述高维数据集中重新随机抽取所述设定数量的样本点;将重新随机抽取的所述设定数量的样本点输入至优化调整参数后的所述初始神经网络,并重新输出所述低维数据集的样本点;基于重新随机抽取的所述设定数量的样本点和重新输出的所述低维数据集的样本点重新计算所述神经网络目标函数的值;根据重新计算的所述神经网络目标函数的值利用所述随机梯度下降法重新优化调整所述初始神经网络的参数;依次迭代进行,直到重新计算的所述神经网络目标函数的值不再减小。
在上述步骤S1315中,每次随机抽取的样本点的数量可以相同,样本点可以不同。该步骤实际是重复执行上述步骤S1311~步骤S1314,区别在于每次所抽取的样本点可能不同。以此迭代计算,可以得到更优的神经网络参数。
为使本领域技术人员更好地了解本发明,下面将以具体实施例说明本发明的实施方式和功效。
一些实施例中,数据降维方法,可包括:
步骤101,构建一个用于数据降维的神经网络,将高维数据集作为神经网络的输入,将低维数据集作为神经网络的输出。
其中,高维数据集用矩阵X=[x1,x2,x3,…,xN]表示。其中,xi(i=1,2,3,…,N)为一个列向量,代表高维空间中的一个样本点,向量的长度为高维空间的维度,用Dx表示;N为样本点个数;
低维数据集用矩阵Y=[y1,y2,y3,…,yN]表示。其中,yi(i=1,2,3,…,N)为一个列向量,代表低维空间中的一个样本点,向量的长度为低维空间的维度,用Dy表示;N为样本点个数;
用于降维的神经网络用函数Y=f(X)表示,在保证输入数据和输出数据的样本点维数分别为Dx和Dy的前提下,此神经网络的具体结构是可选的,一种可选的神经网络结构是多层卷积神经网络,一般地,这种神经网络的结构是卷积层1+池化层1+激活函数1+卷积层2+池化层2+激活函数3+…+卷积层Nc+池化层Nc+激活函数Nc+全连接层1+全连接层2+…+全连接层Nf。
步骤102,分别将高维数据集的样本点距离关系与低维数据集的样本点距离关系分别表示为两个概率分布,以这两个概率分布为基础构建神经网络目标函数。
其中,表示高维数据集的样本点距离关系的概率分布为:
其中,下角标i、j、k的遍历范围均为1,2,3,…,N,pji表示考察样本点xi时,样本点xj的条件概率。符号||||表示计算向量的二范数。αi的取值原则是使pji的信息熵等于一个固定常数H,对于某一具体的降维问题,H的取值范围是1.5~4.0;
表示低维数据集的样本点距离关系的概率分布为:
其中,下角标i、j、k的遍历范围均为1,2,3,…,N,下同,pji表示考察样本点xi时,样本点xj的条件概率。符号||||表示计算向量的二范数,υ的取值为一个固定常数,对于某一具体的降维问题,υ的取值范围是0.5~2.0;
以上面两个概率分布为基础的神经网络目标函数为其中,下角标i、j、k、l的遍历范围均为1,2,3,…,N。
步骤103,训练并应用神经网络,实现数据降维。
其中,训练神经网络时,可采用随机梯度下降方法,具体步骤可包括:(1)从全部高维数据样本点中随机抽取部分样本点(此部分样本点应该能够近似体现全部样本点的距离关系特征),构成步骤101中所述的高维数据集,并根据步骤101与102构建神经网络目标函数,进而依据随机梯度下降方法完成一次神经网络参数优化;(2)重复步骤(1),直到目标函数值不再下降。
应用神经网络时,可以根据需要,选择感兴趣的高维数据样本点输入到神经网络,并得到相应的数据降维输出结果。
本实施例的方法,通过构建一个用于数据降维的神经网络,将高维数据集作为神经网络的输入,将低维数据集作为神经网络的输出,分别将高维数据集与低维数据集的样本点距离关系表示为两个概率分布,以这两个概率分布为基础构建神经网络目标函数,训练并应用神经网络,实现数据降维。具有优点:①训练神经网络不需要一次性输入整个大数据集,只需要多次输入大数据集中的小部分随机样本点即可,使得方法能够适应大数据集;②优化后的神经网络可以很好的记忆数据集的特征,数据集中新加入样本点时无需重新计算;③神经网络目标函数意义明确,降维后的低维数据集很好地保持了高维数据集的全局样本点距离关系。
一具体实施例中,以MNIST手写数字数据集降维为例,说明本发明实施例的方法的功效。图5是本发明一实施例中的高维数据集的样本点示意图。如图5所示,其数据集为MNIST手写数字数据集,该数据集包括60000个训练样本和10000个测试样本,每个样本为一个28*28个像素的手写数字图像。图5中显示了数据集中的部分样本。
本实施例中,在上述步骤101中,高维数据集中样本点的向量的长度(维数)Dx=28×28=784;低维数据集中样本点的向量的长度(维数)Dy=2。在上述步骤102中,每次从全部高维数据样本点中随机抽取500样本点。通过上述步骤102~步骤103,采用随机梯度下降方法训练神经网络,并进行降维处理。
图6是根据本发明一实施例的方法对图5所示高维数据集进行降维的结果示意图。以降维结果的第一维为横坐标,第二维为纵坐标,可以在二维平面图上标出高维数据样本点的位置。可以看出,同一类手写数字图像相对汇聚,不同类手写数字图像相对远离,降维后的二维数据集很好地保持了高维数据集的全局样本点距离关系。
图7是根据PCA方法对图5所示高维数据集进行降维的结果示意图。以降维结果的第一维为横坐标,第二维为纵坐标,可以在二维平面图上标出高维数据样本点的位置。可以看出,手写数字图像分布比较散乱,降维后的二维数据集不能很好地保持高维数据集的全局样本点距离关系。
另一具体实施例中,以一个实际油气勘探工区的地震反射波形数据集降维为例,说明本发明实施例的方法的功效。图8是本发明一实施例中的高维数据集的样本点示意图。其数据集为一个实际油气勘探工区的地震反射波形数据集,该数据集包括1402401个样本,每个样本对应地震测网的一个平面位置,为一个由60个采样点数据构成的地震反射波形数据。图8中显示了数据集中的部分样本。
本实施例中,在上述步骤101中,高维数据集中样本点的向量的长度(维数)Dx=60;低维数据集中样本点的向量的长度(维数)Dy=2。在上述步骤102中,每次从全部高维数据样本点中随机抽取3500样本点。通过上述步骤102~步骤103,采用随机梯度下降方法训练神经网络,并进行降维处理。
图9是根据本发明一实施例的方法对图8所示高维数据集进行降维的结果示意图。以降维结果的第一维为横坐标,第二维为纵坐标,可以在二维平面图上标出高维数据样本点的位置。为了在图中展示全部样本在二维平面图上的分布特征,利用背景灰度表示样本点在二维平面图上某个位置出现的频数,并在稀疏网格上标出了对应的高维地震反射波形。可以看出,高维地震反射波形以渐变的规律分布于二维平面图形,降维后的二维数据集很好地保持了高维数据集的全局样本点距离关系。本实例还显示了实际钻井点的地震反射波形在降维空间中的分布情况,可以看出,同一类产气井相对汇聚,不同类产气井相对远离,降维结果为分析和提取高产气井地震反射波形特征提供了很好的可视化支持。
通过以上具体实施例可以看出,本发明实施例的数据降维方法很好地保持了高维数据集的全局样本点距离关系,所得到的低维数据集有效保持了高维数据集的全局特征。
基于与图1所示的数据降维方法相同的发明构思,本发明实施例还提供了一种数据降维装置,如下面实施例所述。由于该数据降维装置解决问题的原理与数据降维方法相似,因此该数据降维装置的实施可以参见数据降维方法的实施,重复之处不再赘述。
图10是本发明一实施例的数据降维装置的结构示意图。如图10所示,一些实施例的数据降维装置,可包括:神经网络构建单元210、目标函数构建单元220、参数调整单元230及参数调整单元230,上述各单元顺序连接。
神经网络构建单元210,用于构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;
目标函数构建单元220,用于基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;
参数调整单元230,用于根据所述神经网络目标函数优化调整所述初始神经网络的参数;
数据降维单元240,用于利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。
图11是本发明一实施例中目标函数构建单元的结构示意图。如图11所示,目标函数构建单元220,可包括:概率分布生成模块221和目标函数构建模块222,二者相互连接。
概率分布生成模块221,用于分别将所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系表示为第一概率分布和第二概率分布;
目标函数构建模块222,用于利用所述第一概率分布和所述第二概率分布构建神经网络目标函数。
一些实施例中,参数调整单元230,可包括:参数调整模块。
参数调整模块,用于根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数。
一些实施例中,上述参数调整模块,可包括:样本点抽取模块、低维数据计算模块、目标函数计算模块及参数调整模块,上述各模块顺序连接。
样本点抽取模块,用于从所述高维数据集中随机抽取设定数量的样本点;
低维数据计算模块,用于将随机抽取的所述设定数量的样本点输入至所述初始神经网络,并输出所述低维数据集的样本点;
目标函数计算模块,用于基于随机抽取的所述设定数量的样本点和输出的所述低维数据集的样本点计算所述神经网络目标函数的值;
参数调整模块,用于根据所述神经网络目标函数的值利用随机梯度下降法优化调整所述初始神经网络的参数。
一些实施例中,上述参数调整模块,还可包括:参数重调整模块。
参数重调整模块,用于从所述高维数据集中重新随机抽取所述设定数量的样本点;将重新随机抽取的所述设定数量的样本点输入至优化调整参数后的所述初始神经网络,并重新输出所述低维数据集的样本点;基于重新随机抽取的所述设定数量的样本点和重新输出的所述低维数据集的样本点重新计算所述神经网络目标函数的值;根据重新计算的所述神经网络目标函数的值利用所述随机梯度下降法重新优化调整所述初始神经网络的参数;依次迭代进行,直到重新计算的所述神经网络目标函数的值不再减小。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所述方法的步骤。
综上所述,本发明实施例的数据降维方法、数据降维装置、计算机设备及计算机可读存储介质,基于高维数据集的样本点距离关系和低维数据集的样本点距离关系构建神经网络目标函数,能够使神经网络目标函数包含样本点距离关系信息。根据该神经网络目标函数优化调整用于降维的初始神经网络的参数,能够使得利用优化调整后的初始神经网络降维得到的低维数据集很好地保持高维数据集的全局样本点距离关系。进一步,利用随机梯度下降法优化调整所述初始神经网络的参数,在训练神经网络不需要一次性输入整个大数据集,只需要多次输入大数据集中的小部分随机样本点即可,使得能够适应大数据集,而且优化后的神经网络可以很好的记忆数据集的特征,数据集中新加入样本点时无需重新计算。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据降维方法,其特征在于,包括:
构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;
基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;
根据所述神经网络目标函数优化调整所述初始神经网络的参数;
利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。
2.如权利要求1所述的数据降维方法,其特征在于,基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数,包括:
分别将所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系表示为第一概率分布和第二概率分布;
利用所述第一概率分布和所述第二概率分布构建神经网络目标函数。
3.如权利要求1所述的数据降维方法,其特征在于,根据所述神经网络目标函数优化调整所述初始神经网络的参数,包括:
根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数。
4.如权利要求3所述的数据降维方法,其特征在于,根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数,包括:
从所述高维数据集中随机抽取设定数量的样本点;
将随机抽取的所述设定数量的样本点输入至所述初始神经网络,并输出所述低维数据集的样本点;
基于随机抽取的所述设定数量的样本点和输出的所述低维数据集的样本点计算所述神经网络目标函数的值;
根据所述神经网络目标函数的值利用随机梯度下降法优化调整所述初始神经网络的参数。
5.如权利要求4所述的数据降维方法,其特征在于,根据所述神经网络目标函数的值优化调整所述初始神经网络的参数,还包括:
从所述高维数据集中重新随机抽取所述设定数量的样本点;将重新随机抽取的所述设定数量的样本点输入至优化调整参数后的所述初始神经网络,并重新输出所述低维数据集的样本点;基于重新随机抽取的所述设定数量的样本点和重新输出的所述低维数据集的样本点重新计算所述神经网络目标函数的值;根据重新计算的所述神经网络目标函数的值利用所述随机梯度下降法重新优化调整所述初始神经网络的参数;依次迭代进行,直到重新计算的所述神经网络目标函数的值不再减小。
6.一种数据降维装置,其特征在于,包括:
神经网络构建单元,用于构建用于数据降维的初始神经网络,并将高维数据集和低维数据集分别作为所述初始神经网络的输入和输出,所述高维数据集中的样本点的维数大于所述低维数据集中的样本点的维数;
目标函数构建单元,用于基于所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系构建神经网络目标函数;
参数调整单元,用于根据所述神经网络目标函数优化调整所述初始神经网络的参数;
数据降维单元,用于利用优化调整参数后的所述初始神经网络对待处理数据进行降维处理。
7.如权利要求6所述的数据降维装置,其特征在于,目标函数构建单元,包括:
概率分布生成模块,用于分别将所述高维数据集的样本点距离关系和所述低维数据集的样本点距离关系表示为第一概率分布和第二概率分布;
目标函数构建模块,用于利用所述第一概率分布和所述第二概率分布构建神经网络目标函数。
8.如权利要求6所述的数据降维装置,其特征在于,参数调整单元,包括:
参数调整模块,用于根据所述神经网络目标函数,利用随机梯度下降法优化调整所述初始神经网络的参数。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811343950.9A CN109558899A (zh) | 2018-11-13 | 2018-11-13 | 数据降维方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811343950.9A CN109558899A (zh) | 2018-11-13 | 2018-11-13 | 数据降维方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109558899A true CN109558899A (zh) | 2019-04-02 |
Family
ID=65866241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811343950.9A Pending CN109558899A (zh) | 2018-11-13 | 2018-11-13 | 数据降维方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558899A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307230A (zh) * | 2019-07-29 | 2021-02-02 | 杭州海康威视数字技术股份有限公司 | 一种数据存储的方法、及其数据获取方法、装置 |
CN112801192A (zh) * | 2021-01-26 | 2021-05-14 | 北京工业大学 | 一种基于深度神经网络的扩展LargeVis图像特征降维方法 |
CN114692529A (zh) * | 2022-06-02 | 2022-07-01 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种cfd高维响应的不确定度量化方法、装置、计算机设备 |
WO2022237865A1 (zh) * | 2021-05-14 | 2022-11-17 | 华为技术有限公司 | 一种数据处理方法及装置 |
WO2023065696A1 (zh) * | 2021-10-21 | 2023-04-27 | 深圳云天励飞技术股份有限公司 | 一种最近邻搜索方法、装置、终端和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105809124A (zh) * | 2016-03-06 | 2016-07-27 | 北京工业大学 | 基于DWT和Parametric t-SNE的运动想象脑电信号的特征提取方法 |
-
2018
- 2018-11-13 CN CN201811343950.9A patent/CN109558899A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105809124A (zh) * | 2016-03-06 | 2016-07-27 | 北京工业大学 | 基于DWT和Parametric t-SNE的运动想象脑电信号的特征提取方法 |
Non-Patent Citations (2)
Title |
---|
VAN DER MAATEN: "Learning a parametric embedding by preserving local structure", 《JOURNAL OF MACHINE LEARNING RESEARCH》 * |
陈彦至: "神经网络降维算法研究与应用", 《中国硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307230A (zh) * | 2019-07-29 | 2021-02-02 | 杭州海康威视数字技术股份有限公司 | 一种数据存储的方法、及其数据获取方法、装置 |
CN112307230B (zh) * | 2019-07-29 | 2024-01-26 | 杭州海康威视数字技术股份有限公司 | 一种数据存储的方法、及其数据获取方法、装置 |
CN112801192A (zh) * | 2021-01-26 | 2021-05-14 | 北京工业大学 | 一种基于深度神经网络的扩展LargeVis图像特征降维方法 |
CN112801192B (zh) * | 2021-01-26 | 2024-03-19 | 北京工业大学 | 一种基于深度神经网络的扩展LargeVis图像特征降维方法 |
WO2022237865A1 (zh) * | 2021-05-14 | 2022-11-17 | 华为技术有限公司 | 一种数据处理方法及装置 |
WO2023065696A1 (zh) * | 2021-10-21 | 2023-04-27 | 深圳云天励飞技术股份有限公司 | 一种最近邻搜索方法、装置、终端和存储介质 |
CN114692529A (zh) * | 2022-06-02 | 2022-07-01 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种cfd高维响应的不确定度量化方法、装置、计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558899A (zh) | 数据降维方法及装置 | |
Weyn et al. | Sub‐seasonal forecasting with a large ensemble of deep‐learning weather prediction models | |
Weyn et al. | Improving data‐driven global weather prediction using deep convolutional neural networks on a cubed sphere | |
Hsieh | Nonlinear multivariate and time series analysis by neural network methods | |
US20150153476A1 (en) | Method for constrained history matching coupled with optimization | |
Tagasovska et al. | Copulas as high-dimensional generative models: Vine copula autoencoders | |
Shen et al. | Statistically-informed deep learning for gravitational wave parameter estimation | |
CN109272029B (zh) | 井控稀疏表征大规模谱聚类地震相划分方法 | |
Gromov et al. | Strings as multi-particle states of quantum sigma-models | |
Ren et al. | Orthogonal subspace unmixing to address spectral variability for hyperspectral image | |
CN114724012A (zh) | 基于时空跨尺度注意力融合热带不稳定波预警方法及装置 | |
CN117597703A (zh) | 用于图像分析的多尺度变换器 | |
Amram et al. | Denoising diffusion models with geometry adaptation for high fidelity calorimeter simulation | |
Zheng et al. | Trading positional complexity vs deepness in coordinate networks | |
Grönquist et al. | Predicting weather uncertainty with deep convnets | |
Zheng et al. | RockGPT: reconstructing three-dimensional digital rocks from single two-dimensional slice with deep learning | |
Ahmed et al. | Dynamic mode decomposition with core sketch | |
Ferris et al. | Variational Monte Carlo with the multiscale entanglement renormalization ansatz | |
US10698918B2 (en) | Methods and systems for wavelet based representation | |
Tian et al. | A deep‐learning ensemble method to detect atmospheric rivers and its application to projected changes in precipitation regime | |
CN110851627A (zh) | 一种用于描述全日面图像中太阳黑子群的方法 | |
Nadungodage et al. | StreamFitter: a real time linear regression analysis system for continuous data streams | |
Slesar et al. | Special Killing forms on toric Sasaki–Einstein manifolds | |
Dueben et al. | Deep learning to improve weather predictions | |
Momenifar et al. | Emulating spatio-temporal realizations of three-dimensional isotropic turbulence via deep sequence learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190402 |