CN102682089A - 一种利用鉴别随机邻域嵌入分析的数据降维方法 - Google Patents
一种利用鉴别随机邻域嵌入分析的数据降维方法 Download PDFInfo
- Publication number
- CN102682089A CN102682089A CN2012101224570A CN201210122457A CN102682089A CN 102682089 A CN102682089 A CN 102682089A CN 2012101224570 A CN2012101224570 A CN 2012101224570A CN 201210122457 A CN201210122457 A CN 201210122457A CN 102682089 A CN102682089 A CN 102682089A
- Authority
- CN
- China
- Prior art keywords
- data
- sigma
- notequal
- matrix
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000009467 reduction Effects 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 title abstract description 4
- 239000011159 matrix material Substances 0.000 claims abstract description 29
- 238000000513 principal component analysis Methods 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 230000009466 transformation Effects 0.000 claims abstract description 7
- 238000002203 pretreatment Methods 0.000 claims description 3
- 238000012800 visualization Methods 0.000 abstract description 5
- 238000002939 conjugate gradient method Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013079 data visualisation Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种利用鉴别随机邻域嵌入分析的数据降维方法,包括以下步骤:(1)待降维数据输入:输入数据矩阵X=[x1,x2,...,xN]及其类别标签,方差参数λ以及最大迭代次数Mt;(2)对输入的数据进行初始化;(3)利用映射模块进行数据建模:依据子空间的样本相似度和类别标签计算联合概率qij,通过KL散度制定目标代价函数,在此目标函数下,通过经典的共轭梯度法更新变换矩阵At进行迭代求解,其中C(A)针对A的梯度;输出最终投影矩阵:如果步骤B中包含主成分分析的预处理步骤则输出的投影矩阵为AtW,否则输出At。本发明是线性有监督的、可通过类别信息提升算法的可视化性能和判别能力。
Description
技术领域
本发明涉及信号处理、机器学习、模式识别和人工智能领域,尤其是一种数据降维方法。
背景技术
数据降维方法是运用计算机图形学和特征提取技术,挖掘高维数据的低维本质表达,并进行交互处理的理论、方法和技术。数据降维方法的基本原理按一般降维方法所必需的过程可划分为“数据预处理”、“映射”、“绘制显示”或“特征表达”几个步骤,即先将所采集的模拟数据和实测数据进行预处理及存储,然后利用映射模块完成将多维数据转变成本质表达的功能,接着通过绘制功能将几何数据转换成图像或者进行本质特征的后续处理。其中映射功能实质上完成的是数据建模功能,是数据降维方法的核心。因此,优秀的数据建模是数据降维方法的关键。
传统的数据降维方法,大致可归为以下5类:①用多个子窗口分别表示数据维的不同组合,如散列图矩阵(scatterplot matrices)和面向像素技术(pixel-oriented techniques);②在低维空间中对所有的数据维进行重新排列,如星型坐标系(star coordinates)和平行坐标系(parallel coordinates);③按照所有的数据维对低维空间进行层次划分,如dimensional stacking和他treemap;④采用具有多个可视特征的图标(icon),每个可视特征都可以代表一个数据维,如Chemoff-faces和stick figures;⑤将数据映射到低维空间中,尽可能保持数据间的某种关系不变,如PCA(principal component analysis),MDS(multi-dimensional,scaling),SOM(self-organizingmap),ISOMAP,LLE(locally linear embedding),SNE(stochastic neighbor embedding)、t-SNE等。相比而言,降维映射方法能更好地展现数据的本质结构,本发明提出的方法就属于这一类。
经专利查询统计,国内外已有不少数据降维方法方面的专利:例如,用于近似查询的长序列数据降维方法(200710303987.4)、一种基于规则邻域的数据降维方法(200810063304.7)、一种基于因子分析模型的高光谱数据降维方法(200910078443.1)等。
发明内容
为了克服已有降维映射方法非线性本质和无监督学习特征的不足,本发明提供一种线性有监督的、可通过类别信息提升算法的可视化性能和判别能力的利用鉴别随机邻域嵌入分析的数据降维方法。
本发明解决其技术问题所采用的技术方案是:
一种利用鉴别随机邻域嵌入分析的数据降维方法,包括以下步骤:
(1)待降维数据输入:输入数据矩阵X=[x1,x2,...,xN]及其类别标签,方差参数λ以及最大迭代次数Mt;
(2)对输入的数据进行初始化:
2.1)根据X计算输入样本间两两欧式距离;
2.2)依据原空间的样本相似度和类别标签计算联合概率pij:
其中,x1 1,x2 1,...,xN1 1,x1 2,x2 2,...,xN2 2,...,x1 C,x2 C,...,xNC C为给定的类别标签样本,而xi c代表第c类的第i个样本,样本总类别数为C,ci表示样本xi的类别标签;
2.3)如果原输入数据X维度高于设定值,则对X进行主成分分析,得到投影矩阵W,反之忽略此步骤;
2.4)初始化变换矩阵A0,其元素满足(0,1)高斯分布;
(3)利用映射模块进行数据建模:
3.1)依据子空间的样本相似度和类别标签计算联合概率qij:
3.2)通过KL散度制定目标代价函数为:
3.3)在此目标函数下,通过经典的共轭梯度法更新变换矩阵At进行迭代求解,其中C(A)针对A的梯度为:
wij=[1+(xi+xj)TATA(xi-xj)]-1
uij=(pij-qij)wij
(4)输出最终投影矩阵:如果步骤B中包含主成分分析的预处理步骤则输出的投影矩阵为AtW,否则输出At。
本发明的技术构思:随机近邻嵌入(Stochastic NeighborEmbedding,SNE)是由Geoffrey Hinton等人提出的一种新降维分析方法。SNE将高维数据间的欧式距离转化为概率表达形式,其目标泛函构建准则要求子空间与原输入空间具有相同的概率分布形式。Laurens等人提出了改进的t分布SNE(t-SNE),采用具有对称性的联合概率表达替代SNE中的条件概率形式,并在子空间中引入t分布表现两两样本间的相似度。SNE和t-SNE在数据可视化方面具有独特的优势,但仍然存在着两个固有的缺陷:首先是SNE和t-SNE都属于非线性降维算法,没有明确的投影矩阵,因此其“样本外问题”还有待解决;其次是SNE和t-SNE都属于无监督学习方法,缺少类别信息的指导,并不适合于模式判别任务。
利用鉴别随机邻域嵌入分析的数据降维方法通过引入类别标签,分别构建了原始输入数据和子空间数据的近邻联合概率表达方式,并通过投影矩阵A建立两个空间的线性关系。利用鉴别随机邻域嵌入分析的数据降维方法不仅有效地保持了t-SNE的本质特征,而且通过类别信息提升了算法的可视化性能和判别能力。
本发明的有益效果是:1)引入类别信息后,利用鉴别随机邻域嵌入分析的数据降维方法在数据可视化过程中能够有效展开高维数据,而SNE和t-SNE等无监督降维算法却容易导致降维后数据过于拥挤;2)ISOMAP和LLE等无监督算法都无法使子空间数据正确分簇,而且都是非线性降维算法,限制了其分类应用的能力;3)利用鉴别随机邻域嵌入分析的数据降维方法在保持SNE和t-SNE优势的同时引入了线性思想和类别信息所具有的良好子空间判别能力。
附图说明
图1是各算法对Helix数据降至2维的可视化效果对比,其中,a是Original Helix算法;b是DSNE算法;c是SNE算法,d是t-SNE算法;e是ISOMAP算法,f是LLE算法;g是LTSA算法。
图2是各算法对Twinpeaks数据降至2维的可视化效果对比,其中,a是Original Twinpeaks算法;b是DSNE算法;c是SNE算法,d是t-SNE算法;e是ISOMAP算法,f是LLE算法;g是LTSA算法。
图3是利用鉴别随机邻域嵌入分析的数据降维方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种利用鉴别随机邻域嵌入分析的数据降维方法,包括以下步骤:
(1)待降维数据输入:输入数据矩阵X=[x1,x2,...,xN]及其类别标签,方差参数λ以及最大迭代次数Mt。
(2)对输入的数据进行初始化:
2.1)根据X计算输入样本间两两欧式距离;
2.2)依据原空间的样本相似度和类别标签计算联合概率pij:
2.3)对X进行主成分分析,得到投影矩阵W(可选);
2.4)初始化变换矩阵A0,其元素满足(0,1)高斯分布。
(3)利用映射模块进行数据建模:
3.1)依据子空间的样本相似度和类别标签计算联合概率qij:
3.2)通过KL散度制定目标代价函数为:
3.3)在此目标函数下,通过经典的共轭梯度法更新变换矩阵At进行迭代求解,其中C(A)针对A的梯度为:
wij=[1+(xi+xj)TATA(xi-xj)]-1
uij=(pij-qij)wij
(4)输出最终投影矩阵:如果步骤B中包含主成分分析的预处理步骤则输出的投影矩阵为AtW,否则输出At。
效果测试:采用Helix和Twinpeaks两种合成数据进行可视化降维效果对比,每组数据都由1600个样本点构成,原空间维度为3。其中Helix的生成函数为:t=2π×[1:n]’/n ;X=[(2+cos(8t)).×cos(t)(2+cos(8t)).×sin(t)sin(8t)]+0.05randn(n,3);Twinpeaks的生成函数为:t=(1-2rand(2,n))’;X=[t;sin(π×t(1,:)).×tanh(3*t(2,:))]’+0.05randn(n,3);X(:,3)=10X(:,3)。
除利用鉴别随机邻域嵌入分析的数据降维方法外,对比算法还包括SNE,tSNE,ISOMAP,LLE以及LTSA几个算法用于效果展示,各种算法的具体配置参数如表1所示,其中perp代表SNE和t-SNE算法中的复杂度因子。
表1各算法在可视化对比中的参数配置
图1和图2分别是Helix和Twinpeaks样本集在不同算法作用下降至2维时的可视化结果。从中可见,SNE和t-SNE并不能重现原始样本集的主流形;ISOMAP和LTSA虽然基本反映了高维数据的主要分布结构(Helix中的圆环和Twinpeaks中的五簇),但是在同簇内的细节表达较为失败,没有正确展开。LLE对Helix的降维结果虽然基本反映了原数据的分布流形,但却丢失了原有的样本对称结构,而在Twinpeaks可视化结果中,LLE能够正确展开原数据的分布流形,但由于缺少类别信息,导致结果中两类样本出现了部分的混叠。只有利用鉴别随机邻域嵌入分析的数据降维方法对两类数据进行了正确降维投影,不仅保持了数据分布的主流形,且各分簇间的异类样本混叠较少,反映了鉴别性和线性降维的优势。
Claims (1)
1.一种利用鉴别随机邻域嵌入分析的数据降维方法,其特征在于:包括以下步骤:
(1)待降维数据输入:输入数据矩阵X=[x1,x2,...,xN]及其类别标签,方差参数λ以及最大迭代次数Mt;
(2)对输入的数据进行初始化:
2.1)根据X计算输入样本间两两欧式距离;
2.2)依据原空间的样本相似度和类别标签计算联合概率pij:
其中,x1 1,x2 1,...,xN1 1,x1 2,x2 2,...,xN2 2,...,x1 C,x2 C,...,xNC C为给定的类别标签样本,而xi c代表第c类的第i个样本,样本总类别数为C,ci表示样本xi的类别标签;
2.3)如果原输入数据X维度高于设定值,则对X进行主成分分析,得到投影矩阵W,反之忽略此步骤;
2.4)初始化变换矩阵A0,其元素满足(0,1)高斯分布;
(3)利用映射模块进行数据建模:
3.1)依据子空间的样本相似度和类别标签计算联合概率qij:
3.2)通过KL散度制定目标代价函数为:
3.3)在此目标函数下,通过经典的共轭梯度法更新变换矩阵At进行迭代求解,其中C(A)针对A的梯度为:
wij=[1+(xi+xj)TATA(xi-xj)]-1
uij=(pij-qij)wij
(4)输出最终投影矩阵:如果步骤B中包含主成分分析的预处理步骤则输出的投影矩阵为AtW,否则输出At。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101224570A CN102682089A (zh) | 2012-04-24 | 2012-04-24 | 一种利用鉴别随机邻域嵌入分析的数据降维方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101224570A CN102682089A (zh) | 2012-04-24 | 2012-04-24 | 一种利用鉴别随机邻域嵌入分析的数据降维方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102682089A true CN102682089A (zh) | 2012-09-19 |
Family
ID=46814014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101224570A Pending CN102682089A (zh) | 2012-04-24 | 2012-04-24 | 一种利用鉴别随机邻域嵌入分析的数据降维方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102682089A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103248971A (zh) * | 2013-04-16 | 2013-08-14 | 扬州奥普森光传感科技有限公司 | 网络带宽利用率优化驱动的智能光波导系统 |
CN103886345A (zh) * | 2014-04-22 | 2014-06-25 | 苏州大学 | 投影变换矩阵的获取方法及装置、样本分类方法及装置 |
CN103953490A (zh) * | 2014-04-23 | 2014-07-30 | 浙江工业大学 | 基于hlsne的水轮机组状态监测实现方法 |
CN104217374A (zh) * | 2014-08-29 | 2014-12-17 | 国网安徽省电力公司 | 一种输电网网损灵敏度方案优选算法及系统 |
CN107451238A (zh) * | 2017-07-26 | 2017-12-08 | 中南大学 | 探索高维数据的内在低维结构的可视化分析方法及其系统 |
CN107947156A (zh) * | 2017-11-24 | 2018-04-20 | 国网辽宁省电力有限公司 | 基于改进Softmax回归的电网故障临界切除时间判别方法 |
CN109213831A (zh) * | 2018-08-14 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 事件检测方法和装置、计算设备及存储介质 |
CN112001410A (zh) * | 2020-07-06 | 2020-11-27 | 北京农业信息技术研究中心 | 一种振动光谱维数约简方法及系统 |
CN113113148A (zh) * | 2021-04-28 | 2021-07-13 | 安徽理工大学 | 一种基于lle结合som的矿工体检情况辨识方法 |
WO2023024210A1 (zh) * | 2021-08-23 | 2023-03-02 | 江苏大学 | 一种基于傅里叶域主成分分析的数据降维方法 |
CN116776238A (zh) * | 2023-08-25 | 2023-09-19 | 汇杰设计集团股份有限公司 | 一种基于多源信息水旱灾害动态风险评估方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735589B2 (en) * | 2001-06-07 | 2004-05-11 | Microsoft Corporation | Method of reducing dimensionality of a set of attributes used to characterize a sparse data set |
US7152057B2 (en) * | 2003-06-18 | 2006-12-19 | Microsoft Corporation | Utilizing information redundancy to improve text searches |
WO2009082046A1 (en) * | 2007-12-21 | 2009-07-02 | Korea Institute Of Science & Technology Information | System and method for analysis of information |
-
2012
- 2012-04-24 CN CN2012101224570A patent/CN102682089A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735589B2 (en) * | 2001-06-07 | 2004-05-11 | Microsoft Corporation | Method of reducing dimensionality of a set of attributes used to characterize a sparse data set |
US7152057B2 (en) * | 2003-06-18 | 2006-12-19 | Microsoft Corporation | Utilizing information redundancy to improve text searches |
WO2009082046A1 (en) * | 2007-12-21 | 2009-07-02 | Korea Institute Of Science & Technology Information | System and method for analysis of information |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103248971B (zh) * | 2013-04-16 | 2017-11-28 | 扬州奥普森光传感科技有限公司 | 网络带宽利用率优化驱动的智能光波导系统 |
CN103248971A (zh) * | 2013-04-16 | 2013-08-14 | 扬州奥普森光传感科技有限公司 | 网络带宽利用率优化驱动的智能光波导系统 |
CN103886345A (zh) * | 2014-04-22 | 2014-06-25 | 苏州大学 | 投影变换矩阵的获取方法及装置、样本分类方法及装置 |
CN103953490A (zh) * | 2014-04-23 | 2014-07-30 | 浙江工业大学 | 基于hlsne的水轮机组状态监测实现方法 |
CN104217374A (zh) * | 2014-08-29 | 2014-12-17 | 国网安徽省电力公司 | 一种输电网网损灵敏度方案优选算法及系统 |
CN104217374B (zh) * | 2014-08-29 | 2017-08-25 | 国网安徽省电力公司 | 一种输电网网损灵敏度方案优选方法及系统 |
CN107451238A (zh) * | 2017-07-26 | 2017-12-08 | 中南大学 | 探索高维数据的内在低维结构的可视化分析方法及其系统 |
CN107451238B (zh) * | 2017-07-26 | 2020-08-04 | 中南大学 | 探索高维数据的内在低维结构的可视化分析方法及其系统 |
CN107947156B (zh) * | 2017-11-24 | 2021-02-05 | 国网辽宁省电力有限公司 | 基于改进Softmax回归的电网故障临界切除时间判别方法 |
CN107947156A (zh) * | 2017-11-24 | 2018-04-20 | 国网辽宁省电力有限公司 | 基于改进Softmax回归的电网故障临界切除时间判别方法 |
CN109213831A (zh) * | 2018-08-14 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 事件检测方法和装置、计算设备及存储介质 |
CN112001410A (zh) * | 2020-07-06 | 2020-11-27 | 北京农业信息技术研究中心 | 一种振动光谱维数约简方法及系统 |
CN113113148A (zh) * | 2021-04-28 | 2021-07-13 | 安徽理工大学 | 一种基于lle结合som的矿工体检情况辨识方法 |
WO2023024210A1 (zh) * | 2021-08-23 | 2023-03-02 | 江苏大学 | 一种基于傅里叶域主成分分析的数据降维方法 |
CN116776238A (zh) * | 2023-08-25 | 2023-09-19 | 汇杰设计集团股份有限公司 | 一种基于多源信息水旱灾害动态风险评估方法和系统 |
CN116776238B (zh) * | 2023-08-25 | 2023-11-03 | 汇杰设计集团股份有限公司 | 一种基于多源信息水旱灾害动态风险评估方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102682089A (zh) | 一种利用鉴别随机邻域嵌入分析的数据降维方法 | |
Bansal et al. | Improved k-mean clustering algorithm for prediction analysis using classification technique in data mining | |
Harouni et al. | Online Persian/Arabic script classification without contextual information | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
Nalmpantis et al. | Signal2vec: Time series embedding representation | |
CN102291392A (zh) | 一种基于Bagging算法的复合式入侵检测方法 | |
CN111325264A (zh) | 一种基于熵的多标签数据分类方法 | |
CN115099321B (zh) | 双向自回归无监督预训练微调式排污异常监控方法及应用 | |
Tavakoli et al. | Clustering time series data through autoencoder-based deep learning models | |
Zhu et al. | An automatic identification method of imbalanced lithology based on Deep Forest and K-means SMOTE | |
Wang et al. | A novel multi-layer stacking ensemble wind power prediction model under Tensorflow deep learning framework considering feature enhancement and data hierarchy processing | |
Mandelli et al. | Mining data in a dynamic PRA framework | |
Hu | Research on english achievement analysis based on improved CARMA algorithm | |
Wan et al. | Mining subsequent trend patterns from financial time series | |
Li et al. | Time series clustering based on complex network with synchronous matching states | |
CN112800590B (zh) | 一种机器学习辅助的两相流油藏随机建模的网格粗化方法 | |
CN111090679B (zh) | 基于时序影响和图嵌入的时序数据表示学习方法 | |
Wu et al. | Mixed Pattern Matching‐Based Traffic Abnormal Behavior Recognition | |
CN104573727A (zh) | 一种手写体数字图像降维方法 | |
Chen et al. | Feature selection based on BP neural network and adaptive particle swarm algorithm | |
Gowtham et al. | Analysis and prediction of lettuce crop yield in aeroponic vertical farming using logistic regression method | |
Sencan et al. | Classification of emerging extreme event tracks in multivariate spatio-temporal physical systems using dynamic network structures: application to hurricane track prediction | |
Tuan et al. | Object Detection in Remote Sensing Images Using Picture Fuzzy Clustering and MapReduce. | |
Jin et al. | Machine learning-based categorization of source terms for risk assessment of nuclear power plants | |
Jiman et al. | Literature survey: clustering technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120919 |