CN113704641A - 一种基于拓扑分析的时空大数据潜在结构分析方法 - Google Patents
一种基于拓扑分析的时空大数据潜在结构分析方法 Download PDFInfo
- Publication number
- CN113704641A CN113704641A CN202110994340.0A CN202110994340A CN113704641A CN 113704641 A CN113704641 A CN 113704641A CN 202110994340 A CN202110994340 A CN 202110994340A CN 113704641 A CN113704641 A CN 113704641A
- Authority
- CN
- China
- Prior art keywords
- data
- topological
- space
- parameter
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003696 structure analysis method Methods 0.000 title claims abstract description 9
- 238000010937 topological data analysis Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims abstract description 117
- 230000002123 temporal effect Effects 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims abstract description 11
- 230000001427 coherent effect Effects 0.000 claims abstract description 10
- 238000012706 support-vector machine Methods 0.000 claims abstract description 4
- 230000002688 persistence Effects 0.000 claims description 25
- 230000002085 persistent effect Effects 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 239000000835 fiber Substances 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 9
- 238000001994 activation Methods 0.000 claims description 9
- 239000010410 layer Substances 0.000 claims description 6
- 238000012886 linear function Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims 1
- 238000005070 sampling Methods 0.000 claims 1
- 230000009467 reduction Effects 0.000 description 10
- 238000011160 research Methods 0.000 description 8
- 238000007405 data analysis Methods 0.000 description 7
- 238000012800 visualization Methods 0.000 description 7
- 238000012880 independent component analysis Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000739 chaotic effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004321 preservation Methods 0.000 description 3
- 208000035126 Facies Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003534 oscillatory effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Complex Calculations (AREA)
Abstract
Description
技术领域
本发明属于测绘技术领域,尤其涉及一种基于拓扑分析的时空大数据潜在结构分析方法。
背景技术
近年来,随着信息通讯技术的发展以及各种传感器和定位技术的普及,产生了大量具有时空标记、能够描述个体行为的空间大数据,包括手机定位数据、出租车数据、共享自行车数据、公交智能卡数据、社交网络数据、视频大数据等,为分析和理解城市结构的动态、人类活动时空规律以及定量理解社会经济环境提供了巨大的机会。这些具有地理属性的大数据兴起,也对时空大数据的空间挖掘能力提出了新的诉求。丰富时空数据分析方法,将有助于理解、应对进而解决空间与时间上更为复杂的自然地理格局和过程耦合问题,满足国家可持续发展需求,服务于社会决策和智慧城市的建设。
近年来,来自不同领域的学者对不同类型的时空数据进行了大量研究,其中包括计算机科学、地理学、和复杂性科学等交叉领域。他们试图挖掘海量群体的时空行为模式,并建立合适的解释性模型,得到地理学研究中的新见解。然而,大数据具有高维、高噪声、动态性、多模态等特征,数据量不断增长且具有复杂性,使用传统数据分析方法分析大数据会存在一定的局限性。
其一是数据分析的方法上,方法本身的和方法使用上的具有局限性。这些方法以统计分析为基础,需要对数据做出一些基本假设如数据满足正态分布。或者主要从数据“表面”的统计量出发,通过参数设计,获得关于对于人类行为规律与模式的认知,而没有从数据隐藏的基本结构出发,这种方法原理上可能存在先天的缺陷[12]。在方法使用上,满足如果数据不满足这种分布和假设或者其分布不明确的情况下,这些方法得不到很好的效果。然而在现实应用中,领域专家有时候忽视了这点,导致其结果或者结论存在系统性的偏差。其二,现有数据分析方法对时空大数据的研究,增加了对地理现象和时空行为模式的认知。但是,目前的研究聚焦于问题的差异性,而缺乏深入研究问题的普适性。对不同类型的数据的共性和内在结构进行分析与表征的研究较少。
不论是地理现象或者群体的时空行为,这些复杂的模式背后存在一些隐藏的基本结构,而非仅仅是表面上的统计性质。从数学的角度来看,这个过程本质就是寻找高维数据背后的低维结构。时空大数据不仅有其“地理坐标”,还具有“特征坐标”,当描述时空大数据的特征坐标越来越多,高维数据的处理变得不可避免,而高维信息处理的关键在于找到嵌入在其中的低维流形结构。因此需要将三维坐标的概念更加泛化到一般的非欧空间或者流形空间。洞察数据潜在流形的结构与背后“形状”有助于更好地理解数据。如何从数据的隐藏结构和内在特性出发,理解地理现象、人类活动行为及其运行规律,从大数据背后挖掘可学习的潜空间特征,是目前时空大数据研究领域的重要问题之一。
在数学中,拓扑是研究几何图形或空间在连续改变形状后还能保持不变的一些性质的一个学科。而拓扑数据分析是一个新兴的数据分析领域,它将计算科学与拓扑的数学理论联系在一起,探索数据的几何形状和拓扑属性。与传统方法相比,拓扑数据分析能够描述复杂高维数据中的定性结构,并具有从系统和整体的角度捕获数据之间联系的固有模式和特征的优势。同时它可以量化数据的形状,探索数据的形状通常能发现数据中的拓扑特征或潜在不变的性质。这些拓扑特性已被证明能够提供关于数据的新见解,而通常这些关键信息被传统数据分析方法所忽略。拓扑数据分析已经成功应用于不同领域的研究和数据分析,并发现了一些数据潜在的共性,如时间序列分析、金融数据分析、网络科学、脑科学、神经科学、物理学、生物学和分析化学、地理学等领域。
时空大数据的动态可以用动力系统的相空间来刻画。对于未知的复杂动力学系统,在没有先验的条件下了解系统的动态是困难的。通常可以观测一维或者多维的时态数据来进行相空间重构,从而了解系统的动态。常用的方法如延迟嵌入将时态数据嵌入到潜在的相空间中,被广泛应用于研究各种领域系统的动态。然而,延迟嵌入技术对超参数的选择较为敏感。并且,由于真实时间序列数据长度有限且具有噪声,选择合适的参数进行延迟嵌入被认为是一个固有的难题。因此,在将其应用于新数据集之前,需要根据新数据进行参数调整或者进行广泛的交叉验证确保嵌入的鲁棒性。同时,对于不同动力学系统产生的时态数据,理论上需要用不同的参数才能分别进行重构。因此,这些缺点限制了目前对时序数据动态的分析。
此外,一个系统会不断地演变,其动态可能会发生变化,从而观测到的时态数据可能会发生质变。例如通过分叉从静态转变为振荡动力学,或者从无序转变为具有周期性。识别时间序列数据的质变可提供相关动态的信息。在材料科学中,表示数据“形状”的拓扑特征可用于检测质的变化,即相变或形态和层次结构的变化,这主要因为拓扑是在噪声影响下稳定的结构。
发明内容
要充分了解一个系统的动力学性质,需要一种方法根据观测到的时间序列重构潜在的相空间结构,并且利用拓扑数据分析的方法去捕捉这些结构的拓扑性质从而表征系统的动力学特性。可以通过拓扑数据分析方法检测到时间序列这种质的变化,该方法首先利用延迟嵌入将数据嵌入到潜在的相空间中,然后从嵌入的点中提取描述数据形状(包括小的簇、环状结构和三维空心球体等)的拓扑特征表征系统的动力学特性。
基于以上问题,本发明提出一种描述时态数据动力学潜在结构的时间序列拓扑分析方法。首先通过训练带正则化损失函数(FNN)的自动编码器进行单变量和多变量时间序列的嵌入,随后对于得到的点云同时考虑距离和密度进行多参数过滤,利用多参数持续同调作为时态数据潜在动力学特性的表征。与其他重构方法相比,带正则化的自动编码器能对时态数据潜在动力学结构进行保持拓扑的重构。并且自动重构的方法能够捕获时间序列数据的多动态模式。所提出的时间序列拓扑分析方法在时间序列分类上高于基准方法。
有鉴于此,本发明提出了一种基于拓扑分析的时空大数据潜在结构分析方法,包括以下步骤:
获取时间序列并计算其汉克尔矩阵X;
对相空间使用多参数持续同调过程,得到向量或者持续性内核,对所述向量使用XGBoost分类器进行分类,对所述持续性内核使用内核支持向量机分类。
进一步地,使用单层长短期记忆网络和三层多层感知机对时态数据潜在相空间中的结构进行分析。
进一步地,为了限制g′和g,除了重建损失函数外,还加入了一种稀疏性损失函数所述稀疏性损失函数输入维度为L大小为B,与隐藏的激活单元相对应;每次训练过程中,从一批潜在变量激活中估计假邻居分数并对无法显着降低虚假邻居分数的潜在变量进行加权:
其中||·||2表示欧几里得范数,λ是控制正则化的超参数。
进一步地,使用多参数持续性景观和多参数持续性图像方法得到所述向量;定义多参数持续性景观为λk:表示将持续条形码转化为欧几里得向量,作为对应的第k个持续性景观的分段线性函数的采样,多参数表示为被定义为与纤维条形码{bcd(fl)}l∈L相关联的所有持续性景观的线性组合,其中L的直线斜率为1;所述多参数持续性图像学习多重组合方式进行持续同调得到纤维条形码,利用持续性图像将得到的一系列纤维条形码进行向量化。
进一步地,使用多参数持续性内核方法得到所述持续性内核;定义持续核为K:利用双向过滤和加权线性组合,计算对应的多参数持续内核其中w(l)为加权系数,bcd(fl)代表密度纤维条形码,bcd(gl)代表距离纤维条形码。
进一步地,所述度量拓扑特征的方法步骤如下:
用Y和没有显着特征的空吸引子之间的持续图的距离进行归一化,表达式如下:
进一步地,通过自动重构嵌入和单延迟嵌入方法对调频模型获得的时间序列进行动态空间重构,并使用UMAP对重构结果的拓扑度量空间进行降维。
本发明的有益效果如下:
1)本发明针对延迟嵌入技术对超参数的选择较为敏感的问题,提出一种描述时态数据动力学潜在结构的时间序列拓扑分析方法,能够自动重构时态数据动力学的潜在结构,并且重构结果能较好地保留原始相空间中的拓扑结构;
2)相比于单一参数的延迟嵌入重构方法,本发明能够同时捕获不同动态的时间序列的模式
3)利用多参数持续同调的方法提取重构相空间结构的拓扑性质对真实时间序列进行了分类,多参数的方法比单参数方法在所有数据集上效果更优,分类结果也证明了本发明能够应用于真实时间序列的分析。
附图说明
图1为本发明时态数据动力学潜在结构拓扑分析方法图;
图2为自动编码器重构数据动力学的潜在结构;
图3为原始图;
图4为ICA重构方法得到的数据动力学潜在结构;
图5为TICA重构方法得到的数据动力学潜在结构;
图6为ETD重构方法得到的数据动力学潜在结构;
图7为LSTM-FNN重构方法得到的数据动力学潜在结构;
图8为MLP-FNN重构方法得到的数据动力学潜在结构;
图9为原始图的数据动力学潜在结构的持续图;
图10为ICA重构方法得到的数据动力学潜在结构的持续图;
图11为TICA重构方法得到的数据动力学潜在结构的持续图;
图12为ETD重构方法得到的数据动力学潜在结构的持续图;
图13为LSTM-FNN重构方法得到的数据动力学潜在结构的持续图;
图14为MLP-FNN重构方法得到的数据动力学潜在结构的持续图;
图15为不同嵌入结果与原始吸引子的拓扑相似性;
图16为自动重构时对多动态时间序列的拓扑度量空间使用UMAP降维可视化结果;
图17为单延迟重构时τ=1时对多动态时间序列的拓扑度量空间使用UMAP降维可视化结果;
图18为单延迟重构时τ=3时对多动态时间序列的拓扑度量空间使用UMAP降维可视化结果;
图19为单延迟重构时τ=5时对多动态时间序列的拓扑度量空间使用UMAP降维可视化结果;
图20为单延迟重构时τ=7时对多动态时间序列的拓扑度量空间使用UMAP降维可视化结果;
图21为单延迟重构时τ=9时对多动态时间序列的拓扑度量空间使用UMAP降维可视化结果;
图22为单延迟重构时τ=11时对多动态时间序列的拓扑度量空间使用UMAP降维可视化结果。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
本发明提出的时间序列拓扑分析方法流程示意图如图1所示。该方法包括两个部分:时态数据动力学潜在结构的重构和时态数据拓扑性质的表征与分类分析。
使用自编码器重构时间序列潜在的动态空间
观察来自系统一段时间内的一个或多个信号,得到对应的时间序列用于构建系统动态的表征。通过训练自动编码器(一种通常用于无监督学习的神经网络),可以从时间序列中重构描述系统动态的相空间。该方法如图2所示,首先将得到的时间序列计算其汉克尔矩阵X,随后将其输入网络g的编码器部分,并分别作用于每一行以产生相空间的估计值它包含自动编码器的潜在空间。解码器g′将作为输入,用来重构编码器和解码器通过组合并最小化X和之差进行训练。在自动编码器训练完毕之后,可以仅使用编码器从训练数据或新的测试数据中生成嵌入。
为了限制g′和g,除了重建损失函数外,还加入了一种稀疏性损失函数它可作为对潜在空间动态的正则化。该损失函数输入维度为L大小为B,与隐藏的激活单元相对应。每次训练过程中,从一批潜在变量激活中估计假邻居分数并对无法显着降低虚假邻居分数的潜在变量进行加权。
最后可以得到自动编码器的损失函数:
其中||·||2表示欧几里得范数,λ是控制正则化的超参数。
对于实际实验中,使用两个标准编码器模型作为自动编码器对时态数据潜在相空间中的结构进行分析:一个单层长短期记忆网络(Long Short-term Memory network,LSTM)和一个三层多层感知机(Multilayer Perceptron,MLP)。多参数持续同调提取重构动态空间中的拓扑信息
为了产生适合机器学习和统计的持续图总结,可以使用多参数持续同调过程,它是从条形码或持续图变换得到的持续图像的一般化。在本发明中,对比了不同的多参数持续同调表示方法,并且进行了实验分析了不同算法的性能。
持续同调理论是一种以不同空间分辨率计算空间拓扑特征的代数方法。在广泛的空间尺度上检测到更多的持续存在的拓扑特征,那些在很大范围内持续存在的拓扑特征将被重新分类为拓扑信号,而短暂的拓扑特征则被视作噪声。
为了描述一个度量空间的持续同调性,必须首先将该空间的点表示为单纯复形。可以根据基础空间上的距离函数构建一个“生长”的单纯复形族,从而区分作为信号或噪声的拓扑特征。这就是所谓的过滤过程。对于给定的单纯形复数K,K的过滤是K的子复数的递增序列:
例如,假设给定一个点云数据,对于以每个点为中心的开球,其半径为递增的序列可以根据半径的增长建立VR复形序列每个单独的复合物的同调性不能概括所有拓扑信息,同调性的演化过程才能完整反应数据的拓扑特征。具体来说,对拓扑特征的出现和消逝以及其存在的时间感兴趣。
对于不同的维度p,对应维度的持续同调群是由包含关系引起的同态的像,可表示为对应维度p的持续的贝蒂数是这些群的秩,表示为p维贝蒂数描述的是对象的p维空洞,即在过滤过程中存在的独立的p维度同调性的数目。在整个过滤过程中,贝蒂数代表的是对应的拓扑性质。
如果存在一个拓扑特征x∈Hp(Ki)在Hp(Ki)时出现,且它不是的像,则称x在i时刻出生。进而在过滤过程中存在一个最小的j使得j>i,那么x在Hp(Ki)时消逝,则称x在j时刻死亡。用半开区间[i,j)表示拓扑特征x的存在时间。特别的,如果对于所有j>i,不存在则拓扑特征x是永久存在的,它的寿命是区间[i,∞)。
这个区间的范围(即出生时间和死亡时间)取决于每个同调空间Hp(Ki)的选择。根据持续同调理论,对于每个同调空间中可以选择基向量,以使得半开区间的集合定义明确且唯一,这种构造称为持续条形码。
多参数持续性景观(Multi-parameter Persistent Landscape,MP-L):λk: 表示将持续条形码转化为欧几里得向量,作为对应的第k个持续性景观的分段线性函数的采样。多参数表示为被定义为与纤维条形码{bcd(fl)}l∈L相关联的所有持续性景观的线性组合,其中L中直线斜率为1。其主要思想是通过不同的过滤方式得到对应的持续性景观向量,然后线性组合作为拓扑特征。
多参数持续性内核(Multi-parameter Persistent Kernel,MPK):定义持续核为K:利用双向过滤和加权线性组合,计算对应的多参数持续内核其主要思想是通过不同的过滤方式得到对应的持续性内核,然后线性组合作为拓扑性质的表征。
多参数持续性图像(Multi-parameter Persistent Image,MP-I):多参数持续性图像同样利用双参数(距离和密度)进行过滤过程,与MP-L和MPK不同,其多参数过滤组合方式不是线性的,而是学习多重组合方式进行持续同调得到纤维条形码。最后利用持续性图像将得到的一系列纤维条形码。进行向量化从作为拓扑性质的向量表征。
以上三种多参数持续同调方法得到的向量或者内核,输入统计学习的方法进行下游的分析任务。多参数持续性景观、多参数持续性内核和多参数持续性图像为现有技术,在此不再赘述。
数据和衡量指标
已知动力系统数据集:根据几种混沌或拟周期性系统,模拟生成了相对应的数据集:包括三维Lorenz“蝴蝶”吸引子,三维吸引子,10维Lotka-Volterra生态系统,一个三维准周期性圆环与混沌双摆的质心测量值相对应的实验数据集(在短时间范围内是有效的四维系统)。对于所有数据集,采样5000个单独的时间点作为嵌入的测试数据集。
UCR时间序列数据档案:本发明选择了UCR数据档案中的部分数据集对算法进行测试,如下表所示。
表1 UCR时间序列档案库中的6个数据集的统计信息
数据集 | 训练集 | 测试集 | 长度 | 类别 |
ECG200 | 100 | 100 | 96 | 2 |
DistalPhalanxOutlineAgeGroup | 400 | 139 | 80 | 3 |
DistalPhalanxTW | 400 | 130 | 80 | 6 |
ProximalPhalanxOutlineAgeGroup | 400 | 205 | 80 | 3 |
MedicalImages | 381 | 760 | 99 | 10 |
Plane | 105 | 105 | 144 | 7 |
对比方法
为了对比不同重构方法的对拓扑性质的保持,选择了三种常用重构方法作为基准。特征时间延迟方法(ETD)通过汉克尔矩阵的奇异值分解来构造嵌入,从而产生一组“特征时间延迟坐标”。独立分量分析方法(ICA)使用线性变换把时间序列分离成统计独立非高斯的信号源的线性组合。时间结构独立分量分析方法(TICA)通过在时间序列数据集中找到最慢的松弛自由度进而对时间序列进行降维的方法,该时间序列数据集可以由一组输入自由度的线性组合形成。
同时,为了对比多参数与单参数持续同调过程对拓扑性质的提取能力,选择了单参数持续同调向量生成方法PI(Persistent Image)和PL(Persistent Landscape)作为时态数据分类任务的基线。
评价指标
衡量时间序列嵌入——拓扑度量Stopology:时间序列嵌入是一个无监督的学习问题,为了针对基准测试性能,本发明通过从已知的动力学系统y(t)中选择一个坐标y1(t)来训练模型。y1(t)用于构建Hankel测量矩阵Xtrain。然后,在Xtrain上训练自动编码器,然后使用它嵌入看不见的数据Xtest的Hankel矩阵,产生重建的嵌入结果然后,将测试与Ytest(在相同时间点完整吸引子的样本)进行比较。因为所有模型的潜在坐标L的数量都是相同的,但是被测试的吸引子的基础维数d≤L,所以当将Y与进行比较时,通过添加L-d常数坐标来提升Y的维数。
本发明关注的是重建之后的对原始系统的拓扑结构的保持度,因此采用度量拓扑特征的方法来描述原始吸引子Y及其重建之间的相似度。在训练过程中并不会考虑这种度量(自动编码器只能看到一个坐标),所以使用这些指标来评估无监督方法对已知系统的重构程度是合适的。利用拓扑数据分析有效捕获奇异吸引子之间的全局相似性的特点,通过持续同调图之间的度量来量化保留Y的基本结构特征的程度,例如孔,空隙或Lorenz吸引子的双涡旋等结构。首先计算了和Y的持续图之间的Wasserstein距离,以量化跨尺度的不同拓扑特征的存在。Wasserstein距离的计算为现有技术,在此不再赘述。为了产生相似性度量,用Y和没有显着特征的空吸引子之间的持续图的距离进行归一化,表达式如下:
分类精度指标——准确度(acc):评价分类结果的精度指标,对于给定带标签的数据集,准确度表示被正确分类的样本数占总样本数的之比。
以下为实验部分。本实施例对比了不同重构时态数据动力学潜在结构的方法对拓扑结构保持的性能差异。在这里,分别从已知吸引子的动力学结构中采样一维时间序列,并采用不同方法利用一维观测信息重构整个动力学潜在结构,并比较重构结构与原始结构之间的拓扑差异。
图3显示了不同重构方法对洛伦兹吸引子重构的结果,其中(a)中是洛伦兹原始动力学空间,它在三维空间中呈现两个环形的结构。从图中结果来看,非正则化模型ICA、TICA和ETD的重构结果并没有很好还原原始空间中的环状结构(具有一维拓扑性质)。而添加了正则化的自动编码器的重构方法(LSTM-FNN和MLP-FNN)虽然在空间中有一定形变,但是都很好保持环状结构,即对拓扑性质保持。
随后,为了进一步探索不同模型重构结果对拓扑性质的保持,本节对不同方法得到的重构的动力学结构计算了持续图,如图4。可以从图中看到,原始动力学结构有2个明显的拓扑特征(红色圆圈),对应的ETD和自动编码器的重构方法对明显拓扑特征有较好的保持。但是相比而言,ETD方法有更多的拓扑噪声(图中红色的小圈)。结果显示带正则化自动编码器的重构方法能够保持原始空间的拓扑特征,并且不会增加新的拓扑噪声。
进行了定性比较之后,图5显示了对各种吸引子重构结果和原始吸引子之间计算拓扑相似性度量的定量比较的结果。颜色越浅表示重构结果对拓扑性质保持的更好。与基准相比,带正则化自编码器的方法可以在不同数据集中得到更好的重构质量。
随后,本发明研究了自动重构嵌入方法对多动态模式的时间序列的重构能力,即对于不同动态类型的时间序列无需调整参数便可得到满意的重构结果。提取的多动态模式的取决于时间延迟,所以FNN嵌入方法应该能够提取包含多个不同时间尺度的模式,并且优于单一参数选择的时间延迟嵌入。为了更好地理解这种能力,对调频模型获得的时间序列进行了动态空间重构。给定原始信号s(t,fc)=2sin(2πfct+10sin(2πfmt),fm=25,fc=5f且f=1~20,f∈Z表示调制信号中具有多个动态的模式。对于每个频率fc生成对应的20个带噪声的离散时间序列tf(n)=s(0.0002n,f)+wf(n),其中f=1,2,...,20,且n=0,1,...,200,对于噪声wf(n)为方差为0.1的高斯噪声。
对于自动重构和单延迟重构方法,使用UMAP对两种方法重构结果的拓扑度量空间进行降维。均匀流形近投影(Uniform Manifold Approximation and Projection,UMAP)是一种保留高维数据拓扑结构的降维技术,旨在建模和保留低维空间中数据点的高维拓扑和全局结构。与t-SNE相比,它保留了更多的局部拓扑结构和更多的全局数据结构,并且运行时间更短。该算法基于关于数据的三个假设:
1.数据均匀分布在黎曼流形上。
2.黎曼度量是局部常数(或者是可以逼近的常数)。
3.该流形在局部具有连接性。
根据这些假设,对具有模糊拓扑结构的流形进行建模。通过搜索具有最接近的等效模糊拓扑结构的数据的低维投影来进行降维。UMAP的实现为现有技术,本实施例不再赘述。
其中图6为LSTM-FNN自动重构的方法,图7-图12为不同延迟系数的单延迟重构方法。不同的颜色表示使用不同fc值生成的数据。图中可以明显看出与使用单延迟重构方法获得的结果相比,自动重构的方法能对不同fc进行更好的描述和区分。而单延迟重构由于固定了参数,不能捕获到多种频率数据的性质。这些结果表明,在识别时间序列中多动态模式方面,自动重构动态空间的方法优于单延迟重构。
真实时间序列数据的分类
通过对时态数据相空间的拓扑性质进行表征,可以有助于时间序列的聚类和分类任务。而相比于确定参数的延迟嵌入方法,自动重构相空间能根据不同动力学类型数据自身的性质来进行重构,并且在分类任务中不需要对新获得的数据进行嵌入参数的选择。其次,真实时态数据是有噪声的,多参数过滤的方法能够根据距离和密度进行过滤从而减少离群值对拓扑性质表征的影响。
在本实施例中,选用UCR数据集中的部分数据集进行时间序列分类。这些数据集有适当的大小和长度,来保证计算多参数持久性内核中的内核矩阵具有合理的大小。首先使用LSTM-FNN自动重构的方法重构每个时间序列的潜在相空间结构(相空间维度统一设为3维),然后进行单参数和多参数持续同调得到的相应的拓扑表征,最后进行分类任务。对于训练集和测试集,进行5折交叉验证选择对应参数。除了MP-K方法外,对于得到的拓扑表征均使用XGBoost分类器进行训练,而MP-K使用内核支持向量机训练。
得到的结果如表2所示,所有数据集上,多参数持续同调(MP-I,MP-L,MP-k)的方法明显优于单参数方法(P-L,P-I)。而多参数的方法中,MP-K和MP-I方法效果较好。但是由于MP-K需要计算多个内核矩阵,计算成本比其他方法要高,并且对于过大的数据集不适用。因此从整体上看,在进行时态数据分类任务上,MP-I是最优的方法。
表2时态数据分类结果
Dataset | MP-I | MP-L | MP-k | P-L | P-I |
ECG200 | 0.760 | 0.700 | 0.820 | 0.750 | 0.740 |
DistalPhalanxOutlineAgeGroup | 0.633 | 0.583 | 0.626 | 0.518 | 0.561 |
DistalPhalanxTW | 0.446 | 0.432 | 0.576 | 0.417 | 0.576 |
ProximalPhalanxOutlineAgeGroup | 0.732 | 0.741 | 0.815 | 0.659 | 0.715 |
MedicalImages | 0.533 | 0.472 | 0.520 | 0.454 | 0.461 |
Plane | 0.924 | 0.762 | 0.876 | 0.657 | 0.657 |
本发明针对延迟嵌入技术对超参数的选择较为敏感的问题,提出一种描述时态数据动力学潜在结构的时间序列拓扑分析方法。该方法能够自动重构时态数据动力学的潜在结构,并且重构结果能较好地保留原始相空间中的拓扑结构。同时,相比于单一参数的延迟嵌入重构方法,该方法能够同时捕获不同动态的时间序列的模式。最后,利用多参数持续同调的方法提取重构相空间结构的拓扑性质对真实时间序列进行了分类,多参数的方法比单参数方法在所有数据集上效果更优。分类结果也证明了本发明能够应用于真实时间序列的分析。
上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种基于拓扑分析的时空大数据潜在结构分析方法,其特征在于,包括以下步骤:
获取时空大数据,通过连续且离散化采样将时空大数据提取为空间上有相关关系的时间序列集合;
计算所述时间序列集合的汉克尔矩阵X;
对嵌入后的相空间使用多参数持续同调过程,得到向量或者持续性内核,对所述向量使用XGBoost分类器进行分类,对所述持续性内核使用内核支持向量机分类;
基于向量分类结果和持续性内核分类结果完成所述时空大数据的聚类和分类。
2.根据权利要求1所述的基于拓扑分析的时空大数据潜在结构分析方法,其特征在于,使用单层长短期记忆网络和三层多层感知机作为自动编码器对时态数据潜在相空间中的结构进行分析。
8.根据权利要求1所述的基于拓扑分析的时空大数据潜在结构分析方法,其特征在于,通过自动重构嵌入和单延迟嵌入方法对调频模型获得的时间序列进行动态空间重构,并使用UMAP对重构结果的拓扑度量空间进行降维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110994340.0A CN113704641B (zh) | 2021-08-27 | 2021-08-27 | 一种基于拓扑分析的时空大数据潜在结构分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110994340.0A CN113704641B (zh) | 2021-08-27 | 2021-08-27 | 一种基于拓扑分析的时空大数据潜在结构分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113704641A true CN113704641A (zh) | 2021-11-26 |
CN113704641B CN113704641B (zh) | 2023-12-12 |
Family
ID=78655840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110994340.0A Active CN113704641B (zh) | 2021-08-27 | 2021-08-27 | 一种基于拓扑分析的时空大数据潜在结构分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704641B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101939991A (zh) * | 2007-01-23 | 2011-01-05 | 欧几里得发现有限责任公司 | 用于处理图像数据的计算机方法和装置 |
CN103795976A (zh) * | 2013-12-30 | 2014-05-14 | 北京正安融翰技术有限公司 | 一种全时空立体可视化方法 |
US20150066834A1 (en) * | 2012-03-04 | 2015-03-05 | Adam Jeffries | Data systems processing |
US20180253640A1 (en) * | 2017-03-01 | 2018-09-06 | Stc.Unm | Hybrid architecture system and method for high-dimensional sequence processing |
US20200327404A1 (en) * | 2016-03-28 | 2020-10-15 | Icahn School Of Medicine At Mount Sinai | Systems and methods for applying deep learning to data |
US20210334658A1 (en) * | 2019-01-08 | 2021-10-28 | Xi'an Jiaotong University | Method for performing clustering on power system operation modes based on sparse autoencoder |
-
2021
- 2021-08-27 CN CN202110994340.0A patent/CN113704641B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101939991A (zh) * | 2007-01-23 | 2011-01-05 | 欧几里得发现有限责任公司 | 用于处理图像数据的计算机方法和装置 |
US20150066834A1 (en) * | 2012-03-04 | 2015-03-05 | Adam Jeffries | Data systems processing |
CN103795976A (zh) * | 2013-12-30 | 2014-05-14 | 北京正安融翰技术有限公司 | 一种全时空立体可视化方法 |
US20200327404A1 (en) * | 2016-03-28 | 2020-10-15 | Icahn School Of Medicine At Mount Sinai | Systems and methods for applying deep learning to data |
US20180253640A1 (en) * | 2017-03-01 | 2018-09-06 | Stc.Unm | Hybrid architecture system and method for high-dimensional sequence processing |
US20210334658A1 (en) * | 2019-01-08 | 2021-10-28 | Xi'an Jiaotong University | Method for performing clustering on power system operation modes based on sparse autoencoder |
Non-Patent Citations (7)
Title |
---|
JAKUB ZAHRADNIK 等: "Spatio-temporal data classification using CVNNs", SIMULATION MODELLING PRACTICE AND THEORY, pages 81 - 88 * |
LEONARDO N. FERREIRA 等: "Spatiotemporal data analysis with chronological networks", pages 1, Retrieved from the Internet <URL:https://doi.org/10.1038/s41467-020-17634-2> * |
YONGLING LU 等: "Data Collection Study Based on Spatio-Temporal Correlation in Event-Driven Sensor Networks", pages 1, Retrieved from the Internet <URL:https://ieeexplore.ieee.org/document/8922696> * |
叶苏娴: "基于MongoDB的行为—事件的地理时空数据模型构建方法研究", 中国优秀硕士学位论文全文数据库 基础科学辑, no. 5, pages 008 - 48 * |
孟令奎, 赵春宇, 林志勇, 黄长青: "基于地理事件时变序列的时空数据模型研究与实现", 武汉大学学报(信息科学版), no. 02, pages 202 - 207 * |
张剑清 等: "摄影测量与遥感学", 测绘文摘, no. 01, pages 46 - 74 * |
李海峰: "面向区域目标侦察的异构空天地观测资源协同任务规划方法", 第五届高分辨率对地观测学术年会论文集, pages 133 - 143 * |
Also Published As
Publication number | Publication date |
---|---|
CN113704641B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Angra et al. | Machine learning and its applications: A review | |
Distante et al. | Handbook of image processing and computer vision | |
CN110188836B (zh) | 一种基于变分自编码器的脑功能网络分类方法 | |
Menafoglio et al. | Statistical analysis of complex and spatially dependent data: a review of object oriented spatial statistics | |
Ou et al. | A CNN framework with slow-fast band selection and feature fusion grouping for hyperspectral image change detection | |
Chen et al. | Repcd-net: Feature-aware recurrent point cloud denoising network | |
CN113392931B (zh) | 基于自监督学习及多任务学习的高光谱开放集分类方法 | |
Li et al. | A GCN-based method for extracting power lines and pylons from airborne LiDAR data | |
Zhang et al. | Complex image recognition algorithm based on immune random forest model | |
Li et al. | Spatiotemporal remote-sensing image fusion with patch-group compressed sensing | |
Di et al. | 3D face modeling algorithm for film and television animation based on lightweight convolutional neural network | |
Li et al. | HTDFormer: Hyperspectral target detection based on transformer with distributed learning | |
Xiao et al. | Feature-level image fusion | |
Belgrana et al. | A hybrid segmentation approach of brain magnetic resonance imaging using region-based active contour with a similarity factor and multi-population genetic algorithm | |
Huang et al. | Semi-Supervised HyperMatch-Driven Cross Temporal and Spatial Interaction Transformer for Hyperspectral Change Detection | |
CN113704641B (zh) | 一种基于拓扑分析的时空大数据潜在结构分析方法 | |
Zhou et al. | Dim and small target detection based on their living environment | |
Otero et al. | Intercomparison of deep learning architectures for the prediction of precipitation fields with a focus on extremes | |
Jamshidi et al. | Modeling multivariate time series on manifolds with skew radial basis functions | |
Shanqing et al. | A multi-level feature weight fusion model for salient object detection | |
Xu et al. | Multi-Scale Convolutional Mask Network for Hyperspectral Unmixing | |
Yang et al. | AAE-Dpeak-SC: A novel unsupervised clustering method for space target ISAR images based on adversarial autoencoder and density peak-spectral clustering | |
Liang et al. | Spectral clustering based on high‐frequency texture components for face datasets | |
Li et al. | BAFormer: A Novel Boundary-Aware Compensation UNet-like Transformer for High-Resolution Cropland Extraction | |
Takatsuka et al. | Encoding 3D structural information using multiple self-organizing feature maps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |