CN108921211A - 一种基于密度峰值聚类计算分形维数的方法 - Google Patents

一种基于密度峰值聚类计算分形维数的方法 Download PDF

Info

Publication number
CN108921211A
CN108921211A CN201810679855.XA CN201810679855A CN108921211A CN 108921211 A CN108921211 A CN 108921211A CN 201810679855 A CN201810679855 A CN 201810679855A CN 108921211 A CN108921211 A CN 108921211A
Authority
CN
China
Prior art keywords
data
density peaks
algorithm
time series
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810679855.XA
Other languages
English (en)
Inventor
周双
吴至友
杨志春
赵克全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Normal University
Original Assignee
Chongqing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Normal University filed Critical Chongqing Normal University
Priority to CN201810679855.XA priority Critical patent/CN108921211A/zh
Publication of CN108921211A publication Critical patent/CN108921211A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于密度峰值聚类算法计算分形维数的方法,属于信号处理领域。该方法包括以下步骤:S1:从实际工程中获得一维混沌时间序列信号;S2:利用k‑d树优化的GP算法,对采样到的时间序列数据进行预处理,得到关联积分对数集合;S3:对所得数据进行二阶差分,利用密度峰值聚类算法提取零波动数据;S4:选取零波动数据中连续自然数的区间进行统计分析,保留有效零波动数据;S5:利用最小二乘法对保留的数据进行拟合,计算出关联维数。本方法能够客观准确自动识别无标度区间,计算结果更加准确,过程简单,容易实现,对非线性应用具有重要的意义。

Description

一种基于密度峰值聚类计算分形维数的方法
技术领域
本发明属于信号处理领域,涉及一种基于密度峰值聚类计算分形维数的方法。
背景技术
分形维数是定量刻画非线性动力学的不规则程度重要指标,简称分维。目前,常见的分维主要有:盒子维数、信息维数、Hausdorff维数、Lyapunov维数、关联维数等,其中关联维数相对简单易于实现,已经广泛应用在天体物理、故障诊断、信号处理、水文预测等等。
在计算关联维数的过程中,需要人为选择无标度区间计算关联维数,而无标度区间是准确求得分形维数的重要保证,但往往采用主观识别,但误差较大,因此,需要一种客观自动识别无标度区间的方法来得到更加准确的关联维数。目前,主要有三种解决方法。第一种方法利用人的肉眼识别直线段作为无标度区间,虽然效率高,仍存在较大误差。第二种方法利用2-means方法找出无标度区间,但容易陷入局部最优解。第三种方法基于模拟退火遗传模糊C均值聚类算法识别无标度区间,但参数过多。而且第二种和第三种方法都需要人为给定类簇数目,因此会出现不准确的结果。基于以上问题,迫切需要一种比较客观简单易行自动识别无标度区间的方法,减少误差,提高GP算法计算关联维数的计算精度。
发明内容
有鉴于此,本发明的目的在于提供一种基于密度峰值聚类计算关联维数的方法,该方法用于解决实际混沌系统中计算分形维数的问题,采用GP算法求得关联积分对数集合,再结合基于密度峰值聚类算法对数据进行自动分类处理,这样既避免了人为选择无标度区间,又提高了计算精度。
为达到上述目的,本发明提供如下技术方案:
一种基于密度峰值聚类计算分形维数的方法,包括以下步骤:
S1:从实际工程中获得一维混沌时间序列信号;
S2:利用k-d树优化的GP算法,对采样到的时间序列数据进行预处理,得到关联积分对数集合;
S3:对所得数据进行二阶差分,利用密度峰值聚类算法提取零波动数据;
S4:选取零波动数据中连续自然数的区间进行统计分析,保留有效零波动数据,然后利用最小二乘法对保留的数据进行拟合,计算出关联维数。
进一步,所述步骤S2包括以下步骤:
S201:利用虚假邻近点法和互信息法,对时间序列{x(i),i=1,2,…,N}进行处理,分别计算出嵌入维数m和延迟时间τ;
S202:采用时间差法重构相空间,按间隔为τ从时间序列中取数作为矢量的分量,因而
构造出一批矢量,即X(t)=[x(t)x(t+τ)x(t+2τ)…x(t+(m-1)τ)],其中,t=1,2,…,M,m为嵌入维数,M为重构相空间中点的个数,M=n-(m-1)τ;
S203:利用K-Dimensional树算法,即k-d树算法,快速查找空间中小于指定半径的邻近点对,并计算关联积分其中||X(i)-X(j)||表示X(i)和X(j)之间的距离,
S204:计算出关联积分对数集合{lnC(r(j))}j∈K
进一步,所述步骤S3具体包括以下步骤:
S301:对数据{ln(r(j)),lnC(r(j))}j∈K进行二阶差分,得到一个新的集{ln(r(j)),lnC(r(j))”}j∈K
S302:计算{ln(r(j)),lnC(r(j))”}j∈K中每个数据点的局部密度其中di,j表示数据i和j之间的距离;dc表示截断距离;
S303:计算距离
S304:通过点对(ρi,δ(i))构造二维图,从此图中选出同时具有较大的ρi和δ(i)的点,此时的数据点i即为类簇中心,而离群点具有较小的ρi和较大的δ(i)值;
S305:类簇中心找到后,剩余的每个点被归属到它的有更高密度的最近邻所属类簇;
S306:选取类簇中心在零附近的数据集,并提取包含连续自然数指标对应的数据
进一步,所述步骤S4具体包括以下步骤:
S401:选取零波动数据中连续自然数的区间对应的数据集合
S402:对含有连续指标对应的数据分别计算相关系数;
S403:选取统计学中相关系数最大,保留通过统计检验的数据
S404:选取统计学中相关系数最大,保留通过统计检验的数据
S405:最后利用最小二乘法对数据进行拟合,求得的斜率即为关联维数。
本发明的有益效果在于:本发明充分利用关联积分曲线和无标度区间的几何特征,使用机器学习算法—基于密度峰值聚类算法,能够客观准确自动识别无标度区间,计算结果更加准确,同时该方法过程简单,容易实现。在实际应用中,该方法关联维数有着广泛的应用前景,例如该维数不仅可作为判别机械产品故障特性的有效量化指标,也可以揭示河流域地质灾害的时空分布特征,还可以更加有效准确的进行天气预测、故障诊断、雷达目标识别等。由于该方法可以更加准确的计算关联维数,对非线性应用具有重要的意义。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明所述方法流程图;
图2为关联积分对数图;
图3为关联积分对数的二阶差分波动分类图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
Henon是经典的混沌系统,其产生的混沌时间序列常被用来验证一些加密算法或者混沌特征指数的有效性,其方程可写为:
下面以具体实施例子来说明本发明的优越性。具体如下:如图1所示:
步骤一:对Henon方程,初值为[00],迭代次数为18000次,去掉前面暂态点,获得时间序列数据{x(i),i=1,2,…,10000}。
步骤二:如图2所示,利用k-d树优化的GP算法,对采样到的时间序列数据进行预处理,得到关联积分对数集合,具体分为以下五个步骤:
步骤201:利用自相关函数,对时间序列{x(i),i=1,2,…,10000}进行处理,延迟时间τ=1,嵌入维数m=12。
步骤202:采用时间差法重构相空间,按间隔为τ从时间序列中取数作为矢量的分量,因而构造出一批矢量,即X(t)=[x(t)x(t+1)x(t+2)…x(t+11)],其中,t=1,2,…,M,M为重构相空间矢量的个数,M=10000-(12-1)×1=9989。
步骤203:利用K-Dimensional树(简称k-d树)算法,快速查找空间中小于指定半径的邻近点对,并计算关联积分其中||X(i)-X(j)||表示X(i)和X(j)之间的距离,r=[e-4 e-4+0.25 e-4+2×0.25…0]。
步骤204:计算出关联积分对数集合{lnC(r(j))}j∈K
步骤三:如图3所示,对所得数据进行二阶差分,利用密度峰值聚类算法提取零波动数据,具体分为以下六个步骤:
步骤301:对数据{ln(r(j)),lnC(r(j))}j∈K进行二阶差分,得到一个新的集合{ln(r(j)),lnC(r(j))”}j∈K
步骤302:计算{ln(r(j)),lnC(r(j))”}j∈K中每个数据点的局部密度其中di,j表示数据i和j之间的距离;dc表示截断距离。
步骤303:计算距离
步骤304:通过点对(ρi,δ(i))构造二维图,从此图中选出同时具有较大的ρi和δ(i)的点,此时的数据点i即为类簇中心,而离群点具有较小的ρi和较大的δ(i)值。
步骤305:类簇中心找到后,剩余的每个点被归属到它的有更高密度的最近邻所属类簇。
步骤306:选取类簇中心在零附近的数据集,并提取包含连续自然数指标对应的数据
步骤四:选取零波动数据中连续自然数的区间进行统计分析,保留有效零波动数据,然后利用最小二乘法对保留的数据进行拟合,计算出关联维数,具体步骤如下:
步骤401:选取零波动数据中连续自然数的区间对应的数据集合
步骤402:对含有连续指标对应的数据分别计算相关系数;
步骤403:选取统计学中相关系数最大,保留通过统计检验的数据
步骤404:最后利用最小二乘法对数据进行拟合,求得的斜率即为关联维数。
通过仿真实验,实验结果如表1所示,本发明方法能够无需设置聚类数目,可以自动识别无标度区间计算关联维数,相比于主观识别法,更加接近参考值,结果更加准确。
表1
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其做出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (4)

1.一种基于密度峰值聚类计算分形维数的方法,其特征在于:该方法包括以下步骤:
S1:从实际工程中获得一维混沌时间序列信号;
S2:利用k-d树优化的GP算法,对采样到的时间序列数据进行预处理,得到关联积分对数集合;
S3:对所得数据进行二阶差分,利用密度峰值聚类算法提取零波动数据;
S4:选取零波动数据中连续自然数的区间进行统计分析,保留有效零波动数据,然后利用最小二乘法对保留的数据进行拟合,计算出关联维数。
2.根据权利要求1所述的一种基于密度峰值聚类计算分形维数的方法,其特征在于:所述步骤S2包括以下步骤:
S201:利用虚假邻近点法和互信息法,对时间序列{x(i),i=1,2,…,N}进行处理,分别计算出嵌入维数m和延迟时间τ;
S202:采用时间差法重构相空间,按间隔为τ从时间序列中取数作为矢量的分量,因而构造出一批矢量,即X(t)=[x(t) x(t+τ) x(t+2τ) … x(t+(m-1)τ)],其中,t=1,2,…,M,m为嵌入维数,M为重构相空间中点的个数,M=n-(m-1)τ;
S203:利用K-Dimensional树算法,即k-d树算法,快速查找空间中小于指定半径的邻近点对,并计算关联积分其中||X(i)-X(j)||表示X(i)和X(j)之间的距离,
S204:计算出关联积分对数集合{lnC(r(j))}j∈K
3.根据权利要求1所述的一种基于密度峰值聚类计算分形维数的方法,其特征在于:所述步骤S3具体包括以下步骤:
S301:对数据{ln(r(j)),lnC(r(j))}j∈K进行二阶差分,得到一个新的集{ln(r(j)),lnC(r(j))”}j∈K
S302:计算{ln(r(j)),lnC(r(j))”}j∈K中每个数据点的局部密度其中di,j表示数据i和j之间的距离;dc表示截断距离;
S303:计算距离
S304:通过点对(ρi,δ(i))构造二维图,从此图中选出同时具有较大的ρi和δ(i)的点,此时的数据点i即为类簇中心,而离群点具有较小的ρi和较大的δ(i)值;
S305:类簇中心找到后,剩余的每个点被归属到它的有更高密度的最近邻所属类簇;
S306:选取类簇中心在零附近的数据集,并提取包含连续自然数指标对应的数据
4.根据权利要求1所述的一种基于密度峰值聚类计算分形维数的方法,其特征在于:所述步骤S4具体包括以下步骤:
S401:选取零波动数据中连续自然数的区间对应的数据集合
S402:对含有连续指标对应的数据分别计算相关系数;
S403:选取统计学中相关系数最大,保留通过统计检验的数据
S404:选取统计学中相关系数最大,保留通过统计检验的数据
S405:最后利用最小二乘法对数据进行拟合,求得的斜率即为关联维数。
CN201810679855.XA 2018-06-27 2018-06-27 一种基于密度峰值聚类计算分形维数的方法 Pending CN108921211A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810679855.XA CN108921211A (zh) 2018-06-27 2018-06-27 一种基于密度峰值聚类计算分形维数的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810679855.XA CN108921211A (zh) 2018-06-27 2018-06-27 一种基于密度峰值聚类计算分形维数的方法

Publications (1)

Publication Number Publication Date
CN108921211A true CN108921211A (zh) 2018-11-30

Family

ID=64424025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810679855.XA Pending CN108921211A (zh) 2018-06-27 2018-06-27 一种基于密度峰值聚类计算分形维数的方法

Country Status (1)

Country Link
CN (1) CN108921211A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263825A (zh) * 2019-05-30 2019-09-20 湖南大学 数据聚类方法、装置、计算机设备和存储介质
CN110390253A (zh) * 2019-05-17 2019-10-29 天津大学 基于多种分形谱特征提取的通信信号调制方式识别方法
CN112131605A (zh) * 2020-09-24 2020-12-25 合肥城市云数据中心股份有限公司 一种基于互信息相关技术的差分隐私动态数据发布方法
CN116401561A (zh) * 2022-12-08 2023-07-07 国网湖北省电力有限公司信息通信公司 一种基于局部时域特征的设备级运行状态序列的时间关联聚类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390253A (zh) * 2019-05-17 2019-10-29 天津大学 基于多种分形谱特征提取的通信信号调制方式识别方法
CN110263825A (zh) * 2019-05-30 2019-09-20 湖南大学 数据聚类方法、装置、计算机设备和存储介质
CN110263825B (zh) * 2019-05-30 2022-05-10 湖南大学 数据聚类方法、装置、计算机设备和存储介质
CN112131605A (zh) * 2020-09-24 2020-12-25 合肥城市云数据中心股份有限公司 一种基于互信息相关技术的差分隐私动态数据发布方法
CN116401561A (zh) * 2022-12-08 2023-07-07 国网湖北省电力有限公司信息通信公司 一种基于局部时域特征的设备级运行状态序列的时间关联聚类方法
CN116401561B (zh) * 2022-12-08 2023-10-31 国网湖北省电力有限公司信息通信公司 一种设备级运行状态序列的时间关联聚类方法

Similar Documents

Publication Publication Date Title
CN112434169B (zh) 一种知识图谱的构建方法及其系统和计算机设备
CN108921211A (zh) 一种基于密度峰值聚类计算分形维数的方法
CN115271255B (zh) 基于知识图谱和机器学习的雨洪相似性分析方法和系统
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
CN111429977A (zh) 一种新的基于图结构注意力的分子相似性搜索算法
Zhang et al. Fuzzy analysis of community detection in complex networks
CN113076738A (zh) Gnn编码器及基于图上下文学习的异常点检测方法
CN107977461A (zh) 一种视频特征提取方法及装置
Wulandari et al. Algorithm analysis of K-means and fuzzy C-means for clustering countries based on economy and health
CN106126681A (zh) 一种增量式流式数据聚类方法及系统
CN111324641B (zh) 人员估计方法、装置及计算机可读存储介质和终端设备
CN112966728A (zh) 一种交易监测的方法及装置
CN112395401A (zh) 自适应负样本对采样方法、装置、电子设备及存储介质
CN115311271B (zh) 一种宫颈浸润癌细胞的智能识别方法
Bhattacharyya et al. Long term prediction of rainfall in Andhra Pradesh with Deep learning
CN115661472A (zh) 图像查重方法、装置、计算机设备及存储介质
CN114693698B (zh) 一种基于神经网络的计算机辅助肺气道分割方法
Muttaqien et al. Recommendation of Student Admission Priorities Using K-Means Clustering
Mishra et al. Discovering flood recession pattern in hydrological time series data mining during the post monsoon period
CN111768031A (zh) 一种基于arma算法预测人群聚集趋势的方法
CN113792749A (zh) 时间序列数据异常检测方法、装置、设备及存储介质
Wu et al. Research on top-k association rules mining algorithm based on clustering
CN108564422A (zh) 一种基于枸杞数据分析的系统
CN113220931B (zh) 一种歌单多标签推荐方法、系统、设备和存储介质
Chen et al. Operational scenario definition in traffic simulation-based decision support systems: Pattern recognition using a clustering algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181130