CN114970682A - 基于多项正则化约束的伪标签传播优化时间序列聚类方法 - Google Patents

基于多项正则化约束的伪标签传播优化时间序列聚类方法 Download PDF

Info

Publication number
CN114970682A
CN114970682A CN202210480838.XA CN202210480838A CN114970682A CN 114970682 A CN114970682 A CN 114970682A CN 202210480838 A CN202210480838 A CN 202210480838A CN 114970682 A CN114970682 A CN 114970682A
Authority
CN
China
Prior art keywords
pseudo
matrix
label
adjacency matrix
propagation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210480838.XA
Other languages
English (en)
Inventor
代成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202210480838.XA priority Critical patent/CN114970682A/zh
Publication of CN114970682A publication Critical patent/CN114970682A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于多项正则化约束的伪标签传播优化时间序列聚类方法,涉及工程应用与信息科学的交叉领域,该方法包括:采用动态优化的伪邻接矩阵作为时间序列之间的传播信息,并使其与真实邻接矩阵差异最小化;利用动态优化的伪标签分类器作为时间序列划分依据,并使其与伪邻接矩阵相结合得到与伪标签矩阵的差异最小化;利用正则化的伪邻接矩阵与伪标签分类器的动态优化学习作为约束条件,指导伪标签传播优化,并建立多目标优化函数,利用梯度下降策略使其快速收敛到最优解,实现时间序列聚类目的。本申请利用正则化约束为伪标签传播优化提供了有效信息,得到更好的时间序列聚类结果,充分利用了时间序列之间的相关性,提高了聚类精度与效率。

Description

基于多项正则化约束的伪标签传播优化时间序列聚类方法
技术领域
本发明涉及工程应用与信息科学的交叉领域,尤其是基于多项正则化约束的伪标签传播优化时间序列聚类方法。
背景技术
随着数据存储与处理技术的不断发展,现实生活中的应用数据可以随着时间推移一直被采集和存储,这就形成了具有时间顺序特性的时间序列数据,例如气象数据、金融数据(如股票价格)、生物信号数据(如脑电信号)等。可见,针对时间序列的分析可以应用到诸多场景,也是数据挖掘领域的研究热点,挖掘时间序列数据的规律有利于其在相关领域中的应用拓展,从而能更好地服务社会。随着诸如上述类型时间序列的与日剧增,无标签的时间序列也随之增加。有监督分析方法,如分类,依赖大量的数据先验知识,如数据标签,这类方法并不适用于缺少标签的时间序列数据。为了分析无标签时间序列数据,无监督分析技术,如聚类,是一种有效的解决策略,所以被广泛应用于分析处理这类无标签数据。同样,时间序列聚类也是数据挖掘领域的研究热点。针对具有一定规律或周期性特征的气象数据、金融数据,传统的无监督聚类方法种类繁多,也取得了相应的效果;但对于一些非周期性、信噪比弱、高振荡、高维度的时间序列而言,如脑电信号等,传统的聚类方法效果欠佳,这也为这类时间序列的分析和应用带来了新的挑战。
具体而言,利用聚类方法可以将具有较高相似度或较高相似模式的无标签时间序列划分到同一聚簇中,实现无标签时间序列的有效分析和标签化,从而提高和拓展这类数据在上述领域中的应用效力。如何将相似度较高或具有相似模式的时间序列高效准确地划分到相应聚类中,不仅需要一个有效的能充分利用时间序列自身相关性进行识别和学习的策略,还需要一个高效的解决方案来实施该学习策略。
发明内容
本发明人针对上述问题及技术需求,提出了基于多项正则化约束的伪标签传播优化时间序列聚类方法,为无标签时间序列数据,例如气象数据、金融数据、脑电信号等类型的数据分析提供一种新的解决方案。该方法充分利用时间序列之间的有效信息传播,构建由多项正则化约束的多目标优化函数,对无标签时间序列进行聚类。该方法充分利用了时间序列之间的相互关系,解决了传统聚类算法未能充分利用时间序列数据自身关系以及过于依赖中心选择、特征选择导致的聚类性能差的问题。
本发明的技术方案如下:
一种基于多项正则化约束的伪标签传播优化时间序列聚类方法,包括如下步骤:
计算由原始时间序列相似度构成的真实邻接矩阵,并用其初始化n条无标签时间序列的伪邻接矩阵、伪标签、伪标签分类器和伪标签传播矩阵;
将由伪邻接矩阵与伪标签分类器正则化约束的伪标签传播优化模型转化为一个多项正则化约束的多目标优化函数;
计算时间序列相似度拉普拉斯矩阵,并对多目标优化函数进行偏导来更新伪邻接矩阵、伪标签分类器、伪标签传播矩阵和伪标签;
获取两次迭代更新后得到的多目标优化函数值的差值,若差值未达到收敛阈值,则重复计算时间序列相似度拉普拉斯矩阵的步骤,直至满足收敛要求,输出时间序列聚类结果。
其进一步技术方案为,伪邻接矩阵的正则化约束条件为:
Figure BDA0003627764630000021
该约束的意义为:利用最小化伪邻接矩阵与真实邻接矩阵之间的误差作为约束,该约束能为伪标签传播过程提供符合实际情况的传播信息,有利于得到符合实际情况的伪邻接矩阵,从而有利于无标签时间序列的聚类;
其中,
Figure BDA0003627764630000022
为伪邻接矩阵,
Figure BDA0003627764630000023
为真实邻接矩阵,||·||F为Frobenius范数;1n=[1,…,1]T
Figure BDA0003627764630000024
表示为:与伪邻接矩阵相关的拉普拉斯矩阵中特征值为0的个数与聚类个数相同,故用来约束拉普拉斯矩阵,获得满足条件的聚类;
Figure BDA0003627764630000025
为拉普拉斯矩阵,n为无标签时间序列的个数,c为聚类个数。
其进一步技术方案为,伪标签分类器的正则化约束条件为:
Figure BDA0003627764630000031
该约束的意义为:通过最小化伪标签正则化误差,学习最优伪标签分类器
Figure BDA0003627764630000032
并约束伪标签传播优化进行时间序列聚类;
其中,
Figure BDA0003627764630000033
为伪标签矩阵;
Figure BDA0003627764630000034
为伪邻接矩阵;γ为正则化参数,用以平衡伪标签分类器权重;||·||F为Frobenius范数;WTS1n=1n用以归一化伪标签分类器与伪邻接矩阵,1n=[1,…,1]T
其进一步技术方案为,伪标签传播优化模型包括:
Figure BDA0003627764630000035
其中,
Figure BDA0003627764630000036
为无标签时间序列相似度构成的拉普拉斯矩阵,即
Figure BDA0003627764630000037
Figure BDA0003627764630000038
为伪邻接矩阵的度矩阵,
Figure BDA0003627764630000039
为伪邻接矩阵;
Figure BDA00036277646300000310
为伪标签矩阵;
Figure BDA00036277646300000311
为伪标签传播矩阵;γ为正则化参数,用以平衡模型中的约束权重;||·||F为Frobenius范数。
其进一步技术方案为,计算时间序列相似度拉普拉斯矩阵,并对多目标优化函数进行偏导来更新伪邻接矩阵,包括:
计算第t次迭代更新后的伪邻接矩阵的拉普拉斯矩阵,记为
Figure BDA00036277646300000312
其中Dt为第t次更新的伪邻接矩阵的度矩阵,St为第t次更新的伪邻接矩阵;
计算多目标优化函数关于伪邻接矩阵的偏导,表达式为:
Figure BDA00036277646300000313
其中,
Figure BDA00036277646300000314
为多目标优化函数,S为伪邻接矩阵,M为真实邻接矩阵,P为伪标签传播矩阵,L为伪标签矩阵,W为伪标签分类器,
Figure BDA00036277646300000315
为拉普拉斯矩阵;γ124为正则化参数,用以平衡各约束项的权重;
根据多项正则化约束的多目标优化函数的约束条件:S1n=1n,得到伪邻接矩阵的度矩阵D=diag(S1n)=I,其中diag为矩阵的对角矩阵函数,进而得到伪邻接矩阵的拉普拉斯矩阵为
Figure BDA00036277646300000316
得到:
Figure BDA00036277646300000317
根据伪标签传播矩阵最优解P*的表达式
Figure BDA00036277646300000318
得到:
Figure BDA00036277646300000319
最终,伪邻接矩阵的第i+1次更新由梯度下降策略实现,即:
Figure BDA0003627764630000041
其中η为学习率;将第t次迭代更新的拉普拉斯矩阵和t-1次迭代更新的伪标签传播矩阵、伪标签分类器、伪标签以及真实邻接矩阵代入上式的偏导项中更新伪邻接矩阵;
重复计算偏导的步骤,直到迭代次数达到上限imax为止,并得到第t+1次迭代更新的伪邻接矩阵为St+1=Simax+1,其中,imax为梯度下降优化伪邻接矩阵的最大迭代次数;同时,结合第t+1次更新的伪邻接矩阵,更新拉普拉斯矩阵为
Figure BDA0003627764630000042
其进一步技术方案为,对多目标优化函数进行偏导来更新伪标签分类器,包括:
计算多目标优化函数关于伪标签分类器的偏导,表达式为:
Figure BDA0003627764630000043
其中,γ3为正则化参数,用以平衡各约束项的权重;
Figure BDA0003627764630000044
得到伪标签分类器的最优解W*为:
W*=γ22SST3I)-1SLT
将第t+1次迭代更新的伪邻接矩阵St+1和t次迭代更新的伪标签Lt代入最优解W*中,得到伪标签分类器的第t+1次迭代更新策略为:
Figure BDA0003627764630000045
其进一步技术方案为,对多目标优化函数进行偏导来更新伪标签传播矩阵,包括:
计算多目标优化函数关于伪标签传播矩阵的偏导,表达式为:
Figure BDA0003627764630000046
Figure BDA0003627764630000047
得到伪标签传播矩阵的最优解P*为:
Figure BDA0003627764630000048
将第t+1次迭代更新的拉普拉斯矩阵
Figure BDA0003627764630000049
与第t次迭代更新的伪标签Lt代入最优解P*中,得到伪标签传播矩阵的第t+1次更新策略为:
Figure BDA00036277646300000410
其进一步技术方案为,对多目标优化函数进行偏导来更新伪标签,包括:
计算多目标优化函数关于伪标签的偏导,表达式为:
Figure BDA0003627764630000051
根据伪标签传播矩阵最优解P*的表达式
Figure BDA0003627764630000052
得到:
Figure BDA0003627764630000053
Figure BDA0003627764630000054
得到伪标签的最优解L*为:
Figure BDA0003627764630000055
将第t+1次迭代更新的伪邻接矩阵St+1和拉普拉斯矩阵
Figure BDA0003627764630000056
第t+1次迭代更新的伪标签分类器Wt+1代入最优解L*中,得到伪标签的第t+1次更新策略为:
Figure BDA0003627764630000057
其进一步技术方案为,初始化n条无标签时间序列的伪邻接矩阵、伪标签、伪标签分类器和伪标签传播矩阵,包括:
将n条无标签时间序列的伪邻接矩阵初始化为真实邻接矩阵,记为S0=M,并利用S01n=M1n=1n将初始化的伪邻接矩阵归一化,其中:S0为初始化的伪邻接矩阵,且
Figure BDA0003627764630000058
M为真实邻接矩阵,1n=[1,…,1]T
设无标签时间序列聚类个数为c,采用聚类算法将n条无标签时间序列初步分配到c个聚类中,得到初始化的伪标签记为
Figure BDA0003627764630000059
结合初始化的伪标签和真实邻接矩阵,将伪标签分类器初始化为W0=(L0M-1)T,其中:W0为初始化的伪标签分类器,且
Figure BDA00036277646300000510
结合初始化的伪邻接矩阵和初始化的伪标签,将伪标签传播矩阵初始化为P0=(1-α)L0(I-αS0)-1,其中:I为单位矩阵,α为平衡权重,P0为初始化的伪标签传播矩阵,且
Figure BDA00036277646300000511
其进一步技术方案为,将由伪邻接矩阵与伪标签分类器正则化约束的伪标签传播优化模型转化为一个多项正则化约束的多目标优化函数,包括:
定义由多项正则化约束的多目标优化函数表达式为:
Figure BDA00036277646300000512
该多目标优化函数的意义为:基于伪标签传播优化模型建立多项正则化约束下的多目标优化模型,以确保时间序列之间的信息传播正确性与聚类准确性,函数中的前两项为正则化的伪标签传播矩阵优化学习目标,用以在时间序列相似度构成的伪邻接矩阵的优化约束下得到接近真实结果的伪标签;第三、四项为正则化约束的伪标签分类器优化学习目标,用于在时间序列相似度构成的伪邻接矩阵约束下学习得到最优的伪标签;最后一项为正则化的时间序列相似度构成的伪邻接矩阵优化学习目标,用以学习接近原始时间序列相似度构成的真实邻接矩阵的伪邻接矩阵,同时也为优化伪标签传播矩阵与伪标签分类器提供所需的传播信息。
本发明的有益技术效果是:
本发明从无监督分析角度,对无标签时间序列进行聚类,基于正则化约束,提出了一种基于多项正则化约束的伪标签传播优化时间序列聚类方法。利用时间序列相似度伪邻接矩阵与伪标签分类器进行优化约束,充分利用时间序列之间的相关性,为伪标签传播矩阵的优化提供更符合实际、更有效、更准确的信息;并将该多项正则化约束的伪标签传播优化模型转化为一个高效的多目标优化函数;利用梯度下降策略求解该目标函数的最优解,最后实现无标签时间序列的高效、高质量聚类;该方法适合用于多种时间序列数据的聚类分析,包括气象数据、金融数据、生物信号如脑电信号等。
附图说明
图1是本申请提供的方法总体流程图。
图2是本申请提供的伪标签、伪标签传播矩阵、伪标签分类器和伪邻接矩阵的初始化流程图。
图3是本申请提供的伪邻接矩阵、伪标签分类器、伪标签传播矩阵和伪标签的迭代更新流程图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
本发明针对无标签、误标记时间序列进行聚类分析,采用动态优化的伪相似度邻接矩阵作为时间序列之间的传播信息,使其与最初时间序列相似度真实邻接矩阵差异最小化,并用其约束伪标签传播优化学习模型,该约束充分利用了时间序列之间的相互关系及信息传播;利用动态优化伪标签分类器,使其与伪标签矩阵的差异最小化,并同样用其约束伪标签传播优化学习模型,该约束有利于引导伪标签传播矩阵的优化过程,提供更有利于聚类的分类器,最终实现时间序列的聚类目的。
如图1所示,一种基于多项正则化约束的伪标签传播优化时间序列聚类方法,具体包括如下步骤:
步骤1:计算由原始时间序列相似度构成的真实邻接矩阵。
利用距离衡量方法或相似度衡量方法计算原始时间序列之间的相似度,如欧式距离、高斯距离、改进的皮尔逊相关系数、互相关衡量、动态时间规整等;利用S1n=1n,1n=[1,…,1]T将其归一化,得到原始时间序列相似度构成的真实邻接矩阵。
步骤2:初始化n条无标签时间序列的伪邻接矩阵、伪标签、伪标签分类器和伪标签传播矩阵。
本发明将时间序列聚类转化为一个多项正则化约束的多目标优化函数,包括伪标签、伪标签传播矩阵、伪标签分类器和伪邻接矩阵多个变量,一个良好的变量初始化能更高效地、更准确地帮助目标函数收敛到最优解,从而得到最优聚类结果,初始化的详细流程如图2所示,具体包括:
(21)作为多目标优化函数中的一个正则化约束条件,即,使得伪邻接矩阵S与真实邻接矩阵M之间的误差最小化,故将n条无标签时间序列的伪邻接矩阵初始化为真实邻接矩阵,记为S0=M,并利用S01n=M1n=1n将初始化的伪邻接矩阵归一化,其中:S0为初始化的伪邻接矩阵,且
Figure BDA0003627764630000071
M为真实邻接矩阵,1n=[1,…,1]T
(22)设无标签时间序列聚类个数为c,采用聚类算法将n条无标签时间序列初步分配到c个聚类中,得到初始化的伪标签记为
Figure BDA0003627764630000072
可选的,聚类算法为k-means算法或其他一些高效的聚类算法。
(23)作为多目标优化函数中的一个正则化约束条件,伪标签分类器的优化学习可提升时间序列之间的信息传播可信度,并最终将n条时间序列更准确地划分到c个聚类中,结合初始化的伪标签和真实邻接矩阵,将伪标签分类器初始化为W0=(L0M-1)T,其中:W0为初始化的伪标签分类器,且
Figure BDA0003627764630000073
(24)结合初始化的伪邻接矩阵和初始化的伪标签,将伪标签传播矩阵初始化为P0=(1-α)L0(I-αS0)-1,其中:I为单位矩阵,α为平衡权重,通常情况下设定α=0.99;P0为初始化的伪标签传播矩阵,且
Figure BDA0003627764630000074
具体的:
迭代t次计算伪标签传播矩阵
Figure BDA0003627764630000075
Pt=αPt-1S+(1-α)L;
其中,
Figure BDA0003627764630000076
为伪邻接矩阵;
Figure BDA0003627764630000077
为伪标签矩阵,即时间序列标签指示器,其定义为:对于一个c聚类问题,当一条时间序列xi划分到第j类中,则有Lij=1,否则Lij=0。在迭代优化过程中,L也会不断更新;0<α<1为权重参数,用以平衡伪标签传播矩阵更新与伪标签之间的权重。
为了不失一般性,定义P0=L,上述式子的迭代更新过程等价为:
Figure BDA0003627764630000081
利用极限求解策略,因为0<α<1,
Figure BDA0003627764630000082
以及
Figure BDA0003627764630000083
其中I为单位矩阵;最终得到伪标签传播矩阵:
P=(1-α)L(I-αS)-1
步骤3:将由伪邻接矩阵与伪标签分类器正则化约束的伪标签传播优化模型转化为一个多项正则化约束的多目标优化函数。
(31)伪邻接矩阵的正则化约束条件为:
Figure BDA0003627764630000084
该约束的意义为:利用最小化伪邻接矩阵与真实邻接矩阵之间的误差作为约束,该约束能为伪标签传播过程提供符合实际情况的传播信息,有利于得到符合实际情况的伪邻接矩阵,从而有利于无标签时间序列的聚类。
其中,
Figure BDA0003627764630000085
为真实邻接矩阵,||·||F为Frobenius范数;1n=[1,…,1]T
Figure BDA0003627764630000086
表示为:与伪邻接矩阵相关的拉普拉斯矩阵中特征值为0的个数与聚类个数相同,故用来约束拉普拉斯矩阵,获得满足条件的聚类;
Figure BDA0003627764630000087
为拉普拉斯矩阵,n为无标签时间序列的个数,c为聚类个数。
(32)伪标签分类器的正则化约束条件为:
Figure BDA0003627764630000088
该约束的意义为:通过最小化伪标签正则化误差,学习最优伪标签分类器
Figure BDA0003627764630000089
并约束伪标签传播优化进行时间序列聚类。
其中,γ为正则化参数,用以平衡伪标签分类器权重;WTS1n=1n用以归一化伪标签分类器与伪邻接矩阵。
(33)为了充分利用时间序列之间的相关性,更好地划分无标签时间序列,利用正则化约束来指导伪标签传播矩阵的优化学习,从而构成正则化伪标签传播优化模型为:
Figure BDA00036277646300000810
(34)根据步骤(31)(32)(33),由伪邻接矩阵与伪标签分类器约束的伪标签传播优化学习模型转化为一个多项正则化约束的多目标优化函数来实现时间序列聚类,表达式为:
Figure BDA0003627764630000091
该多目标优化函数的意义为:基于伪标签传播优化模型建立多项正则化约束下的多目标优化模型,以确保时间序列之间的信息传播正确性与聚类准确性,函数中的前两项为正则化的伪标签传播矩阵优化学习目标,用以在时间序列相似度构成的伪邻接矩阵的优化约束下得到接近真实结果的伪标签;第三、四项为正则化约束的伪标签分类器优化学习目标,用于在时间序列相似度构成的伪邻接矩阵约束下学习得到最优的伪标签;最后一项为正则化的时间序列相似度构成的伪邻接矩阵优化学习目标,用以学习接近原始时间序列相似度构成的真实邻接矩阵的伪邻接矩阵,同时也为优化伪标签传播矩阵与伪标签分类器提供所需的传播信息。其中,γ1234为正则化参数,用以平衡各约束项的权重。
步骤4:计算时间序列相似度拉普拉斯矩阵,并对多目标优化函数进行偏导来更新伪邻接矩阵、伪标签分类器、伪标签传播矩阵和伪标签。
本发明提出的多项正则化约束的伪标签传播优化时间序列聚类方法,由一个多项正则化约束的多目标优化函数来实现,在该目标函数求解过程中需要不断迭代更新伪邻接矩阵、伪标签分类器、伪标签传播矩阵和伪标签,更新的详细流程如图3所示,具体包括:
(41)计算第t次迭代更新后的伪邻接矩阵的拉普拉斯矩阵,为更新伪邻接矩阵、伪标签传播矩阵和伪标签做准备。
拉普拉斯矩阵记为
Figure BDA0003627764630000092
其中Dt为第t次更新的伪邻接矩阵的度矩阵,St为第t次更新的伪邻接矩阵。
(42)计算多目标优化函数关于伪邻接矩阵的偏导,表达式为:
Figure BDA0003627764630000093
根据多项正则化约束的多目标优化函数的约束条件:S1n=1n,得到伪邻接矩阵的度矩阵D=diag(S1n)=I,其中diag为矩阵的对角矩阵函数,进而得到伪邻接矩阵的拉普拉斯矩阵为
Figure BDA0003627764630000094
得到:
Figure BDA0003627764630000095
根据伪标签传播矩阵最优解P*的表达式
Figure BDA0003627764630000101
得到:
Figure BDA0003627764630000102
最终,伪邻接矩阵的第i+1次更新由梯度下降策略实现,即:
Figure BDA0003627764630000103
其中η为学习率,通常为一个非常小的数值,如0.01等;将第t次迭代更新的拉普拉斯矩阵和t-1次迭代更新的伪标签传播矩阵、伪标签分类器、伪标签以及真实邻接矩阵代入上式的偏导项中更新伪邻接矩阵。
重复计算偏导的步骤,直到迭代次数达到上限imax为止,并得到第t+1次迭代更新的伪邻接矩阵为St+1=Simax+1,其中,imax为梯度下降优化伪邻接矩阵的最大迭代次数;同时,结合第t+1次更新的伪邻接矩阵,更新拉普拉斯矩阵为
Figure BDA0003627764630000104
(43)计算多目标优化函数关于伪标签分类器的偏导,表达式为:
Figure BDA0003627764630000105
Figure BDA0003627764630000106
得到伪标签分类器的最优解W*为:
W*=γ22SST3I)-1SLT
将第t+1次迭代更新的伪邻接矩阵St+1和t次迭代更新的伪标签Lt代入最优解W*中,得到伪标签分类器的第t+1次迭代更新策略为:
Figure BDA0003627764630000107
(44)计算多目标优化函数关于伪标签传播矩阵的偏导,表达式为:
Figure BDA0003627764630000108
Figure BDA0003627764630000109
得到伪标签传播矩阵的最优解P*为:
Figure BDA00036277646300001010
将第t+1次迭代更新的拉普拉斯矩阵
Figure BDA00036277646300001011
与第t次迭代更新的伪标签Lt代入最优解P*中,得到伪标签传播矩阵的第t+1次更新策略为:
Figure BDA00036277646300001012
(45)计算多目标优化函数关于伪标签的偏导,表达式为:
Figure BDA00036277646300001013
根据伪标签传播矩阵最优解P*的表达式
Figure BDA00036277646300001014
得到:
Figure BDA00036277646300001015
Figure BDA0003627764630000111
得到伪标签的最优解L*为:
Figure BDA0003627764630000112
将第t+1次迭代更新的伪邻接矩阵St+1和拉普拉斯矩阵
Figure BDA0003627764630000113
第t+1次迭代更新的伪标签分类器Wt+1代入最优解L*中,得到伪标签的第t+1次更新策略为:
Figure BDA0003627764630000114
步骤5:根据步骤4的更新策略,获取两次迭代更新后得到的多目标优化函数值的差值来判断函数是否收敛。若差值未达到收敛阈值,则重复步骤4,直至满足收敛要求,输出时间序列聚类结果。
在本实施例中,正则化的伪邻接矩阵与伪标签分类器为伪标签传播优化模型提供了有效信息,利于伪标签传播优化得到更好的时间序列聚类结果,充分利用了时间序列之间的相关性,无需其他信息辅助聚类,无需搜寻聚类中心,克服了传统聚类方法未能充分利用时间序列自身信息以及过分依赖聚类中心搜寻策略的问题,提高了时间序列聚类精度与效率。本发明适用于包括传统气象数据、金融数据、生物脑电信号数据等多种时间序列的聚类,具有普适性。
以上所述的仅是本申请的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。

Claims (10)

1.一种基于多项正则化约束的伪标签传播优化时间序列聚类方法,其特征在于,所述方法包括:
计算由原始时间序列相似度构成的真实邻接矩阵,并用其初始化n条无标签时间序列的伪邻接矩阵、伪标签、伪标签分类器和伪标签传播矩阵;
将由伪邻接矩阵与伪标签分类器正则化约束的伪标签传播优化模型转化为一个多项正则化约束的多目标优化函数;
计算时间序列相似度拉普拉斯矩阵,并对所述多目标优化函数进行偏导来更新所述伪邻接矩阵、伪标签分类器、伪标签传播矩阵和伪标签;
获取两次迭代更新后得到的多目标优化函数值的差值,若所述差值未达到收敛阈值,则重复所述计算时间序列相似度拉普拉斯矩阵的步骤,直至满足收敛要求,输出时间序列聚类结果。
2.根据权利要求1所述的伪标签传播优化时间序列聚类方法,其特征在于,所述伪邻接矩阵的正则化约束条件为:
Figure FDA0003627764620000011
该约束的意义为:利用最小化伪邻接矩阵与真实邻接矩阵之间的误差作为约束,该约束能为伪标签传播过程提供符合实际情况的传播信息,有利于得到符合实际情况的伪邻接矩阵,从而有利于无标签时间序列的聚类;
其中,
Figure FDA0003627764620000012
为伪邻接矩阵,
Figure FDA0003627764620000013
为所述真实邻接矩阵,||·||F为Frobenius范数;1n=[1,…,1]T
Figure FDA0003627764620000014
表示为:与伪邻接矩阵相关的拉普拉斯矩阵中特征值为0的个数与聚类个数相同,故用来约束所述拉普拉斯矩阵,获得满足条件的聚类;
Figure FDA0003627764620000015
为所述拉普拉斯矩阵,n为无标签时间序列的个数,c为聚类个数。
3.根据权利要求1所述的伪标签传播优化时间序列聚类方法,其特征在于,所述伪标签分类器的正则化约束条件为:
Figure FDA0003627764620000016
该约束的意义为:通过最小化伪标签正则化误差,学习最优伪标签分类器
Figure FDA0003627764620000021
并约束伪标签传播优化进行时间序列聚类;
其中,
Figure FDA0003627764620000022
为伪标签矩阵;
Figure FDA0003627764620000023
为伪邻接矩阵;γ为正则化参数,用以平衡伪标签分类器权重;||·||F为Frobenius范数;WTS1n=1n用以归一化伪标签分类器与伪邻接矩阵,1n=[1,…,1]T
4.根据权利要求1所述的伪标签传播优化时间序列聚类方法,其特征在于,所述伪标签传播优化模型包括:
Figure FDA0003627764620000024
其中,
Figure FDA0003627764620000025
为无标签时间序列相似度构成的拉普拉斯矩阵,即
Figure FDA0003627764620000026
Figure FDA0003627764620000027
为伪邻接矩阵的度矩阵,
Figure FDA0003627764620000028
为伪邻接矩阵;
Figure FDA0003627764620000029
为伪标签矩阵;
Figure FDA00036277646200000210
为伪标签传播矩阵;γ为正则化参数,用以平衡模型中的约束权重;||·||F为Frobenius范数。
5.根据权利要求1所述的伪标签传播优化时间序列聚类方法,其特征在于,计算时间序列相似度拉普拉斯矩阵,并对所述多目标优化函数进行偏导来更新所述伪邻接矩阵,包括:
计算第t次迭代更新后的伪邻接矩阵的拉普拉斯矩阵,记为
Figure FDA00036277646200000211
其中Dt为第t次更新的伪邻接矩阵的度矩阵,St为第t次更新的伪邻接矩阵;
计算所述多目标优化函数关于所述伪邻接矩阵的偏导,表达式为:
Figure FDA00036277646200000212
其中,
Figure FDA00036277646200000213
为所述多目标优化函数,S为伪邻接矩阵,M为真实邻接矩阵,P为伪标签传播矩阵,L为伪标签矩阵,W为伪标签分类器,
Figure FDA00036277646200000214
为拉普拉斯矩阵;γ124为正则化参数,用以平衡各约束项的权重;
根据多项正则化约束的多目标优化函数的约束条件:S1n=1n,得到所述伪邻接矩阵的度矩阵D=diag(S1n)=I,其中diag为矩阵的对角矩阵函数,进而得到所述伪邻接矩阵的拉普拉斯矩阵为
Figure FDA00036277646200000215
得到:
Figure FDA00036277646200000216
根据伪标签传播矩阵最优解P*的表达式
Figure FDA00036277646200000217
得到:
Figure FDA00036277646200000218
最终,伪邻接矩阵的第i+1次更新由梯度下降策略实现,即:
Figure FDA00036277646200000219
其中η为学习率;将第t次迭代更新的拉普拉斯矩阵和t-1次迭代更新的伪标签传播矩阵、伪标签分类器、伪标签以及所述真实邻接矩阵代入上式的偏导项中更新伪邻接矩阵;
重复计算偏导的步骤,直到迭代次数达到上限imax为止,并得到第t+1次迭代更新的伪邻接矩阵为
Figure FDA00036277646200000311
其中,imax为梯度下降优化伪邻接矩阵的最大迭代次数;同时,结合第t+1次更新的伪邻接矩阵,更新拉普拉斯矩阵为
Figure FDA0003627764620000031
6.根据权利要求5所述的伪标签传播优化时间序列聚类方法,其特征在于,对所述多目标优化函数进行偏导来更新所述伪标签分类器,包括:
计算所述多目标优化函数关于所述伪标签分类器的偏导,表达式为:
Figure FDA0003627764620000032
其中,γ3为正则化参数,用以平衡各约束项的权重;
Figure FDA0003627764620000033
得到伪标签分类器的最优解W*为:
W*=γ22SST3I)-1SLT
将第t+1次迭代更新的伪邻接矩阵St+1和t次迭代更新的伪标签Lt代入最优解W*中,得到所述伪标签分类器的第t+1次迭代更新策略为:
Figure FDA0003627764620000034
7.根据权利要求5所述的伪标签传播优化时间序列聚类方法,其特征在于,对所述多目标优化函数进行偏导来更新所述伪标签传播矩阵,包括:
计算所述多目标优化函数关于所述伪标签传播矩阵的偏导,表达式为:
Figure FDA0003627764620000035
Figure FDA0003627764620000036
得到伪标签传播矩阵的最优解P*为:
Figure FDA0003627764620000037
将第t+1次迭代更新的拉普拉斯矩阵
Figure FDA0003627764620000038
与第t次迭代更新的伪标签Lt代入最优解P*中,得到所述伪标签传播矩阵的第t+1次更新策略为:
Figure FDA0003627764620000039
8.根据权利要求6所述的伪标签传播优化时间序列聚类方法,其特征在于,对所述多目标优化函数进行偏导来更新所述伪标签,包括:
计算所述多目标优化函数关于所述伪标签的偏导,表达式为:
Figure FDA00036277646200000310
根据伪标签传播矩阵最优解P*的表达式
Figure FDA0003627764620000041
得到:
Figure FDA0003627764620000042
Figure FDA0003627764620000043
得到伪标签的最优解L*为:
Figure FDA0003627764620000044
将第t+1次迭代更新的伪邻接矩阵St+1和拉普拉斯矩阵
Figure FDA0003627764620000045
第t+1次迭代更新的伪标签分类器Wt+1代入最优解L*中,得到所述伪标签的第t+1次更新策略为:
Figure FDA0003627764620000046
9.根据权利要求1所述的伪标签传播优化时间序列聚类方法,其特征在于,初始化n条无标签时间序列的伪邻接矩阵、伪标签、伪标签分类器和伪标签传播矩阵,包括:
将n条无标签时间序列的伪邻接矩阵初始化为所述真实邻接矩阵,记为S0=M,并利用S01n=M1n=1n将初始化的伪邻接矩阵归一化,其中:S0为所述初始化的伪邻接矩阵,且
Figure FDA0003627764620000047
M为所述真实邻接矩阵,1n=[1,…,1]T
设无标签时间序列聚类个数为c,采用聚类算法将所述n条无标签时间序列初步分配到c个聚类中,得到初始化的伪标签记为
Figure FDA0003627764620000048
结合所述初始化的伪标签和真实邻接矩阵,将伪标签分类器初始化为W0=(L0M-1)T,其中:W0为初始化的伪标签分类器,且
Figure FDA0003627764620000049
结合所述初始化的伪邻接矩阵和初始化的伪标签,将伪标签传播矩阵初始化为P0=(1-α)L0(I-αS0)-1,其中:I为单位矩阵,α为平衡权重,P0为初始化的伪标签传播矩阵,且
Figure FDA00036277646200000410
10.根据权利要求1-8任一所述的伪标签传播优化时间序列聚类方法,其特征在于,所述将由伪邻接矩阵与伪标签分类器正则化约束的伪标签传播优化模型转化为一个多项正则化约束的多目标优化函数,包括:
定义由多项正则化约束的多目标优化函数表达式为:
Figure FDA00036277646200000411
该多目标优化函数的意义为:基于伪标签传播优化模型建立多项正则化约束下的多目标优化模型,以确保时间序列之间的信息传播正确性与聚类准确性,函数中的前两项为正则化的伪标签传播矩阵优化学习目标,用以在时间序列相似度构成的伪邻接矩阵的优化约束下得到接近真实结果的伪标签;第三、四项为正则化约束的伪标签分类器优化学习目标,用于在时间序列相似度构成的伪邻接矩阵约束下学习得到最优的伪标签;最后一项为正则化的时间序列相似度构成的伪邻接矩阵优化学习目标,用以学习接近原始时间序列相似度构成的真实邻接矩阵的伪邻接矩阵,同时也为优化伪标签传播矩阵与伪标签分类器提供所需的传播信息。
CN202210480838.XA 2022-05-05 2022-05-05 基于多项正则化约束的伪标签传播优化时间序列聚类方法 Pending CN114970682A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210480838.XA CN114970682A (zh) 2022-05-05 2022-05-05 基于多项正则化约束的伪标签传播优化时间序列聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210480838.XA CN114970682A (zh) 2022-05-05 2022-05-05 基于多项正则化约束的伪标签传播优化时间序列聚类方法

Publications (1)

Publication Number Publication Date
CN114970682A true CN114970682A (zh) 2022-08-30

Family

ID=82981480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210480838.XA Pending CN114970682A (zh) 2022-05-05 2022-05-05 基于多项正则化约束的伪标签传播优化时间序列聚类方法

Country Status (1)

Country Link
CN (1) CN114970682A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257768A (zh) * 2023-03-24 2023-06-13 江南大学 适于有限标签约束的半监督脑电信号聚类方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257768A (zh) * 2023-03-24 2023-06-13 江南大学 适于有限标签约束的半监督脑电信号聚类方法及系统

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
Huang et al. Local descriptor-based multi-prototype network for few-shot learning
Xue et al. DIOD: Fast and efficient weakly semi-supervised deep complex ISAR object detection
US7724961B2 (en) Method for classifying data using an analytic manifold
Han et al. SRAL: Shared representative appearance learning for long-term visual place recognition
CN111612051B (zh) 一种基于图卷积神经网络的弱监督目标检测方法
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN116403058B (zh) 一种遥感跨场景多光谱激光雷达点云分类方法
CN113723492B (zh) 一种改进主动深度学习的高光谱图像半监督分类方法及装置
CN112199532A (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN114155443A (zh) 一种基于多感受野图注意力网络的高光谱图像分类方法
CN111291705B (zh) 一种跨多目标域行人重识别方法
CN114970682A (zh) 基于多项正则化约束的伪标签传播优化时间序列聚类方法
CN113222072A (zh) 基于K-means聚类和GAN的肺部X光图像分类方法
CN115439715A (zh) 基于反标签学习的半监督少样本图像分类学习方法及系统
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN107423697A (zh) 基于非线性融合深度3d卷积描述子的行为识别方法
CN112560949B (zh) 基于多级统计学特征提取的高光谱分类方法
Zhu et al. Multiview latent space learning with progressively fine-tuned deep features for unsupervised domain adaptation
CN116579120A (zh) 一种基于综合法的日风电出力序列场景生成方法
CN115329821A (zh) 一种基于配对编码网络和对比学习的舰船噪声识别方法
Chen et al. Learning discriminative feature via a generic auxiliary distribution for unsupervised domain adaptation
CN113033641B (zh) 一种高维数据半监督分类方法
US20080320014A1 (en) Discriminative Feature Selection System Using Active Mining Technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination