CN114266321A - 一种基于无约束先验信息模式的弱监督模糊聚类算法 - Google Patents
一种基于无约束先验信息模式的弱监督模糊聚类算法 Download PDFInfo
- Publication number
- CN114266321A CN114266321A CN202111661326.5A CN202111661326A CN114266321A CN 114266321 A CN114266321 A CN 114266321A CN 202111661326 A CN202111661326 A CN 202111661326A CN 114266321 A CN114266321 A CN 114266321A
- Authority
- CN
- China
- Prior art keywords
- membership
- unconstrained
- prior
- standard
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 238000002372 labelling Methods 0.000 claims abstract description 9
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 13
- 230000008569 process Effects 0.000 abstract description 12
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及弱监督学习技术领域,且公开了一种基于无约束先验信息模式的弱监督模糊聚类算法,包括以下步骤:S1:定义概念,定义标准模式、无约束先验隶属度、强标准模式、弱标准模式的概念;S2:获取无约束专家标注先验隶属度矩阵;S3:设计基于无约束先验信息模式的目标函数;S4:对目标函数运用拉格朗日乘数法求解;S5:设计聚类算法。本发明适用无约束先验信息,利用先验信息与后验信息的交叉熵测度作为正则项指导监督学习,可以有效解决传统弱监督聚类算法无法使用无约束先验信息的问题,提高无约束先验信息利用效率,利用交叉熵测度,有效利用专家标注信息标注,指导聚类过程,提高聚类结果准确性。
Description
技术领域
本发明涉及弱监督学习技术领域,具体为一种基于无约束先验信息模式的弱监督模糊聚类算法。
背景技术
模式识别问题,需要根据样本特征将样本划分到一定的类别中。而实际中所使用的样本集往往既包含标记样本又包含无标记样本,因而可以通过弱监督聚类有效利用标记信息获得更好的聚类效果。基于先验隶属度信息的弱监督模糊聚类是一类模式识别方法。但传统的弱监督模糊聚类算法是在模式间相互独立的假设下建立的,对于模式间存在相近特征的情况,原有的先验隶属度信息不能体现模式间这种特性。
现有公布的弱监督模糊聚类技术方案包括以下几种:发明专利号:CN201210128475.X公开了一种基于熵权模糊聚类的渗漏通道探测方法,利用熵权法处理“信息流”数据,利用模糊聚类算法进行聚类。定量地确定样本的亲疏关系,从而客观地划分类型,并为最终准确判定渗漏通道的位置提供科学依据;发明专利号:CN201710394919.7本涉及一种子集分组半监督模糊聚类方法,以用户对多个不同子集的分组信息作为聚类指导。模糊聚类矩阵分解时不仅考虑分解误差,还同时考虑缩小子集中对象的分组和其近邻集中对象的分组的差别以及增大与远邻集中对象分组的差别,不需要过大的数目的约束就能达到满意的效果,在实际应用中聚类迅速,效率高,人工成本低;此类专利存在以下不足:未考虑利用先验信息指导算法学习过程,采用标签为成对约束标签,不涉及无约束先验隶属度指导学习过程,没考虑标注信息不可靠的情况下,先验信息对聚类结果的影响,不能满足人们的要求,因此提出一种基于无约束先验信息模式的弱监督模糊聚类算法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于无约束先验信息模式的弱监督模糊聚类算法,解决了未考虑利用先验信息指导算法学习过程,采用标签为成对约束标签,不涉及无约束先验隶属度指导学习过程,没考虑标注信息不可靠的情况下,先验信息对聚类结果的影响,不能满足人们的要求的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
一种基于无约束先验信息模式的弱监督模糊聚类算法,包括以下步骤:
S1:定义概念,定义标准模式、无约束先验隶属度、强标准模式、弱标准模式的概念;
S2:获取无约束专家标注先验隶属度矩阵,专家为样本XL={x1,x2,...,xn}标注无约束先验隶属度构造无约束先验隶属度矩阵其中为c个标准模式,为样本xj对标准模式模式的先验隶属度,ρ为专家偏好系数,且存在样本xk,使得
通过拉格朗日乘数法最小化L(U,V,γ):
得到后验隶属度uij和聚类中心vi的表达式:
S5:设计聚类算法,设计sFCM-HC算法,进行计算。
作为本发明再进一步的方案,所述S1中标注先验隶属度时,给定了多个具有类簇代表性的样本,作为对样本标注隶属度时的参考标准,定义给定的具有类簇代表性的样本为标准模式,标准模式可由已建立的标准数据库中提取得到。
进一步的,所述S1中标准模式能在一定程度上反应其所代表类簇的特征,若标准模式具有很强的类簇代表性,模式之间相对独立且存在较大差异,定义为强标准模式,若标准模式具有较弱的类别代表性,模式之间可存在重合或特征的部分特征,定义为弱标准模式。
在前述方案的基础上,所述S1中传统的先验隶属度标签,是基于参考标准为强模式的假设下标注的,此时先验隶属度满足的约束条件,而强模式的获取是有成本的,弱模式则是普遍存在的,而当参考标准为弱模式时,对于部分样本xi可能存在的情况,即无法满足满足的约束条件,无约束先验隶属度不满足约束条件,且针对未标注样本的先验隶属度利用专家偏好系数ρ进行填补。
进一步的,所述S3式中第1项为FCM的目标函数,第2项关于后验隶属度uij和无约束先验隶属度的KL散度正则项,当第1项最小化时,uij隶属度为0或1,当第2项最小化时,uj隶属度分布与隶属度分布相似,如果是λ=0,则sFCM-HC退化为FCM。
在前述方案的基础上,所述S5中算法步骤如下:nput:样本数n,样本维度d,类簇数c,ε迭代终止条件;数据集X,最大迭代次数T;初始隶属度U(0),先验隶属度矩阵平衡参数λ,Output:类簇中心矩阵V,后验隶属度矩阵U,Repeat:根据(4)式更新类簇中心矩阵根据(5)式更新隶属度矩阵Until:||U(t+1)-U(t)||≤ε,||V(t+1)-V(t)||≤εor t=T。
(三)有益效果
与现有技术相比,本发明提供了一种基于无约束先验信息模式的弱监督模糊聚类算法,具备以下有益效果:
1、本发明中,有效适用于弱监督学习的业务场景,利用交叉熵测度,有效利用专家标注信息标注,指导聚类过程,提高聚类结果的准确性。
2、本发明中,适用无约束先验信息,利用先验信息与后验信息的交叉熵测度作为正则项指导监督学习。
3、本发明中,可以有效解决传统弱监督聚类算法无法使用无约束先验信息的问题,提高无约束先验信息利用效率,利用交叉熵测度,有效利用专家标注信息标注,指导聚类过程,提高聚类结果准确性。
4、本发明中,针对未标注样本的先验隶属度利用专家偏好系数ρ进行填补,得到能准确表征标准模式信息的先验隶属度,扩大标注量,降低标注成本的问题。
附图说明
图1为本发明提出的一种基于无约束先验信息模式的弱监督模糊聚类算法的流程结构示意图;
图2为本发明提出的一种基于无约束先验信息模式的弱监督模糊聚类算法的sFCM-HC算法流程结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1-2,一种基于无约束先验信息模式的弱监督模糊聚类算法,包括以下步骤:
S1:定义概念,定义标准模式、无约束先验隶属度、强标准模式、弱标准模式的概念;
S2:获取无约束专家标注先验隶属度矩阵,专家为样本XL={x1,x2,...,xn}标注无约束先验隶属度构造无约束先验隶属度矩阵其中为c个标准模式,为样本xj对标准模式模式的先验隶属度,ρ为专家偏好系数,且存在样本xk,使得
其中,后验隶属度μij满足约束条件和μij∈[0,1],先验隶属度仅满足条件,λ≥0是一个平衡参数,有效适用于弱监督学习的业务场景,利用交叉熵测度,有效利用专家标注信息标注,指导聚类过程,提高聚类结果的准确性;
通过拉格朗日乘数法最小化L(U,V,γ):
得到后验隶属度uij和聚类中心vi的表达式:
S5:设计聚类算法,设计sFCM-HC算法,进行计算,可以有效解决传统弱监督聚类算法无法使用无约束先验信息的问题,提高无约束先验信息利用效率,利用交叉熵测度,有效利用专家标注信息标注,指导聚类过程,提高聚类结果准确性。
本发明的S1中标注先验隶属度时,给定了多个具有类簇代表性的样本,作为对样本标注隶属度时的参考标准,定义给定的具有类簇代表性的样本为标准模式,标准模式可由已建立的标准数据库中提取得到,S1中标准模式能在一定程度上反应其所代表类簇的特征,若标准模式具有很强的类簇代表性,模式之间相对独立且存在较大差异,定义为强标准模式,若标准模式具有较弱的类别代表性,模式之间可存在重合或特征的部分特征,定义为弱标准模式,S1中传统的先验隶属度标签,是基于参考标准为强模式的假设下标注的,此时先验隶属度满足的约束条件,而强模式的获取是有成本的,弱模式则是普遍存在的,而当参考标准为弱模式时,对于部分样本xi可能存在的情况,即无法满足满足的约束条件,无约束先验隶属度不满足约束条件,且针对未标注样本的先验隶属度利用专家偏好系数ρ进行填补,得到能准确表征标准模式信息的先验隶属度,扩大标注量,降低标注成本的问题。
尤其的,S3式中第1项为FCM的目标函数,第2项关于后验隶属度uij和无约束先验隶属度的KL散度正则项,当第1项最小化时,uij隶属度为0或1,当第2项最小化时,uj隶属度分布与隶属度分布相似,如果是λ=0,则sFCM-HC退化为FCM,S5中算法步骤如下:nput:样本数n,样本维度d,类簇数c,ε迭代终止条件;数据集X,最大迭代次数T;初始隶属度U(0),先验隶属度矩阵平衡参数λ,Output:类簇中心矩阵V,后验隶属度矩阵U,Repeat:根据(4)式更新类簇中心矩阵根据(5)式更新隶属度矩阵Until:||U(t+1)-U(t)||≤ε,||V(t+1)-V(t)||≤εor t=T。
在该文中的描述中,需要说明的是,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于无约束先验信息模式的弱监督模糊聚类算法,其特征在于,包括以下步骤:
S1:定义概念,定义标准模式、无约束先验隶属度、强标准模式、弱标准模式的概念;
S2:获取无约束专家标注先验隶属度矩阵,专家为样本XL={x1,x2,...,xn}标注无约束先验隶属度构造无约束先验隶属度矩阵U%(V0,ρ),其中为c个标准模式,为样本xj对标准模式模式的先验隶属度,ρ为专家偏好系数,且存在样本xk,使得
通过拉格朗日乘数法最小化L(U,V,γ):
得到后验隶属度uij和聚类中心vi的表达式:
S5:设计聚类算法,设计sFCM-HC算法,进行计算。
2.根据权利要求1所述的一种基于无约束先验信息模式的弱监督模糊聚类算法,其特征在于,所述S1中标注先验隶属度时,给定了多个具有类簇代表性的样本,作为对样本标注隶属度时的参考标准,定义给定的具有类簇代表性的样本为标准模式,标准模式可由已建立的标准数据库中提取得到。
3.根据权利要求2所述的一种基于无约束先验信息模式的弱监督模糊聚类算法,其特征在于,所述S1中标准模式能在一定程度上反应其所代表类簇的特征,若标准模式具有很强的类簇代表性,模式之间相对独立且存在较大差异,定义为强标准模式,若标准模式具有较弱的类别代表性,模式之间可存在重合或特征的部分特征,定义为弱标准模式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111661326.5A CN114266321A (zh) | 2021-12-31 | 2021-12-31 | 一种基于无约束先验信息模式的弱监督模糊聚类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111661326.5A CN114266321A (zh) | 2021-12-31 | 2021-12-31 | 一种基于无约束先验信息模式的弱监督模糊聚类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114266321A true CN114266321A (zh) | 2022-04-01 |
Family
ID=80831915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111661326.5A Pending CN114266321A (zh) | 2021-12-31 | 2021-12-31 | 一种基于无约束先验信息模式的弱监督模糊聚类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114266321A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115392376A (zh) * | 2022-08-25 | 2022-11-25 | 广东工业大学 | 一种异源模糊隶属度矩阵标注方法、系统及装置 |
CN115859059A (zh) * | 2022-08-25 | 2023-03-28 | 广东工业大学 | 一种模糊信息的可重复标注方法、系统及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102266223A (zh) * | 2010-06-01 | 2011-12-07 | 四川大学华西医院 | 基于磁共振静息态功能成像的疼痛评定系统 |
US20140079297A1 (en) * | 2012-09-17 | 2014-03-20 | Saied Tadayon | Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities |
CN105787935A (zh) * | 2016-02-22 | 2016-07-20 | 辽宁工程技术大学 | 一种基于Gamma分布的模糊聚类SAR图像分割方法 |
CN108038511A (zh) * | 2017-12-25 | 2018-05-15 | 江苏江大智慧科技有限公司 | 修正聚类假设联合成对约束半监督分类方法 |
CN108399340A (zh) * | 2018-03-06 | 2018-08-14 | 中国民航大学 | 基于改进fahp和云模型的机载网络安全风险评估方法 |
CN110503138A (zh) * | 2019-08-06 | 2019-11-26 | 哈尔滨理工大学 | 一种基于熵和距离加权的多视角模糊聚类算法 |
US20200184278A1 (en) * | 2014-03-18 | 2020-06-11 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
US11069082B1 (en) * | 2015-08-23 | 2021-07-20 | AI Incorporated | Remote distance estimation system and method |
CN113409335A (zh) * | 2021-06-22 | 2021-09-17 | 西安邮电大学 | 基于强弱联合半监督直觉模糊聚类的图像分割方法 |
-
2021
- 2021-12-31 CN CN202111661326.5A patent/CN114266321A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102266223A (zh) * | 2010-06-01 | 2011-12-07 | 四川大学华西医院 | 基于磁共振静息态功能成像的疼痛评定系统 |
US20140079297A1 (en) * | 2012-09-17 | 2014-03-20 | Saied Tadayon | Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities |
US20200184278A1 (en) * | 2014-03-18 | 2020-06-11 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
US11069082B1 (en) * | 2015-08-23 | 2021-07-20 | AI Incorporated | Remote distance estimation system and method |
CN105787935A (zh) * | 2016-02-22 | 2016-07-20 | 辽宁工程技术大学 | 一种基于Gamma分布的模糊聚类SAR图像分割方法 |
CN108038511A (zh) * | 2017-12-25 | 2018-05-15 | 江苏江大智慧科技有限公司 | 修正聚类假设联合成对约束半监督分类方法 |
CN108399340A (zh) * | 2018-03-06 | 2018-08-14 | 中国民航大学 | 基于改进fahp和云模型的机载网络安全风险评估方法 |
CN110503138A (zh) * | 2019-08-06 | 2019-11-26 | 哈尔滨理工大学 | 一种基于熵和距离加权的多视角模糊聚类算法 |
CN113409335A (zh) * | 2021-06-22 | 2021-09-17 | 西安邮电大学 | 基于强弱联合半监督直觉模糊聚类的图像分割方法 |
Non-Patent Citations (2)
Title |
---|
ZHIFENG HAO ET AL.: "Pairwise-Constraints Based Semi-Supervised Fuzzy Clustering with Entropy Regularization", 《2020 3RD INTERNATIONAL CONFERENCE ON ADVANCED ELECTRONIC MATERIALS, COMPUTERS AND SOFTWARE ENGINEERING (AEMCSE)》 * |
毕安琪: "有/无约束代表点聚类、迁移分类及应用研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115392376A (zh) * | 2022-08-25 | 2022-11-25 | 广东工业大学 | 一种异源模糊隶属度矩阵标注方法、系统及装置 |
CN115859059A (zh) * | 2022-08-25 | 2023-03-28 | 广东工业大学 | 一种模糊信息的可重复标注方法、系统及装置 |
CN115392376B (zh) * | 2022-08-25 | 2024-02-02 | 广东工业大学 | 一种异源模糊隶属度矩阵标注方法、系统及装置 |
CN115859059B (zh) * | 2022-08-25 | 2024-03-22 | 广东工业大学 | 一种模糊信息的可重复标注方法、系统及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105608471B (zh) | 一种鲁棒直推式标签估计及数据分类方法和系统 | |
CN109101938B (zh) | 一种基于卷积神经网络的多标签年龄估计方法 | |
CN114266321A (zh) | 一种基于无约束先验信息模式的弱监督模糊聚类算法 | |
CN105354595A (zh) | 一种鲁棒视觉图像分类方法及系统 | |
CN110942091A (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN111914696A (zh) | 一种基于迁移学习的高光谱遥感影像分类方法 | |
CN108596204B (zh) | 一种基于改进型scdae的半监督调制方式分类模型的方法 | |
CN113269647A (zh) | 基于图的交易异常关联用户检测方法 | |
CN108877947A (zh) | 基于迭代均值聚类的深度样本学习方法 | |
CN117153268A (zh) | 一种细胞类别确定方法及系统 | |
CN114723994A (zh) | 一种基于双分类器对抗增强网络的高光谱图像分类方法 | |
CN114692732A (zh) | 一种在线标签更新的方法、系统、装置及存储介质 | |
CN115189942A (zh) | 一种伪标签引导下的多视角共识图半监督网络入侵检测系统 | |
CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及系统 | |
CN114596726B (zh) | 基于可解释时空注意力机制的停车泊位预测方法 | |
CN116206208B (zh) | 一种基于人工智能的林业病虫害快速分析系统 | |
CN112465016A (zh) | 基于最优劣距的部分多标记学习方法 | |
CN117036760A (zh) | 一种基于图对比学习的多视图聚类模型实现方法 | |
CN114863291B (zh) | 基于mcl和光谱差异度量的高光谱影像波段选择方法 | |
CN109409415A (zh) | 一种基于全局信息保持的lle算法 | |
CN115310491A (zh) | 一种基于深度学习的类不平衡磁共振全脑数据分类方法 | |
CN108304546B (zh) | 一种基于内容相似度和Softmax分类器的医学图像检索方法 | |
CN112967755A (zh) | 一种面向单细胞rna测序数据的细胞类型识别方法 | |
CN112347162A (zh) | 一种基于在线学习的多元时序数据规则挖掘方法 | |
CN111581467A (zh) | 基于子空间表示和全局消歧方法的偏标记学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220401 |