CN106295688A - 一种基于稀疏均值的模糊聚类方法 - Google Patents
一种基于稀疏均值的模糊聚类方法 Download PDFInfo
- Publication number
- CN106295688A CN106295688A CN201610629774.XA CN201610629774A CN106295688A CN 106295688 A CN106295688 A CN 106295688A CN 201610629774 A CN201610629774 A CN 201610629774A CN 106295688 A CN106295688 A CN 106295688A
- Authority
- CN
- China
- Prior art keywords
- average
- sparse
- class
- method based
- clustering method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于稀疏均值的模糊聚类方法,将待聚类的文档用向量空间模型表示为高维稀疏向量,设置参数,初始化均值,基于当前均值更新所有隶属度的值,更新权重,然后基于隶属度更新对应的均值,当对应的均值不再变化或迭代次数最大时迭代结束,输出聚类结果,否则重复。本发明通过稀疏均值使得均值也就是类中心点和样本点一样具有局域稀疏特性,增加基于样本点和均值欧氏距离来描述样本点和类相似性的有效性,在时间上更加高效,产生具有稀疏特性的均值使得类中心点更加自然地代表稀疏样本点的特性,同时为了增加对均值的稀疏性的控制,还在目标函数中加入均值范数的正则项以得到新的最小化目标函数,使得可以更加快速的求解。
Description
技术领域
本发明属于计算;推算;计数的技术领域,特别涉及一种为高维稀疏数据设计的基于稀疏均值的模糊聚类方法。
背景技术
在很多领域的现实问题中,需要借助有效的聚类方法对高维稀疏数据集中的对象进行分组从而分析数据的内在结构并挖掘有用知识来帮助人们进一步决策,比如对新闻文档进行分组来检测其中包含的话题。
模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法,其比起硬聚类的优势是借助模糊集理论引入模糊隶属度的概念,从而能够自然的描述类之间的重叠性。
然而,根据统计学理论,在向量空间中对潜在概率分布的正确估计需要的样本数会随着维度的增加成指数增长,这使得传统的模糊聚类对高维数据如文本数据的处理结果并不是很好,同时,传统的模糊k均值算法基于欧氏距离来衡量样本点到类中心点的距离,在没有任何约束的情况下,高维稀疏数据的均值并非稀疏,这导致样本点(高维稀疏向量)和均值(高维非稀疏向量)之间的欧氏距离不能有效衡量样本点与类之间的相似性。
发明内容
本发明解决的技术问题是,现有技术中,在向量空间中对潜在概率分布的正确估计需要的样本数会随着维度的增加成指数增长,同时,传统的模糊k均值算法基于欧氏距离来衡量样本点到类中心点的距离,在没有任何约束的情况下,高维稀疏数据的均值并非稀疏,而导致的传统的模糊聚类对高维数据如文本数据的处理结果并不是很好,样本点(高维稀疏向量)和均值(高维非稀疏向量)之间的欧氏距离不能有效衡量样本点与类之间的相似性的问题,进而提供了一种优化的基于稀疏均值的模糊聚类方法。
本发明所采用的技术方案是,一种基于稀疏均值的模糊聚类方法,所述方法包括以下步骤:
步骤1.1:将待聚类的文档用向量空间模型表示为高维稀疏向量X={x1,x2,…xn},其中每个样本点为s维向量,即xi∈Rs,s>0,1≤i≤n;n为样本总数,n>0;
步骤1.2:设置参数,所述参数包括类数k、模糊化系数m、初始正则项权重β0、结束判断参数ε及最大迭代次数T;0<k<n,1<m<2;β0>0;设定带有均值l1范数正则项的最小化目标函数其中,uci表示第i个样本到第c个类的隶属度,δc表示第c个类的均值;
步骤1.3:初始化均值,得到与最后结果相近的k个初始均值分别为[δ1,δ2,…δk];计迭代次数l=1;
步骤1.4:基于当前均值,利用式更新所有隶属度的值,1≤c≤k;
步骤1.5:对每一类c=1,2,…,k,更新权重β,然后基于步骤1.4的隶属度uci更新对应的k个均值;
步骤1.6:当对应的k个均值不再变化或迭代次数l>T,迭代结束;否则重复步骤1.3;
步骤1.7:输出聚类结果。
优选地,所述步骤1.2中,最小化目标函数应当同时满足的约束条件为:对所有c和i满足uci≥0,对所有i,
优选地,所述步骤1.2中,模糊化系数m≤1.2。
优选地,所述步骤1.2中,初始正则项权重β0≤10。
优选地,所述步骤1.5中,基于步骤1.4的隶属度uci更新权重β,
优选地,所述步骤1.5中,采用式更新对应的k个均值,其中,sign(δ′c)返回该向量中对应元素的符号。
优选地,所述步骤1.5中,选出每个δc中权重最大的字符作为关键词用于描述或解释该类别。
优选地,所述步骤1.6中,当时,迭代结束。
优选地,所述步骤1.7中,所述聚类结果为k个均值和记录所有样本到类的隶属度矩阵U。
优选地,所述步骤1.7中,将隶属度矩阵U中的每个样本k分配给隶属度最大的类,得到每个样本点k的类标签。
本发明提供了一种优化的基于稀疏均值的模糊聚类方法,通过稀疏均值使得均值也就是类中心点和样本点一样具有局域稀疏特性,增加了基于样本点和均值欧氏距离来描述样本点和类相似性的有效性,在时间上更加高效,产生具有稀疏特性的均值使得类中心点更加自然地代表稀疏样本点的特性,同时为了增加对k个均值的稀疏性的控制,本发明还在目标函数中加入均值l1范数的正则项以得到新的最小化目标函数,使得可以更加快速的求解。
附图说明
图1为本发明的流程图;
图2为本发明中设置不同稀疏度正则权重时得到的Newsgroups数据的以F-measure衡量的聚类结果,其中FSCM为本发明的基于稀疏均值的模糊聚类方法,FCM为传统模糊均值聚类方法。
具体实施方式
下面结合实施例对本发明做进一步的详细描述,但本发明的保护范围并不限于此。
如图所示,本发明涉及一种基于稀疏均值的模糊聚类方法,所述方法包括以下步骤:
步骤1.1:将待聚类的文档用向量空间模型表示为高维稀疏向量X={x1,x2,…xn},其中每个样本点为s维向量,即xi∈Rs,s>0,1≤i≤n;n为样本总数,n>0;
步骤1.2:设置参数,所述参数包括类数k、模糊化系数m、初始正则项权重β0、结束判断参数ε及最大迭代次数T;0<k<n,1<m<2;β0>0;设定带有均值l1范数正则项的最小化目标函数:其中,uci表示第i个样本到第c个类的隶属度,δc表示第c个类的均值;
步骤1.3:初始化均值,得到与最后结果相近的k个初始均值分别为[δ1,δ2,…δk];计迭代次数l=1;
步骤1.4:基于当前均值,利用式更新所有隶属度的值,1≤c≤k;
步骤1.5:对每一类c=1,2,…,k,更新权重β,然后基于步骤1.4的隶属度uci更新对应的k个均值;
步骤1.6:当对应的k个均值不再变化或迭代次数l>T,迭代结束;否则重复步骤1.3;
步骤1.7:输出聚类结果。
以下以实施例说明。
为了增加对k个均值的稀疏性的控制,本发明提出在目标函数中加入均值l1范数的正则项得到新的最小化目标函数,使用正则项而非约束是为了更加快速地求解。具体为利用迭代算法求以下最小化问题,最小化目标函数为其应当同时满足的约束条件为:对所有c和i满足uci≥0,对所有i,
步骤1.1:把待聚类的Newsgroups文档以向量空间模型表示。进行词干提取(stemming)和删除停用词(stop word removing)的预处理后,保留信息增益最大的1000个词,即每个xi对应一个1000维向量。实施例中的文档数据来自comp.graphics(计算机.图形)、rec.motocycles(娱乐.摩托车)、rec.sports.baseball(娱乐.体育.棒球)、sci.space(科学.宇宙)、talk.politics.mideast(对话.政治.中东)这5个类别的Newsgroups新闻文本数据,其中每个类别分别选择100个样本组成总共包含500个样本的数据集。
步骤1.2:
设置类的数目k为5,一般情况下k的数目远小于总的样本数n。
设置模糊化参数m以及正则项初始权重β0,在实际应用中,m为控制隶属度模糊程度参数,m越大,隶属度越模糊,m的值一般为1<m<2,对于文本归类问题,建议m≤1.2;β0>0,由于β0的设定值越大则稀疏度越大,但是β0过大又会导致结果偏离正常,对于Newsgroups数据,β0可以设置在5-15间,图2中结果说明在实施例中,β0≤10都能取得比传统方法更好的结果。
设置结束判断参数ε和最大迭代次数T,一般情况下,ε的取值为10-5≤ε≤10-3,T的取值为80≤T≤120,如ε=10-5,T=100。
步骤1.3:初始化均值,为了得到与最后结果相对接近的k个初始均值[δ1,δ2,…δk],选择k个彼此相距较远的样本点作为各个类的初始均值。
具体做法为:先随机产生1个样本点做为其中一个初始均值,然后根据与已选样本点中最近的距离的最大值来逐个产生剩下的k-1个样本点做为类的均值。记迭代次数l=1;即,k个均值的初始值在选择的时候就尽量接近最后得到的k个均值,则算法最后的输出就是k个均值。
步骤1.4:基于当前均值,利用式更新所有隶属度矩阵中的值。
步骤1.5:
对每一类c=1,2,…,k,更新权重β,本发明中即随着迭代的进行,各个均值k更加接近最后的解,对稀疏度的控制通过正则项的权重β随着迭代地进行而逐渐减少。具体做法是在每次迭代时,β以的速度减少。
一般情况下,选出每个δc中权重最大的字符作为关键词用于描述或解释该类别。
随后,基于隶属度uci以式更新对应的k个均值。
步骤1.6:判断是否需要继续执行迭代,一旦满足以下两个条件之一则迭代结束。
条件一:均值几乎不再变化。用两次迭代结果的l2范数来衡量均值的变化,当k个均值中最大的变化小于设定参数ε,即时,可认为均值无变化。
条件二:实际迭代次数已经超过最大的迭代次数T。
如果以上两个条件均不满足则回到步骤1.3重复进行。
步骤1.7:输出聚类结果,即每个类的均值和记录所有样本到类的隶属度矩阵。
步骤1.7中,聚类结果为k个均值和记录所有样本到类的隶属度矩阵U。
步骤1.7中,将隶属度矩阵U中的每个样本k分配给隶属度最大的类,得到每个样本点k的类标签。
Claims (10)
1.一种基于稀疏均值的模糊聚类方法,其特征在于:所述方法包括以下步骤:
步骤1.1:将待聚类的文档用向量空间模型表示为高维稀疏向量X={x1,x2,…xn},其中每个样本点为s维向量,即xi∈Rs,s>0,1≤i≤n;n为样本总数,n>0;
步骤1.2:设置参数,所述参数包括类数k、模糊化系数m、初始正则项权重β0、结束判断参数ε及最大迭代次数T;0<k<n,1<m<2;β0>0;设定带有均值l1范数正则项的最小化目标函数其中,uci表示第i个样本到第c个类的隶属度,δc表示第c个类的均值;
步骤1.3:初始化均值,得到与最后结果相近的k个初始均值分别为[δ1,δ2,…δk];计迭代次数l=1;
步骤1.4:基于当前均值,利用式更新所有隶属度的值,1≤c≤k;
步骤1.5:对每一类c=1,2,…,k,更新权重β,然后基于步骤1.4的隶属度uci更新对应的k个均值;
步骤1.6:当对应的k个均值不再变化或迭代次数l>T,迭代结束;否则重复步骤1.3;
步骤1.7:输出聚类结果。
2.根据权利要求1所述的一种基于稀疏均值的模糊聚类方法,其特征在于:所述步骤1.2中,最小化目标函数应当同时满足的约束条件为:对所有c和i满足uci≥0,对所有i,
3.根据权利要求1所述的一种基于稀疏均值的模糊聚类方法,其特征在于:所述步骤1.2中,模糊化系数m≤1.2。
4.根据权利要求1所述的一种基于稀疏均值的模糊聚类方法,其特征在于:所述步骤1.2中,初始正则项权重β0≤10。
5.根据权利要求1所述的一种基于稀疏均值的模糊聚类方法,其特征在于:所述步骤1.5中,基于步骤1.4的隶属度uci更新权重β,
6.根据权利要求5所述的一种基于稀疏均值的模糊聚类方法,其特征在于:所述步骤1.5中,采用式更新对应的k个均值,其中,sign(δc')返回该向量中对应元素的符号。
7.根据权利要求5所述的一种基于稀疏均值的模糊聚类方法,其特征在于:所述步骤1.5中,选出每个δc中权重最大的字符作为关键词用于描述或解释该类别。
8.根据权利要求1所述的一种基于稀疏均值的模糊聚类方法,其特征在于:所述步骤1.6中,当时,迭代结束。
9.根据权利要求1所述的一种基于稀疏均值的模糊聚类方法,其特征在于:所述步骤1.7中,所述聚类结果为k个均值和记录所有样本到类的隶属度矩阵U。
10.根据权利要求9所述的一种基于稀疏均值的模糊聚类方法,其特征在于:所述步骤1.7中,将隶属度矩阵U中的每个样本k分配给隶属度最大的类,得到每个样本点k的类标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610629774.XA CN106295688B (zh) | 2016-08-02 | 2016-08-02 | 一种基于稀疏均值的模糊聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610629774.XA CN106295688B (zh) | 2016-08-02 | 2016-08-02 | 一种基于稀疏均值的模糊聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106295688A true CN106295688A (zh) | 2017-01-04 |
CN106295688B CN106295688B (zh) | 2019-10-18 |
Family
ID=57664621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610629774.XA Active CN106295688B (zh) | 2016-08-02 | 2016-08-02 | 一种基于稀疏均值的模糊聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106295688B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329954A (zh) * | 2017-06-29 | 2017-11-07 | 浙江工业大学 | 一种基于文档内容和相互关系的主题检测方法 |
CN107633444A (zh) * | 2017-08-29 | 2018-01-26 | 南京理工大学紫金学院 | 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法 |
CN109002858A (zh) * | 2018-07-23 | 2018-12-14 | 合肥工业大学 | 一种用于用户行为分析的基于证据推理的集成聚类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102519726A (zh) * | 2011-12-28 | 2012-06-27 | 昆明理工大学 | 一种针对滚动轴承复合故障的声学诊断方法 |
CN102855301A (zh) * | 2012-08-20 | 2013-01-02 | 中山大学 | 稀疏模糊c均值聚类方法 |
CN104598922A (zh) * | 2015-01-07 | 2015-05-06 | 河海大学 | 基于模糊c均值的全极化sar图像分类方法 |
CN104700411A (zh) * | 2015-03-15 | 2015-06-10 | 西安电子科技大学 | 基于稀疏重建的两时相遥感影像变化检测方法 |
CN104751469A (zh) * | 2015-04-02 | 2015-07-01 | 西安电子科技大学 | 基于核模糊c均值聚类的图像分割方法 |
CN104794482A (zh) * | 2015-03-24 | 2015-07-22 | 江南大学 | 基于改进型核模糊c均值类间极大化聚类算法 |
-
2016
- 2016-08-02 CN CN201610629774.XA patent/CN106295688B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102519726A (zh) * | 2011-12-28 | 2012-06-27 | 昆明理工大学 | 一种针对滚动轴承复合故障的声学诊断方法 |
CN102855301A (zh) * | 2012-08-20 | 2013-01-02 | 中山大学 | 稀疏模糊c均值聚类方法 |
CN104598922A (zh) * | 2015-01-07 | 2015-05-06 | 河海大学 | 基于模糊c均值的全极化sar图像分类方法 |
CN104700411A (zh) * | 2015-03-15 | 2015-06-10 | 西安电子科技大学 | 基于稀疏重建的两时相遥感影像变化检测方法 |
CN104794482A (zh) * | 2015-03-24 | 2015-07-22 | 江南大学 | 基于改进型核模糊c均值类间极大化聚类算法 |
CN104751469A (zh) * | 2015-04-02 | 2015-07-01 | 西安电子科技大学 | 基于核模糊c均值聚类的图像分割方法 |
Non-Patent Citations (1)
Title |
---|
徐再花: ""基于正则化方法的模糊C-均值聚类算法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329954A (zh) * | 2017-06-29 | 2017-11-07 | 浙江工业大学 | 一种基于文档内容和相互关系的主题检测方法 |
CN107329954B (zh) * | 2017-06-29 | 2020-10-30 | 浙江工业大学 | 一种基于文档内容和相互关系的主题检测方法 |
CN107633444A (zh) * | 2017-08-29 | 2018-01-26 | 南京理工大学紫金学院 | 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法 |
CN107633444B (zh) * | 2017-08-29 | 2021-03-19 | 南京理工大学紫金学院 | 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法 |
CN109002858A (zh) * | 2018-07-23 | 2018-12-14 | 合肥工业大学 | 一种用于用户行为分析的基于证据推理的集成聚类方法 |
CN109002858B (zh) * | 2018-07-23 | 2022-01-28 | 合肥工业大学 | 一种用于用户行为分析的基于证据推理的集成聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106295688B (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718532B (zh) | 一种基于多深度网络结构的跨媒体排序方法 | |
CN106815369A (zh) | 一种基于Xgboost分类算法的文本分类方法 | |
CN108875816A (zh) | 融合置信度准则和多样性准则的主动学习样本选择策略 | |
Huang et al. | Graphgdp: Generative diffusion processes for permutation invariant graph generation | |
CN108710948B (zh) | 一种基于聚类均衡和权重矩阵优化的迁移学习方法 | |
Song et al. | A hybrid evolutionary computation approach with its application for optimizing text document clustering | |
CN107220311B (zh) | 一种利用局部嵌入话题建模的文本表示方法 | |
CN107832458A (zh) | 一种字符级的基于嵌套深度网络的文本分类方法 | |
CN111984791A (zh) | 一种基于注意力机制的长文分类方法 | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN106295688A (zh) | 一种基于稀疏均值的模糊聚类方法 | |
CN106067034A (zh) | 一种基于高维矩阵特征根的配电网负荷曲线聚类方法 | |
CN106528705A (zh) | 一种基于rbf神经网络的重复记录检测方法和系统 | |
CN107992549A (zh) | 动态短文本流聚类检索方法 | |
CN107220656A (zh) | 一种基于自适应特征降维的多标记数据分类方法 | |
CN112561599A (zh) | 一种融合域特征交互的基于注意力网络学习的点击率预测方法 | |
Acosta et al. | Comparison of point cloud and image-based models for calorimeter fast simulation | |
Wang et al. | Text clustering algorithm based on deep representation learning | |
CN114881172A (zh) | 一种基于加权词向量和神经网络的软件漏洞自动分类方法 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN116842848B (zh) | 基于混合搜索进化优化的工业过程软测量建模方法、系统 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN108596205A (zh) | 基于地域相关因子与稀疏表示的微博转发行为预测方法 | |
CN113392868A (zh) | 一种模型训练的方法、相关装置、设备及存储介质 | |
CN112163069A (zh) | 一种基于图神经网络节点特征传播优化的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |