CN114118299A - 一种结合相似性度量和社区发现的聚类方法 - Google Patents

一种结合相似性度量和社区发现的聚类方法 Download PDF

Info

Publication number
CN114118299A
CN114118299A CN202111506676.4A CN202111506676A CN114118299A CN 114118299 A CN114118299 A CN 114118299A CN 202111506676 A CN202111506676 A CN 202111506676A CN 114118299 A CN114118299 A CN 114118299A
Authority
CN
China
Prior art keywords
similarity
community
data
node
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111506676.4A
Other languages
English (en)
Inventor
吕欣
蔡梦思
谭索怡
宋兵
谭跃进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111506676.4A priority Critical patent/CN114118299A/zh
Publication of CN114118299A publication Critical patent/CN114118299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种结合相似性度量和社区发现的聚类方法,所述聚类方法首先采用改进的
Figure DDA0003403369870000011
指数计算每两个数据对象之间的相似度,然后筛选出相似度较高的数据对象构建相似性网络,在此基础上利用社区发现算法对该网络进行社区划分,最终得到若干个聚类簇。该算法创新性地拓展了复杂网络理论与方法在数据聚类中的应用,能够明显提升聚类效果,帮助发现数据内部隐藏的结构和关系,并通过网络社区划分的形式对聚类结果进行有效且直观的可视化展示。

Description

一种结合相似性度量和社区发现的聚类方法
技术领域
本发明属于信息处理技术领域,涉及一种结合相似性度量和社区发现的聚类方法。
背景技术
随着信息技术的发展和全球化进程的深化,社会系统的复杂性特征日益凸显,在生物、经济、社会等多个领域,采用聚类算法快速地从无规律的、错综复杂的数据集中挖掘潜在的分布特征,是我们进一步认识世界、了解事物、分析行为等的重要手段。对此,将相似度高的数据准确地归到一个数据簇,相似性低的数据放到不同类簇中,并对不同数据簇之间的关系进行可视化展示,是分析数据内部的结构和规律所需要解决的关键问题。
发明内容
本发明为了解决上述问题,提出了一种结合相似性度量和社区发现的聚类方法,该聚类方法的模块化程度较高,在实际应用中具有良好的可扩展性,可以适应不同的应用场景,实现多样化的聚类目标。
所述聚类方法具体为:
获取包含n个数据对象的数据集X={x1,x2,...,xn},采用相似度算法计算每两个数据对象之间的相似度s(xi,x′i),其中xi≠x′i,得到关于数据集X中n个数据对象所构成的
Figure BDA0003403369850000011
个数据对之间的相似度集合;
将所述相似度集合中的数据对按照相似度s(xi,x′i)进行排列,得到相似度阈值,所述相似度阈值为能够覆盖所有数据对象的最大相似度;
筛选出所述相似度集合中满足相似度s(xi,x′i)大于等于所述相似度阈值的p条数据,p大于0,将所述p条数据中包含的所有数据对象作为节点,每个数据对之间构建一条边,数据对的相似度s(xi,x′i)作为边的权重,构建相似性网络,得到一个节点数量为n,边数量为p的加权相似性网络G;
对所述加权相似性网络G采用社区发现算法得到基于节点间相似度的社区划分结果,相似度高的数据对象被划分到同一类簇,相似度低的数据对象被划分到不同类簇。
上述方法包括相似度计算、相似度阈值计算、相似性网络构建、网络社区划分等四个高内聚低耦合的主要步骤,模块化程度较高,能够明显提升聚类效果,帮助发现数据内部隐藏的结构和关系。
进一步的,所述相似度算法采用改进的
Figure BDA0003403369850000013
指数来计算,使用改进的
Figure BDA0003403369850000012
指数算法时,其相似度s(xi,x′i)计算公式为:
Figure BDA0003403369850000021
其中,每个数据对象具有m个属性特征,ki1,ki2,...,kim为属性特征,xi={ki1,ki2,...,kim},xj为x′i
进一步的,所述社区发现算法采用Louvain社区发现算法,包括可以迭代执行的两个阶段,第一阶段:初始化每个节点为一个唯一的社区,然后按照预先设定的规则将这些节点划分到各个社区中,第二阶段:将第一阶段得到的社区整合为新节点,每个新节点对应一个社区,构造新的加权网络图,待新的加权网络构造完成后,运用第一阶段的方法继续处理所述新的加权网络,多次迭代执行两个阶段直到总的模块度值Q达到最大,得到最终的社区划分结果。
所述预先设定的规则为,针对每一个节点i,计算将所述节点i移动到其他节点所在社区对应的模块度增量ΔQ,并将节点i移动到模块度增量最大的邻居社区中,直到任何节点都不能移动以增加总的模块度值Q时,进入第二阶段。
将节点i移动到社区C所对应的模块度增量ΔQ计算公式为:
Figure BDA0003403369850000022
其中,∑in表示社区C中所有边的权重之和,∑tot表示与社区C中节点相连的边的权重之和,ki表示与节点i相连的边的权重之和,ki,in表示连接节点i与社区C中节点的边的权重之和,m表示该网络中所有边的权重之和。
所述总的模块度值Q的计算公式为:
Figure BDA0003403369850000023
其中,Aij表示节点i和j之间的边的权重,ki=∑jAij表示指向节点i的边的权重之和,ci代表节点i所在的社区,若ci=cj,则δ函数的值为1,否则δ函数的值为0,
Figure BDA0003403369850000024
进一步的,在上述方法中,得到相似度阈值还可以为将所述相似度集合中的数据对按照相似度s(xi,x′i)进行降序排列,顺序遍历所述相似度集合中的数据,直到找到所述相似度阈值。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述聚类方法的步骤。
本发明的有益效果为:该算法创新性地拓展了复杂网络理论与方法在数据聚类中的应用,能够明显提升聚类效果,帮助发现数据内部隐藏的结构和关系,并通过网络社区划分的形式对聚类结果进行有效且直观的可视化展示。本发明的方法在实际应用中该算法具有良好的可扩展性,除了使用本发明中提到的改进的
Figure BDA0003403369850000035
指数,还可以采用余弦相似度、Jaccard相似度等其他相似性指标来计算数据对象间的相似度,除了使用Louvain社区发现算法,还可以采用Newman快速算法、Infomap、GN、Multilevel等其他社区发现算法来进行网络社区划分,以适应不同的应用场景,实现多样化的聚类目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为结合相似性度量和社区发现的聚类方法流程示意图。
图2为采用网络社区划分展示的聚类结果。
图3为采用主成分分析进行降维展示的聚类结果。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
本发明的聚类方法流程示意图如图1所示,具体步骤为:
第一步,计算每两个数据对象之间的相似度。
给定任意数值型数据集X={x1,x2,...,xn}为n个数据对象的集合,每个数据对象具有m个属性特征,即任意xi={ki1,ki2,...,kim},采用改进的
Figure BDA0003403369850000036
指数计算每两个数据对象(用xi和xj表示)之间的相似度,记为s(xi,xj),计算公式为:
Figure BDA0003403369850000031
Figure BDA0003403369850000032
指数也称为
Figure BDA0003403369850000037
相似系数,是一种用于比较两个样本相似度的统计量。与欧几里得距离相比,
Figure BDA0003403369850000033
距离在更异构的数据集中保留了敏感性,并且对异常值的权重较小。
除了使用改进的
Figure BDA0003403369850000034
指数,还可以采用余弦相似度、Jaccard相似度等其他相似性指标来计算数据对象间的相似度。
第二步,计算覆盖所有数据对象的相似度阈值。
由第一步可得到关于数据集X中n个数据对象所构成的
Figure BDA0003403369850000041
个数据对之间的相似度集合,记为
Figure BDA0003403369850000042
Figure BDA0003403369850000043
基于此,将SX中的数据对按照相似度s(xi,x′i)降序排列,顺序遍历SX中的数据,直到找到能够覆盖所有数据对象的最大相似度,即相似度阈值,记为sthreshold,使SX中s(xi,x′i)≥sthreshold的数据对刚好覆盖数据集X中的所有数据对象。
相似度阈值sthreshold的具体计算步骤如下:
Figure BDA0003403369850000044
第三步,根据相似度阈值选择满足条件的数据对象构建相似性网络。
筛选出相似度集合SX中满足s(xi,x′i)≥sthreshold的p条数据,记为
Figure BDA0003403369850000045
Figure BDA0003403369850000046
Figure BDA0003403369850000047
中包含的所有数据对象作为节点,每个数据对之间构建一条边,数据对的相似度s(xi,x′i)作为边的权重,构建相似性网络G=(V,E),其中,V表示所有节点(数据对象)的集合,E表示所有边(数据对关系)的集合,由此,得到一个节点数量为n,边数量为p的加权相似性网络,即|V|=n,|E|=p。
第四步,采用社区发现算法对相似性网络进行社区划分。
针对包含n个节点(即数据对象)的加权相似性网络G,相似度较高的节点间存在连边,且节点间的相似度越高其连边的权值越大,采用Louvain社区发现算法得到基于节点间相似度的社区划分结果,使同一社区中的节点连接紧密(即节点间相似度较高),不同社区间节点连接稀疏(即节点间相似度较低),从而达到数据聚类效果。由此,不同社区代表不同的类簇,相似度高的数据对象被划分到同一类簇,相似度低的数据对象被划分到不同类簇。
Louvain社区发现算法主要包括可以迭代执行的两个阶段:
第一阶段:首先初始化每个节点为一个唯一的社区,然后按照一定的规则将这些节点划分到各个社区中。具体地,针对每一个节点i,计算将其移动到其他节点所在社区对应的模块度增量ΔQ,并将节点i移动到模块度增量最大的邻居社区中(此处要求最大模块化增量必须为正值,若为负值,则节点i保持在原社区不动;若有多个相同的最大模块化增量值,则将节点i移动到任意其中一个社区),直到任何节点都不能移动以增加总的模块度值Q时,进入下一阶段。
将节点i移动到社区C所对应的模块度增量ΔQ计算公式为,
Figure BDA0003403369850000051
其中,∑in表示社区C中所有边的权重之和,∑tot表示与社区C中节点相连的边的权重之和,ki表示与节点i相连的边的权重之和,ki,in表示连接节点i与社区C中节点的边的权重之和,m表示该网络中所有边的权重之和。
网络的总的模块度值Q的计算公式为:
Figure BDA0003403369850000052
式中,Aij表示节点i和j之间的边的权重,ki=∑jAij表示指向节点i的边的权重之和,ci代表节点i所在的社区,若ci=cj,则δ函数的值为1,否则δ函数的值为0,
Figure BDA0003403369850000053
第二阶段:将第一阶段得到的社区整合为新的“节点”,每个“节点”对应一个社区,构造新的加权网络图。在新的加权网络图中,新节点为第一阶段的各个社区,社区与社区之间的连边数量之和构成新节点之间的边权重,社区内部的连边则构成新节点的自环边。待新的加权网络构造完成后,运用第一阶段的方法继续处理该加权网络。
上述两个阶段可以继续迭代执行,直到总的模块度值Q达到最大,此时,得到最终的社区划分结果,每个社区代表一个类簇。
实验验证:
利用UCI数据集中的Wine数据集对本文所提新聚类算法进行验证,数据下载链接为https://archive.ics.uci.edu/ml/datasets/Wine。如表1所示,该数据集包含178款葡萄酒的数据,每种葡萄酒包含13个特征属性,即alcohol(酒精)、malic acid(苹果酸)、ash(灰烬)、alcalinityofash(灰的碱度)、magnesium(镁)、total phenols(总酚)、flavanoids(类黄酮)、nonflavanoid phenols(非黄酮类酚类)、proanthocyanins(原华青素)、colorintensity(颜色强度)、hue(色调)、OD280/OD315 ofdilutedwines(稀释葡萄酒的OD280/OD315)和proline(脯氨酸)。该数据集为已标注数据集,178款葡萄酒被划分为3个类别,分别为类别1、类别2和类别3,其中类别1包含59款葡萄酒,类别2包含71款葡萄酒,类别3包含48款葡萄酒。
表1Wine数据集描述
样本数 属性数量/维数 类别数
178 13 3
使用本发明所提新聚类算法对Wine数据集中的178个数据对象(即葡萄酒)进行聚类分析时,首先采用改进的
Figure BDA0003403369850000061
指数计算每两个数据对之间的相似度,并得出覆盖所有数据对象的相似度阈值为sthreshold=0.8578,然后根据该阈值共筛选出5545对数据对构建出一个包含178个节点和5545条边的相似性网络后,采用Louvain社区发现算法共得到3个类簇。最后,采用聚类准确率(Clustering Accuracy,CA)、F值(F1 score)、归一化互信息(Normalized Mutual Information,NMI)来评价聚类效果,并与传统的K-means聚类算法得到的结果进行比较,得到验证结果如表2所示。由表可见,本发明所提结合相似性度量和社区发现的新聚类算法的聚类效果显著,准确度明显高于K-means算法。
表2验证结果
聚类算法 CA F值 NMI
K-means 0.702 0.703 0.429
本发明所提方法 0.933 0.935 0.801
聚类结果的可视化展示效果如图2所示,节点表示数据对象,边表示节点对之间的相似度大于sthreshold边的粗细与边权重(即节点间的相似度)成正比,不同的颜色代表本发明所提方法得到的聚类结果(共3类),节点内部的数值表示该节点的原始类别(共3类)。由该图可见,本文所提聚类算法能够达到非常好的聚类效果,仅类别1和类别3中分别有9个和3个数据对象被错误地划分到了类别2中。与此同时,与传统的基于降维的聚类结果可视化展示方式相比(如图3所示的采用主成分分析进行降维展示的聚类结果,其中X为主成分1,Y为主成分2),本算法通过网络社区划分的方式可以更直观且清晰地展示出各数据对象之间的相似性关系,为聚类结果的可视化呈现提供了一种有效且独特的新视角和新途径。
依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。根据以上描述,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种结合相似性度量和社区发现的聚类方法,其特征在于,所述方法包括:
获取包含n个数据对象的数据集X={x1,x2,...,xn},采用相似度算法计算每两个数据对象之间的相似度s(xi,x′i),其中xi≠x′i,得到关于数据集X中n个数据对象所构成的
Figure FDA0003403369840000011
个数据对之间的相似度集合;
将所述相似度集合中的数据对按照相似度s(xi,x′i)进行排列,得到相似度阈值,所述相似度阈值为能够覆盖所有数据对象的最大相似度;
筛选出所述相似度集合中满足相似度s(xi,x′i)大于等于所述相似度阈值的p条数据,p大于0,将所述p条数据中包含的所有数据对象作为节点,每个数据对之间构建一条边,数据对的相似度s(xi,x′i)作为边的权重,构建相似性网络,得到一个节点数量为n,边数量为p的加权相似性网络G;
对所述加权相似性网络G采用社区发现算法得到基于节点间相似度的社区划分结果,相似度高的数据对象被划分到同一类簇,相似度低的数据对象被划分到不同类簇。
2.根据权利要求1所述的聚类方法,其特征在于,所述相似度算法采用改进的
Figure FDA0003403369840000013
指数来计算。
3.根据权利要求2所述的聚类方法,其特征在于,所述相似度s(xi,x′i)计算公式为:
Figure FDA0003403369840000012
其中,每个数据对象具有m个属性特征,ki1,ki2,...,kim为属性特征,xi={ki1,ki2,...,kim},xj为x′i
4.根据权利要求1所述的聚类方法,其特征在于,所述社区发现算法采用Louvain社区发现算法。
5.根据权利要求4所述的聚类方法,其特征在于,所述Louvain社区发现算法包括可以迭代执行的两个阶段,第一阶段:初始化每个节点为一个唯一的社区,然后按照预先设定的规则将这些节点划分到各个社区中,第二阶段:将第一阶段得到的社区整合为新节点,每个新节点对应一个社区,构造新的加权网络图,待新的加权网络构造完成后,运用第一阶段的方法继续处理所述新的加权网络,多次迭代执行两个阶段直到总的模块度值Q达到最大,得到最终的社区划分结果。
6.根据权利要求5所述的聚类方法,其特征在于,所述预先设定的规则为,针对每一个节点i,计算将所述节点i移动到其他节点所在社区对应的模块度增量ΔQ,并将节点i移动到模块度增量最大的邻居社区中,直到任何节点都不能移动以增加总的模块度值Q时,进入第二阶段。
7.根据权利要求6所述的聚类方法,其特征在于,将节点i移动到社区C所对应的模块度增量ΔQ计算公式为:
Figure FDA0003403369840000021
其中,∑in表示社区C中所有边的权重之和,∑tot表示与社区C中节点相连的边的权重之和,ki表示与节点i相连的边的权重之和,ki,in表示连接节点i与社区C中节点的边的权重之和,m表示该网络中所有边的权重之和。
8.根据权利要求6所述的聚类方法,其特征在于,所述总的模块度值Q的计算公式为:
Figure FDA0003403369840000022
其中,Aij表示节点i和j之间的边的权重,ki=∑jAij表示指向节点i的边的权重之和,ci代表节点i所在的社区,若ci=cj,则δ函数的值为1,否则δ函数的值为0,
Figure FDA0003403369840000023
9.根据权利要求1-8所述的聚类方法,其特征在于,将所述相似度集合中的数据对按照相似度s(xi,x′i)进行降序排列,顺序遍历所述相似度集合中的数据,直到找到所述相似度阈值。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述聚类方法的步骤。
CN202111506676.4A 2021-12-10 2021-12-10 一种结合相似性度量和社区发现的聚类方法 Pending CN114118299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111506676.4A CN114118299A (zh) 2021-12-10 2021-12-10 一种结合相似性度量和社区发现的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111506676.4A CN114118299A (zh) 2021-12-10 2021-12-10 一种结合相似性度量和社区发现的聚类方法

Publications (1)

Publication Number Publication Date
CN114118299A true CN114118299A (zh) 2022-03-01

Family

ID=80364658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111506676.4A Pending CN114118299A (zh) 2021-12-10 2021-12-10 一种结合相似性度量和社区发现的聚类方法

Country Status (1)

Country Link
CN (1) CN114118299A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503031A (zh) * 2023-06-29 2023-07-28 中国人民解放军国防科技大学 基于简历解析的人员相似性计算方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287864A (zh) * 2017-12-06 2018-07-17 深圳市腾讯计算机系统有限公司 一种兴趣群组划分方法、装置、介质及计算设备
CN111506824A (zh) * 2020-03-12 2020-08-07 浙江工业大学 一种基于微博社交的人物关系可视化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287864A (zh) * 2017-12-06 2018-07-17 深圳市腾讯计算机系统有限公司 一种兴趣群组划分方法、装置、介质及计算设备
CN111506824A (zh) * 2020-03-12 2020-08-07 浙江工业大学 一种基于微博社交的人物关系可视化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VINCENT D. BLONDEL, JEAN-LOUP GUILLAUME, RENAUD LAMBIOTTE, AND ETIENNE LEFEBVRE: "Fast unfolding of communities in large networks", pages 2 - 6, Retrieved from the Internet <URL:arxiv.org/pdf/0803.0476.pdf> *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503031A (zh) * 2023-06-29 2023-07-28 中国人民解放军国防科技大学 基于简历解析的人员相似性计算方法、装置、设备及介质
CN116503031B (zh) * 2023-06-29 2023-09-08 中国人民解放军国防科技大学 基于简历解析的人员相似性计算方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Li et al. Discriminatively boosted image clustering with fully convolutional auto-encoders
CN109740154B (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
CN111199343A (zh) 一种多模型融合的烟草市场监管异常数据挖掘方法
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN107633444B (zh) 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法
CN109582782A (zh) 一种基于用弱监督深度学习的文本聚类方法
Karthikeyan et al. Probability based document clustering and image clustering using content-based image retrieval
CN111539444A (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
Valero-Mas et al. On the suitability of Prototype Selection methods for kNN classification with distributed data
Gao et al. Distinguishing oracle variants based on the isomorphism and symmetry invariances of oracle-bone inscriptions
Rozin et al. A rank-based framework through manifold learning for improved clustering tasks
CN114118299A (zh) 一种结合相似性度量和社区发现的聚类方法
Choi et al. K-Means and J48 Algorithms to Categorize Student Research Abstracts
Nasution A method for constructing a dataset to reveal the industrial behaviour of big data
CN111310838A (zh) 一种基于深度Gabor网络的药效图像分类识别方法
Li et al. Short text sentiment analysis based on convolutional neural network
CN114970684A (zh) 一种结合vae的提取网络核心结构的社区检测方法
Gao et al. Statistics and Analysis of Targeted Poverty Alleviation Information Integrated with Big Data Mining Algorithm
CN109800384B (zh) 一种基于粗糙集信息决策表的基本概率赋值计算方法
Drobics et al. Mining clusters and corresponding interpretable descriptions–a three–stage approach
Krokos et al. Enhancing deep learning with visual interactions
Voerman et al. Automatic classification of company’s document stream: Comparison of two solutions
Palekar Adaptive optimized residual convolutional image annotation model with bionic feature selection model
CN106991283B (zh) 一种基于分形技术的病案库构建方法
Li et al. Symmetry structured analysis sparse coding for key frame extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination