CN109978006A - 聚类方法和装置 - Google Patents

聚类方法和装置 Download PDF

Info

Publication number
CN109978006A
CN109978006A CN201910139095.8A CN201910139095A CN109978006A CN 109978006 A CN109978006 A CN 109978006A CN 201910139095 A CN201910139095 A CN 201910139095A CN 109978006 A CN109978006 A CN 109978006A
Authority
CN
China
Prior art keywords
cluster
clustering
clustered
list
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910139095.8A
Other languages
English (en)
Other versions
CN109978006B (zh
Inventor
欧中洪
陈忠杰
宋美娜
宋俊德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910139095.8A priority Critical patent/CN109978006B/zh
Publication of CN109978006A publication Critical patent/CN109978006A/zh
Application granted granted Critical
Publication of CN109978006B publication Critical patent/CN109978006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques

Abstract

本发明提出一种聚类方法和装置,其中,方法包括:对待聚类对象进行特征提取,得到特征向量;根据待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},其中,迭代次数列表{Ri}是由每次聚类的迭代次数组成的;根据特征向量,确定阈值列表{Ti},其中,阈值列表{Ti}是由每次聚类时构建加权图的阈值组成的;根据随机图聚类算法对应的重复聚类次数RT、迭代次数列表{Ri}以及阈值列表{Ti},对特征向量进行聚类。该方法能够实现根据待聚类对象的规模和重复聚类次数,确定每次聚类的迭代次数,针对待聚类对象规模较小和聚类结果相对稳定的后几次聚类,可以使用较小的迭代次数,从而提高聚类效率。

Description

聚类方法和装置
技术领域
本发明涉及机器学习技术领域,尤其涉及一种聚类方法和装置。
背景技术
随着机器学习技术和互联网技术的快速发展,出现了越来越多需要对高维数据进行聚类的场景,例如,对图像数据中的人脸进行聚类,对自然语言处理领域中的文本数据进行聚类等等。面对互联网中的海量数据,如何实现对大规模高维数据进行快速且有效的聚类,具有较大的实用价值。
目前,针对高维数据,例如人脸图像、文本数据的聚类方式,主要通过特征提取算法,从高维数据中提取出能够有效表征数据的特征向量(或特征值),而后通过K-means算法、K-means的改进算法、基于网格的聚类算法,对特征向量进行聚类。
然而上述聚类算法,对于大规模高维数据而言,聚类结果的准确性较低,聚类效果不佳。
发明内容
本发明提出一种聚类方法和装置,以实现根据待聚类对象的规模和重复聚类次数,确定每次聚类的迭代次数,针对待聚类对象规模较小和聚类结果相对稳定的后几次聚类,可以使用较小的迭代次数,从而提高聚类效率。并且,通过多次重复聚类和动态设置迭代次数的聚类方式,能够有效提升聚类速度和聚类结果的稳定性与精确度。此外,根据阈值列表中的不同阈值,对特征向量进行多次聚类,可以改善随机图聚类算法造成的聚类结果不稳定的现象,用于解决现有技术中聚类效果不佳以及聚类结果的准确性较低的技术问题。
本发明第一方面实施例提出了一种聚类方法,包括:
S1,对待聚类对象进行特征提取,得到特征向量;
S2,根据所述待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},其中,所述迭代次数列表{Ri}是由每次聚类的迭代次数组成的;
S3,根据所述特征向量,确定阈值列表{Ti},其中,所述阈值列表{Ti}是由每次聚类时构建加权图的阈值组成的;
S4,根据所述随机图聚类算法对应的重复聚类次数RT、所述迭代次数列表{Ri}以及所述阈值列表{Ti},对所述特征向量进行聚类。
本发明实施例的聚类方法,通过对待聚类对象进行特征提取,得到特征向量,之后,根据待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},并根据特征向量,确定阈值列表{Ti},最后,根据随机图聚类算法对应的重复聚类次数RT、迭代次数列表{Ri}以及阈值列表{Ti},对特征向量进行聚类。由此,可以实现根据待聚类对象的规模和重复聚类次数,确定每次聚类的迭代次数,针对待聚类对象规模较小和聚类结果相对稳定的后几次聚类,可以使用较小的迭代次数,从而提高聚类效率。并且,通过多次重复聚类和动态设置迭代次数的聚类方式,能够有效提升聚类速度和聚类结果的稳定性与精确度。此外,根据阈值列表中的不同阈值,对特征向量进行多次聚类,可以改善随机图聚类算法造成的聚类结果不稳定的现象。
本发明第二方面实施例提出了一种聚类装置,包括:
提取模块,用于对待聚类对象进行特征提取,得到特征向量;
确定模块,用于根据所述待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},其中,所述迭代次数列表{Ri}是由每次聚类的迭代次数组成的;
所述确定模块,还用于根据所述特征向量,确定阈值列表{Ti},其中,所述阈值列表{Ti}是由每次聚类时构建加权图的阈值组成的;
聚类模块,用于根据所述随机图聚类算法对应的重复聚类次数RT、所述迭代次数列表{Ri}以及所述阈值列表{Ti},对所述特征向量进行聚类。
本发明实施例的聚类装置,通过对待聚类对象进行特征提取,得到特征向量,之后,根据待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},并根据特征向量,确定阈值列表{Ti},最后,根据随机图聚类算法对应的重复聚类次数RT、迭代次数列表{Ri}以及阈值列表{Ti},对特征向量进行聚类。由此,可以实现根据待聚类对象的规模和重复聚类次数,确定每次聚类的迭代次数,针对待聚类对象规模较小和聚类结果相对稳定的后几次聚类,可以使用较小的迭代次数,从而提高聚类效率。并且,通过多次重复聚类和动态设置迭代次数的聚类方式,能够有效提升聚类速度和聚类结果的稳定性与精确度。此外,根据阈值列表中的不同阈值,对特征向量进行多次聚类,可以改善随机图聚类算法造成的聚类结果不稳定的现象。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例一所提供的聚类方法的流程示意图;
图2为本发明实施例二所提供的聚类方法的流程示意图;
图3为本发明实施例三所提供的聚类装置的结构示意图;
图4为本发明实施例四所提供的聚类装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
目前,主要通下述两种方式,实现对特征向量进行聚类:
第一种方式,使用基于划分的聚类方法,如K-means算法和K-means的改进算法,对特征向量进行聚类,将特征向量划分为K(预设值)个簇。具体地,预先设置聚类目标的簇数量,随机地选取K个特征向量,将其视作簇的中心;对剩余的特征向量,将其分配给距离最近的簇,该过程视为一次迭代;每次迭代后,重新计算每个簇的聚类中心,对簇的聚类中心进行更新;重复迭代过程,直到判别函数收敛,聚类完成。
第二种方式,使用基于网格的聚类方法,先对特征向量进行压缩降维处理,再根据网格内对象密度进行划分聚类。具体地,将数据空间划分为有限的网格单元,对特征向量进行数据压缩,降低维度,基于网格内数据对象的密度进行聚类,将相连的高密度网格识别为簇。
第一种方式下,在处理大规模待聚类数据时,具有简单高效、时间和空间复杂度低的优点,但当待聚类数据规模较大时,容易产生局部最优结果,且聚类结果与预设的K值高度相关,在未知待聚类数据属于多少个聚类簇时,聚类效果不佳。
第二种方式下,算法简单且聚类速度较快,可处理未知类数目的聚类任务,但对网格划分的参数敏感,并且,对数据进行降维处理,丢失大量信息,聚类结果的准确率低,因此,不适合处理高维和不规则分布的数据。
针对现有技术中对大规模特征向量的聚类任务,采用的聚类方法未充分考虑面对的特征向量数量规模巨大时,对聚类结果的影响,包括对聚类速度和准确率的影响,容易产生局部最优的聚类结果。本发明实施例中,基于随机图聚类算法,在面对大规模待聚类对象时,在聚类速度上具有很大优势,时间复杂度与构建的加权图包含的边数线性相关。在兼顾聚类速度的同时,引入根据不同阈值进行多次聚类的方式,通过优先合并距离较近或者相似度高的特征向量,可以改善随机图聚类算法造成的聚类结果不稳定的现象。
下面参考附图描述本发明实施例的聚类方法和装置。
图1为本发明实施例一所提供的聚类方法的流程示意图。
本发明实施例以该聚类方法被配置于聚类装置中来举例说明,该聚类装置可以应用于任一计算机设备中,以使该计算机设备可以执行聚类功能。
其中,计算机设备可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该聚类方法可以包括以下步骤:
S1,对待聚类对象进行特征提取,得到特征向量。
本发明实施例中,待聚类对象可以为图像数据、文本数据等等,可以基于相关技术中的机器学习方法或者特征提取算法,对待聚类对象进行特征提取,得到特征向量,此处不做赘述。
S2,根据待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},其中,迭代次数列表{Ri}是由每次聚类的迭代次数组成的。
本申请实施例中,随机图聚类算法是一种边数是时间线性的聚类算法,时间复杂度与构建的加权图包含的边数线性相关,在面对大规模待聚类对象时,可以有效地提升聚类速度,例如可以为Chinese-Whispers算法等。
本发明实施例中,根据待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},即根据待聚类对象的规模或者实际任务场景,设置随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},可以提升该聚类方法对不同规模的待聚类对象的聚类速度。并且,通过多次重复聚类和动态设置每次聚类时的迭代次数,可以改善随机图聚类算法中以随机顺序合并特征向量造成的聚类结果不稳定的现象,从而有效提升聚类速度和聚类结果的稳定性与精确度。
S3,根据特征向量,确定阈值列表{Ti},其中,阈值列表{Ti}是由每次聚类时构建加权图的阈值组成的。
本发明实施例中,可以根据待聚类对象对应的特征向量,确定每次重复聚类时,构建加权图的阈值列表{Ti},具体可以根据实际的应用场景对应的经验数据,对阈值列表{Ti}进行设置。例如,若根据经验得到任意两个特征向量之间的相似度均大于T0,可以判定上述两个特征向量属于同一类数据,则可以构造阈值列表为{1.15T0,1.10T0,1.05T0,T0}。
本发明实施例中,根据阈值列表中的不同阈值,对特征向量进行多次聚类,可以改善随机图聚类算法造成的聚类结果不稳定的现象。
需要说明的是,本申请仅以步骤S3在步骤S2之后执行示例,实际应用时,步骤S3还可以在步骤S2之前执行,或者,为了提升聚类效率,步骤S2还可以和步骤S3并列执行,对此不作限制。
S4,根据随机图聚类算法对应的重复聚类次数RT、迭代次数列表{Ri}以及阈值列表{Ti},对特征向量进行聚类。
本发明实施例中,在确定上述聚类参数时,即确定随机图聚类算法对应的重复聚类次数RT、迭代次数列表{Ri}以及阈值列表{Ti}后,可以对特征向量进行聚类。由此,可以实现根据待聚类对象的规模和重复聚类次数,确定每次聚类的迭代次数,针对待聚类对象规模较小和聚类结果相对稳定的后几次聚类,可以使用较小的迭代次数,从而提高聚类效率。并且,通过多次重复聚类和动态设置迭代次数的聚类方式,能够有效提升聚类速度和聚类结果的稳定性与精确度。此外,根据阈值列表中的不同阈值,对特征向量进行多次聚类,可以改善随机图聚类算法造成的聚类结果不稳定的现象。
本发明实施例的聚类方法,通过对待聚类对象进行特征提取,得到特征向量,之后,根据待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},并根据特征向量,确定阈值列表{Ti},最后,根据随机图聚类算法对应的重复聚类次数RT、迭代次数列表{Ri}以及阈值列表{Ti},对特征向量进行聚类。由此,可以实现根据待聚类对象的规模和重复聚类次数,确定每次聚类的迭代次数,针对待聚类对象规模较小和聚类结果相对稳定的后几次聚类,可以使用较小的迭代次数,从而提高聚类效率。并且,通过多次重复聚类和动态设置迭代次数的聚类方式,能够有效提升聚类速度和聚类结果的稳定性与精确度。此外,根据阈值列表中的不同阈值,对特征向量进行多次聚类,可以改善随机图聚类算法造成的聚类结果不稳定的现象。
作为一种可能的实现方式,参见图2,在图1所示实施例的基础上,步骤S4具体可以包括以下子步骤:
S401,为每个特征向量分配一个类别ID。
本发明实施例中,开始聚类时,可以为每个特征向量分配一个类别ID,即将每个特征向量作为一个类别。
S402,根据重复聚类次数RT、迭代次数列表{Ri}以及阈值列表{Ti},初始化参数。
S403,开始第i次聚类,根据Ti构建加权图Gi,其中,1≤i≤RT,将每个特征向量作为一个特征节点,计算每两个特征节点之间的相似度,若相似度高于相似阈值Ti,则确定两个特征节点之间存在邻居关系。
本发明实施例中,相似度可以为余弦相似度、欧式距离相似度、曼哈顿距离相似度等等,对此不作限制。例如,可以基于相关技术中的欧式距离计算公式、曼哈顿距离计算公式、余弦夹角公式,计算两个特征节点之间的相似度,此处不做赘述。
可以理解的是,当相似度为余弦相似度时,当余弦相似度接近于1时,表明两个特征节点之间越相似,而当余弦相似度接近于0时,表明两个特征节点越不相似。当相似度为欧式距离相似度时,当欧式距离越大时,表明两个特征节点之间越不相似,而当欧式距离越小时,表明两个特征节点之间越相似。
为了便于解释说明,本申请实施例中以相似度为余弦相似度进行示例。
本发明实施例中,使用阈值进行多次聚类,当两个特征节点之间存在邻居关系时,优先合并存在邻居关系的特征节点,提高聚类结果的稳定性,改善了随机图聚类算法造成的聚类结果不稳定的现象。
S404,将不存在邻居关系的特征节点剔除,并将存在邻居关系的特征节点进行顺序打乱,得到特征节点表{Vj}。
本发明实施例中,将不存在邻居关系的特征节点剔除,并将存在邻居关系的特征节点进行顺序打乱,得到特征节点表{Vj}。可以理解的是,将存在邻居关系的特征节点进行顺序打乱,本次得到的特征节点的顺序与上一次聚类得到的特征节点的顺序不同。
S405,从{Vj}中依次挑选特征节点Vj,获取与Vj存在邻居关系的节点,作为邻居节点,并统计Vj的所有邻居节点所属的类别,得到邻居类别表{Ck}。
本发明实施例中,邻居类别表{Ck}中包含Vj所有邻居节点的类别ID。
S406,判断{Ck}中是否存在第一目标类别Cmax,若是,执行步骤S407,若否,执行步骤S408;其中,属于第一目标类别Cmax的特征节点数量大于{Ck}中其他类别。
S407,将类别Cmax分配给特征节点Vj,并执行步骤S410。
S408,从{Ck}中挑选出拥有特征节点数量不少于{Ck}中其他类别的第二目标类别,得到目标类别集合{C'k}。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
S409,针对{C'k}中每个第二目标类别C'k,计算C'k拥有的每个特征节点与Vj之间的相似度,并对计算得到的相似度取均值,得到平均相似度,将最大平均相似度对应的类别C'max,分配给特征节点Vj;或者,针对{C'k}中每个第二目标类别C'k,计算C'k拥有的每个特征节点与Vj之间的距离,并对计算得到的距离取均值,得到平均距离,将最小平均距离对应的类别C'max,分配给特征节点Vj
S410,判断是否已遍历完特征节点表{Vj}中所有特征节点,若否,执行步骤S405,若是,执行步骤S411。
S411,判断第i次聚类的迭代次数是否大于Ri,或者,判断第i次迭代中所有特征节点的类别是否未发生变化,若是,执行步骤S412,若否,执行步骤S404。
S412,判断是否已遍历完阈值列表{Ti}中所有阈值,若是,执行步骤S413,若否,执行步骤S403,进行下一次聚类。
S413,结束聚类过程。
本发明实施例中,基于随机图聚类算法,可自动寻找确定聚类簇的数量,通过多次重复聚类和动态设置每次聚类的迭代次数,能有效提升聚类速度和聚类结果的稳定性与精确度。
本发明实施例的聚类方法,通过在前几次迭代过程中优先合并加权边图中距离较近或者相似度高的特征向量,在之后的迭代过程重构加权边图,合并高于预设阈值的特征向量和簇,可以提升聚类结果的准确率。
作为一种可能的实现方式,在步骤S1之后,还可以对特征向量进行异常值处理,以剔除无效的特征向量,即可以将无法有效使用的特征向量剔除并记录。
作为一种可能的实现方式,在步骤S1之后,还可以对特征向量进行归一化处理,例如,可以将高维的特征向量,处理为0到1之间的浮点小数,便于计算和存储,从而降低计算的复杂度。
作为一种可能的实现方式,在步骤S4之后,还可以确定聚类得到的各簇中包含的特征向量的数量,将数量低于预设阈值的簇,作为无效簇或者错误簇。其中,预设阈值为预先设置的。
例如,设置预设阈值为n,可以将聚类结果中所有包含特征向量的数量小于n的簇,作为无效簇或者错误簇。
作为一种可能的实现方式,在步骤S4之后,还可以确定未被聚类的特征向量,并将未聚类的特征向量分类至特殊簇中,以进行聚类结果的展示。
作为一种可能的实现方式,在上述实施例的基础上,还可以图形或者文本的形式,对聚类结果进行展示。
例如,可以展示聚类结果中簇的数量、各簇中包含的特征向量的数量、簇内特征向量之间的平均相似度或平均距离等等。其中,簇可以包括特殊簇、无效簇、正确聚类的簇。
为了实现上述实施例,本发明还提出一种聚类装置。
图3为本发明实施例三所提供的聚类装置的结构示意图。
如图3所示,该聚类装置包括:提取模块101、确定模块102以及聚类模块103。
其中,提取模块101,用于对待聚类对象进行特征提取,得到特征向量。
确定模块102,用于根据待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},其中,迭代次数列表{Ri}是由每次聚类的迭代次数组成的。
确定模块102,还用于根据特征向量,确定阈值列表{Ti},其中,阈值列表{Ti}是由每次聚类时构建加权图的阈值组成的。
聚类模块103,用于根据随机图聚类算法对应的重复聚类次数RT、迭代次数列表{Ri}以及阈值列表{Ti},对特征向量进行聚类。
进一步地,在本发明实施例的一种可能的实现方式中,参见图4,在图3所示实施例的基础上,该聚类装置还可以包括:
预处理模块104,用于在对待聚类对象进行特征提取,得到特征向量之后,对特征向量进行异常值处理,以剔除无效的特征向量;和/或,对特征向量进行归一化处理。
调整模块105,用于确定未被聚类的特征向量,并将未聚类的特征向量分类至特殊簇中,以及确定聚类得到的各簇中包含的特征向量的数量,将数量低于预设阈值的簇,作为无效簇。
展示模块106,用于以图形或者文本的形式,对聚类结果进行展示。
需要说明的是,前述对聚类方法实施例的解释说明也适用于该实施例的聚类装置,此处不再赘述。
本发明实施例的聚类装置,通过对待聚类对象进行特征提取,得到特征向量,之后,根据待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},并根据特征向量,确定阈值列表{Ti},最后,根据随机图聚类算法对应的重复聚类次数RT、迭代次数列表{Ri}以及阈值列表{Ti},对特征向量进行聚类。由此,可以实现根据待聚类对象的规模和重复聚类次数,确定每次聚类的迭代次数,针对待聚类对象规模较小和聚类结果相对稳定的后几次聚类,可以使用较小的迭代次数,从而提高聚类效率。并且,通过多次重复聚类和动态设置迭代次数的聚类方式,能够有效提升聚类速度和聚类结果的稳定性与精确度。此外,根据阈值列表中的不同阈值,对特征向量进行多次聚类,可以改善随机图聚类算法造成的聚类结果不稳定的现象。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种聚类方法,其特征在于,所述方法包括:
S1,对待聚类对象进行特征提取,得到特征向量;
S2,根据所述待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},其中,所述迭代次数列表{Ri}是由每次聚类的迭代次数组成的;
S3,根据所述特征向量,确定阈值列表{Ti},其中,所述阈值列表{Ti}是由每次聚类时构建加权图的阈值组成的;
S4,根据所述随机图聚类算法对应的重复聚类次数RT、所述迭代次数列表{Ri}以及所述阈值列表{Ti},对所述特征向量进行聚类。
2.如权利要求1所述的聚类方法,其特征在于,所述步骤S4,包括:
S401,为每个特征向量分配一个类别ID;
S402,根据所述重复聚类次数RT、所述迭代次数列表{Ri}以及所述阈值列表{Ti},初始化参数;
S403,开始第i次聚类,根据Ti构建加权图Gi,其中,1≤i≤RT,将每个特征向量作为一个特征节点,计算每两个特征节点之间的相似度,若所述相似度高于相似阈值Ti,则确定两个特征节点之间存在邻居关系;
S404,将不存在邻居关系的特征节点剔除,并将存在邻居关系的特征节点进行顺序打乱,得到特征节点表{Vj};
S405,从{Vj}中依次挑选特征节点Vj,获取与Vj存在邻居关系的节点,作为邻居节点,并统计Vj的所有邻居节点所属的类别,得到邻居类别表{Ck};
S406,判断{Ck}中是否存在第一目标类别Cmax,若是,执行步骤S407,若否,执行步骤S408;其中,属于第一目标类别Cmax的特征节点数量大于{Ck}中其他类别;
S407,将类别Cmax分配给特征节点Vj,并执行步骤S410;
S408,从{Ck}中挑选出拥有特征节点数量不少于{Ck}中其他类别的第二目标类别,得到目标类别集合{C'k};
S409,针对{C'k}中每个第二目标类别C'k,计算所述C'k拥有的每个特征节点与Vj之间的相似度,并对计算得到的相似度取均值,得到平均相似度,将最大平均相似度对应的类别C'max,分配给特征节点Vj;或者,针对{C'k}中每个第二目标类别C'k,计算所述C'k拥有的每个特征节点与Vj之间的距离,并对计算得到的距离取均值,得到平均距离,将最小平均距离对应的类别C'max,分配给特征节点Vj
S410,判断是否已遍历完特征节点表{Vj}中所有特征节点,若否,执行步骤S405,若是,执行步骤S411;
S411,判断第i次聚类的迭代次数是否大于Ri,或者,判断第i次迭代中所有特征节点的类别是否未发生变化,若是,执行步骤S412,若否,执行步骤S404;
S412,判断是否已遍历完所述阈值列表{Ti}中所有阈值,若是,执行步骤S413,若否,执行步骤S403,进行下一次聚类;
S413,结束聚类过程。
3.如权利要求1所述的聚类方法,其特征在于,所述对待聚类对象进行特征提取,得到特征向量之后,所述方法还包括:
对所述特征向量进行异常值处理,以剔除无效的特征向量;和/或,
对所述特征向量进行归一化处理。
4.如权利要求1所述的聚类方法,其特征在于,所述方法还包括:
确定未被聚类的特征向量,并将所述未被聚类的特征向量分类至特殊簇中。
5.如权利要求1所述的聚类方法,其特征在于,所述方法还包括:
确定聚类得到的各簇中包含的特征向量的数量;
将数量低于预设阈值的簇,作为无效簇。
6.如权利要求1-5任一项所述的聚类方法,其特征在于,所述方法还包括:
以图形或者文本的形式,对聚类结果进行展示。
7.一种聚类装置,其特征在于,包括:
提取模块,用于对待聚类对象进行特征提取,得到特征向量;
确定模块,用于根据所述待聚类对象的数量,确定随机图聚类算法对应的重复聚类次数RT和迭代次数列表{Ri},其中,所述迭代次数列表{Ri}是由每次聚类的迭代次数组成的;
所述确定模块,还用于根据所述特征向量,确定阈值列表{Ti},其中,所述阈值列表{Ti}是由每次聚类时构建加权图的阈值组成的;
聚类模块,用于根据所述随机图聚类算法对应的重复聚类次数RT、所述迭代次数列表{Ri}以及所述阈值列表{Ti},对所述特征向量进行聚类。
8.如权利要求7所述的聚类装置,其特征在于,所述装置还包括:
预处理模块,用于在所述对待聚类对象进行特征提取,得到特征向量之后,对所述特征向量进行异常值处理,以剔除无效的特征向量;和/或,对所述特征向量进行归一化处理。
9.如权利要求7所述的聚类装置,其特征在于,所述装置还包括:
调整模块,用于确定未被聚类的特征向量,并将所述未被聚类的特征向量分类至特殊簇中,以及确定聚类得到的各簇中包含的特征向量的数量,将数量低于预设阈值的簇,作为无效簇。
10.如权利要求7-9任一项所述的聚类装置,其特征在于,所述装置还包括:
展示模块,用于以图形或者文本的形式,对聚类结果进行展示。
CN201910139095.8A 2019-02-25 2019-02-25 人脸图像的聚类方法和装置 Active CN109978006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910139095.8A CN109978006B (zh) 2019-02-25 2019-02-25 人脸图像的聚类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910139095.8A CN109978006B (zh) 2019-02-25 2019-02-25 人脸图像的聚类方法和装置

Publications (2)

Publication Number Publication Date
CN109978006A true CN109978006A (zh) 2019-07-05
CN109978006B CN109978006B (zh) 2021-02-19

Family

ID=67077381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910139095.8A Active CN109978006B (zh) 2019-02-25 2019-02-25 人脸图像的聚类方法和装置

Country Status (1)

Country Link
CN (1) CN109978006B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160468A (zh) * 2019-12-30 2020-05-15 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN111488490A (zh) * 2020-03-31 2020-08-04 北京奇艺世纪科技有限公司 视频聚类方法、装置、服务器及存储介质
CN112560174A (zh) * 2020-12-08 2021-03-26 中国航天空气动力技术研究院 静气动弹性低动态试验数据提取方法、装置、介质及设备
CN117688412A (zh) * 2024-02-02 2024-03-12 中国人民解放军海军青岛特勤疗养中心 一种用于骨科护理的智能数据处理系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236050A (zh) * 2013-05-06 2013-08-07 电子科技大学 一种基于图聚类的辅助钞票残币重建方法
CN103257983A (zh) * 2012-09-10 2013-08-21 苏州大学 一种基于唯一性约束的Deep Web实体识别方法
CN103778146A (zh) * 2012-10-23 2014-05-07 富士通株式会社 图像聚类装置以及方法
CN107707497A (zh) * 2017-05-09 2018-02-16 电子科技大学 基于减法聚类和模糊聚类算法的通信信号识别方法
CN108073946A (zh) * 2017-11-29 2018-05-25 东北大学 一种面向图数据的投影聚类方法
CN108399268A (zh) * 2018-03-29 2018-08-14 浙江大学 一种基于博弈论的增量式异构图聚类方法
CN109002854A (zh) * 2018-07-20 2018-12-14 西安电子科技大学 基于隐表示和自适应的多视图子空间聚类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103257983A (zh) * 2012-09-10 2013-08-21 苏州大学 一种基于唯一性约束的Deep Web实体识别方法
CN103778146A (zh) * 2012-10-23 2014-05-07 富士通株式会社 图像聚类装置以及方法
CN103236050A (zh) * 2013-05-06 2013-08-07 电子科技大学 一种基于图聚类的辅助钞票残币重建方法
CN107707497A (zh) * 2017-05-09 2018-02-16 电子科技大学 基于减法聚类和模糊聚类算法的通信信号识别方法
CN108073946A (zh) * 2017-11-29 2018-05-25 东北大学 一种面向图数据的投影聚类方法
CN108399268A (zh) * 2018-03-29 2018-08-14 浙江大学 一种基于博弈论的增量式异构图聚类方法
CN109002854A (zh) * 2018-07-20 2018-12-14 西安电子科技大学 基于隐表示和自适应的多视图子空间聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHRIS BIEMANN: "Chinese Whispers-an Efficient Graph Clustering Algorithm", 《WORKSHOP ON TEXTGRAPHS》 *
MARIÁ C.V. NASCIMENTO: "Spectral methods for graph clustering- A survey", 《EUROPEAN JOURNAL OF OPERATIONAL RESEARCH》 *
赵艳厂: "一种新的聚类算法:等密度线算法", 《北京邮电大学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160468A (zh) * 2019-12-30 2020-05-15 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN111160468B (zh) * 2019-12-30 2024-01-12 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN111488490A (zh) * 2020-03-31 2020-08-04 北京奇艺世纪科技有限公司 视频聚类方法、装置、服务器及存储介质
CN112560174A (zh) * 2020-12-08 2021-03-26 中国航天空气动力技术研究院 静气动弹性低动态试验数据提取方法、装置、介质及设备
CN112560174B (zh) * 2020-12-08 2022-12-02 中国航天空气动力技术研究院 静气动弹性低动态试验数据提取方法、装置、介质及设备
CN117688412A (zh) * 2024-02-02 2024-03-12 中国人民解放军海军青岛特勤疗养中心 一种用于骨科护理的智能数据处理系统
CN117688412B (zh) * 2024-02-02 2024-05-07 中国人民解放军海军青岛特勤疗养中心 一种用于骨科护理的智能数据处理系统

Also Published As

Publication number Publication date
CN109978006B (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN109978006A (zh) 聚类方法和装置
Schneider et al. Sketch classification and classification-driven analysis using fisher vectors
Xing et al. A node influence based label propagation algorithm for community detection in networks
Pal et al. One-dimensional Brownian particle systems with rank-dependent drifts
US7072872B2 (en) Representation and retrieval of images using context vectors derived from image information elements
US11797827B2 (en) Input into a neural network
WO2018180263A1 (ja) 情報処理装置、情報処理方法、及びコンピュータ可読記憶媒体
JP2017107568A (ja) マルチコア最適化リカレントニューラルネットワーク用のシステムおよび方法
CN110334757A (zh) 面向大数据分析的隐私保护聚类方法及计算机存储介质
Sheng et al. Improving video temporal consistency via broad learning system
Herings et al. Computation of the Nash equilibrium selected by the tracing procedure in n-person games
CN108229536A (zh) 分类预测模型的优化方法、装置及终端设备
Zollhöfer et al. GPU based ARAP Deformation using Volumetric Lattices.
CN109389140A (zh) 基于Spark的快速寻找聚类中心的方法和系统
KR20200094938A (ko) 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법
Dobbs et al. Jumping into the artistic deep end: building the catalogue raisonné
CN108133020A (zh) 视频分类方法、装置、存储介质及电子设备
KR20150112832A (ko) 산출 프로그램, 산출 장치 및 산출 방법
JP4143234B2 (ja) 文書分類装置、文書分類方法及び記憶媒体
CN112633340B (zh) 目标检测模型训练、检测方法、设备及存储介质
CN107194994A (zh) 一种无标定曲面点云数据重建圆柱面的方法及装置
CN110874609B (zh) 基于用户行为的用户聚类方法、存储介质、设备及系统
CN109409381A (zh) 基于人工智能的家具顶视图的分类方法及系统
CN109002553B (zh) 头发模型的构建方法、装置、电子设备和计算机可读介质
CN113077383A (zh) 一种模型训练方法及模型训练装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190705

Assignee: Hua Ching Qing Chiao information technology (Beijing) Co.,Ltd.

Assignor: Beijing University of Posts and Telecommunications

Contract record no.: X2023980040313

Denomination of invention: Clustering methods and devices for facial images

Granted publication date: 20210219

License type: Common License

Record date: 20230822