CN107330452B - 聚类方法和装置 - Google Patents

聚类方法和装置 Download PDF

Info

Publication number
CN107330452B
CN107330452B CN201710457622.0A CN201710457622A CN107330452B CN 107330452 B CN107330452 B CN 107330452B CN 201710457622 A CN201710457622 A CN 201710457622A CN 107330452 B CN107330452 B CN 107330452B
Authority
CN
China
Prior art keywords
clustering
neural network
network model
intermediate layer
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710457622.0A
Other languages
English (en)
Other versions
CN107330452A (zh
Inventor
王虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuexiang Qushi Technology (beijing)
Original Assignee
Yuexiang Qushi Technology (beijing)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuexiang Qushi Technology (beijing) filed Critical Yuexiang Qushi Technology (beijing)
Priority to CN201710457622.0A priority Critical patent/CN107330452B/zh
Publication of CN107330452A publication Critical patent/CN107330452A/zh
Application granted granted Critical
Publication of CN107330452B publication Critical patent/CN107330452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种聚类方法和装置。其中,该方法包括:获取神经网络模型;将目标数据输入神经网络模型,确定目标数据对神经网络模型中至少一个中间层节点的激活程度;根据每个中间层节点的激活程度在至少一个中间层节点中选择目标数据的聚类节点;根据聚类节点确定目标数据的聚类结果。本发明解决了相关技术中结合神经网络模型的聚类方法使用复杂度较高的技术问题。

Description

聚类方法和装置
技术领域
本发明涉及聚类领域,具体而言,涉及一种聚类方法和装置。
背景技术
现有的数据聚类方法,例如K均值聚类(K-means)方法和自组织映射(SelfOrganizing Maps)聚类方法,需要用户给定数据样本之间的相似度或者相似度计算方法。上述的聚类方法需要用户懂得如何选择或设计相似度或相似度计算方法,增加了数据聚类方法的使用难度,进一步地,当用户选定或设计的相似度或者相似度计算方法不恰当时,聚类方法所能实现的聚类效果可能不能满足用户的需求。例如,在对图像数据进行聚类分析时,如果使用欧式距离计算图像之间的相似度,则不能反映图像内容的平移、尺度等变化,从而导致聚类分析失败。再如,在对脉搏波时序数据进行聚类分析时,如果使用动态时间规整(DTW)法计算脉搏波时序数据片段之间的相似度,则可能丢失脉搏波信号中的重搏波相对位置平移信息,导致聚类结果与用户预期效果不一致。
在现有技术中,已经具有采用神经网络技术与聚类结合的技术对数据进行聚类的方法,例如,申请号为201310530626.9、专利名称为一种基于深度学习的聚类方法的专利,提供了一种结合神经网络模型的聚类方法,具体的技术方案为在神经网络模型中指定特定的中间层节点作为用于聚类的特征层,并且,还需要对神经网络模型的目标函数进行修改,加入聚类的类内约束函数,这种方式需要预先确定用于聚类的中间层节点是哪些节点,增加了使用该方法的人工部分的复杂度,并且修改了神经网络模型的目标函数,从而改变了神经网络原来的行为和表现。现有技术中还有一些其他的改进的聚类方法,例如,需要在神经网络模型的节点中增加离散的节点,根据离散节点的状态进行聚类等等。在上述的现有技术中的技术方案由于对神经网络模型具有一定的限制条件,因此限定了聚类方法的使用范围。
针对相关技术中结合神经网络模型的聚类方法使用复杂度较高的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种聚类方法和装置,以至少解决相关技术中结合神经网络模型的聚类方法使用复杂度较高的技术问题。
根据本发明实施例的一个方面,提供了一种聚类方法,该方法包括:获取神经网络模型;将目标数据输入神经网络模型,确定目标数据对神经网络模型中至少一个中间层节点的激活程度;根据每个中间层节点的激活程度在至少一个中间层节点中选择目标数据的聚类节点;根据聚类节点确定目标数据的聚类结果。
进一步地,根据每个中间层节点的激活程度在至少一个中间层节点中选择目标数据的聚类节点包括:获取输入的聚类节点的数量K;根据每个中间层节点的激活程度在至少一个中间层节点中选择K个节点作为聚类节点。
进一步地,根据每个中间层节点的激活程度在至少一个中间层节点中选择K个节点作为聚类节点包括:将神经网络模型在接收输入的目标数据之后每个中间层节点对应的激励函数的输出值作为激活程度;根据至少一个中间层节点的激活程度分别计算每个中间层节点的排序参数值;按照每个中间层节点的排序参数值对至少一个中间层节点进行排序,选取前K个节点作为聚类节点。
进一步地,根据聚类节点确定目标数据的聚类结果包括:根据选择出的K个聚类节点的组合将目标数据划分到组合对应的类别。
进一步地,获取神经网络模型包括:接收输入的神经网络模型的结构参数以确定神经网络模型的结构;通过训练样本集对结构确定的神经网络模型进行训练,其中,训练样本集中的每个样本包括样本数据和样本类别标签,神经网络模型的训练目标为在输入样本数据之后的输出与样本数据对应的样本类别标签的差距最小。
进一步地,在对多个目标数据进行聚类并得到聚类结果之后,该方法还包括:通过可视化方式显示多个目标数据的聚类分布图。
根据本发明实施例的另一方面,还提供了一种聚类装置,该装置包括:获取单元,用于获取神经网络模型;输入单元,用于将目标数据输入神经网络模型,确定目标数据对神经网络模型中至少一个中间层节点的激活程度;选择单元,用于根据每个中间层节点的激活程度在至少一个中间层节点中选择目标数据的聚类节点;确定单元,用于根据聚类节点确定目标数据的聚类结果。
进一步地,选择单元包括:获取模块,用于获取输入的聚类节点的数量K;选择模块,用于根据每个中间层节点的激活程度在至少一个中间层节点中选择K个节点作为聚类节点。
进一步地,选择模块包括:逻辑模块,用于将神经网络模型在接收输入的目标数据之后每个中间层节点对应的激励函数的输出值作为激活程度;计算模块,用于根据至少一个中间层节点的激活程度分别计算每个中间层节点的排序参数值;选择子模块,用于按照每个中间层节点的排序参数值对至少一个中间层节点进行排序,选取前K个节点作为聚类节点。
进一步地,该装置还包括:显示单元,用于在对多个目标数据进行聚类并得到聚类结果之后,通过可视化方式显示多个目标数据的聚类分布图。
进一步地,获取单元包括:接收模块,用于接收输入的神经网络模型的结构参数以确定神经网络模型的结构;训练模块,用于通过训练样本集对结构确定的神经网络模型进行训练,其中,训练样本集中的每个样本包括样本数据和样本类别标签,神经网络模型的训练目标为在输入样本数据之后的输出与样本数据对应的样本类别标签的差距最小。
进一步地,确定单元包括:显示模块,用于通过可视化方式显示目标数据的聚类结果。
根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明的聚类方法。
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行本发明的聚类方法。
在本发明实施例中,通过获取神经网络模型;将目标数据输入神经网络模型,确定目标数据对神经网络模型中至少一个中间层节点的激活程度;根据每个中间层节点的激活程度在至少一个中间层节点中选择目标数据的聚类节点;根据聚类节点确定目标数据的聚类结果,解决了相关技术中结合神经网络模型的聚类方法使用复杂度较高的技术问题,进而实现了无需人工选取相似度、无需在中间层中指定聚类的节点、自动根据中间层节点的激活程度在中间层节点中选取聚类节点的效果,并且适用于所有种类的神经网络模型,无需限制神经网络模型中节点类型是连续或离散,神经网络模型中的所有节点可以都是连续节点,具有更强的适用性的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的聚类方法的流程图;
图2是根据本发明实施例的另一种可选的聚类方法的流程图;
图3是根据本发明实施例的一种可选的神经网络模型的示意图;
图4是根据本发明实施例的一种可选的聚类装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请提供了一种聚类方法的实施例。
图1是根据本发明实施例的一种可选的聚类方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取神经网络模型;
步骤S102,将目标数据输入神经网络模型,确定目标数据对神经网络模型中至少一个中间层节点的激活程度;
步骤S103,根据至少一个中间层节点中每个中间层节点的激活程度在至少一个中间层节点中选择目标数据的聚类节点;
步骤S104,根据聚类节点确定目标数据的聚类结果。
神经网络模型是具有输入层、输出层、一个或多个中间层,每一层可以包括一个或多个节点,每个中间层节点可以被视作一个激励函数,每个中间层节点对应的激励函数的输出值为该中间层节点对输入数据的激活程度,该实施例提供的聚类方法通过将目标数据输入神经网络模型的输入层,根据目标数据对神经网络模型中的中间层节点的激活程度来确定目标数据的类别,从而实现对数据进行聚类的效果。
在对目标数据进行聚类之前,可以通过训练样本集先对神经网络模型进行训练,通过训练好的神经网络模型对目标数据进行分类。训练样本集包括多个样本,每个样本至少包括样本数据和样本类别标签两个部分,对神经网络模型进行训练的目标为使神经网络模型在输入样本数据之后得到的输出结果与输入的样本数据所对应的样本类别标签的差异最小,其中,对所述差异的具体定义和函数的选取可以视情况而定,本发明对此不做具体限定。
需要说明的是,每个样本的样本类别标签是用于表示按照一种已知的分类依据对样本数据分类确定的类别标签,而在根据本发明实施例提供的聚类方法进行聚类之后,得到的聚类结果则是根据对神经网络模型的激活程度进行划分的结果,无需预先设定相似度,通过神经网络模型自学习每个样本数据的特征(可以通过每个中间层节点对应的激励函数表示一个特征,激励函数的输出值则为样本数据的特征值),然后确定聚类划分所需的中间层节点(聚类节点)的选取规则,例如,聚类划分所需的中间层节点的个数、聚类划分所需的中间层节点所在的层数、聚类划分所需的中间层节点的激活程度值的数值范围和/或聚类划分所需的中间层节点的优选顺序等,在确定聚类划分所需的中间层节点的选取规则之后,根据选取规则选取预设个数的中间层节点作为聚类节点,并根据聚类节点确定目标数据的分类结果。需要说明的是,在选择聚类节点时,可以在所有的中间层节点中的一部分中间层节点中选择聚类节点,仅确定这部分中间层节点中每个中间层节点的激励程度,在这部分中间层节点中选取聚类节点,而无需在全部中间层节点中选择聚类节点。在对多个目标数据按照该实施例提供的聚类方法进行聚类之后,得到多个分组,每个组内具有至少一个目标数据,每个组内的所有目标数据具有至少一个相似的特征。
作为上述实施例的一种可选的实施方式,聚类节点的选取规则可以为:接收输入的聚类节点的数量K,根据每个中间层节点的激活程度在至少一个中间层节点中选择K个节点作为聚类节点。进一步的,在根据每个中间层节点的激活程度在至少一个中间层节点中选择K个节点作为聚类节点时,可以选择激活程度最高的前K个节点作为聚类节点,具体而言,首先,将神经网络模型在接收输入的目标数据之后每个中间层节点对应的激励函数的输出值作为激活程度,然后根据至少一个中间层节点的激活程度分别计算每个中间层节点的排序参数值,最后,按照每个中间层节点的排序参数值对至少一个中间层节点进行排序,选取前K个节点作为聚类节点。
在选择出K个聚类节点之后,根据K个聚类节点的组合将目标数据划分到节点组合所对应的类别,例如,如果目标数据x1激活程度在前两位的聚类节点为节点1和节点3,则将目标数据x1分类到节点1和节点3的组合所对应的类别A,如果目标数据x2激活程度在前两位的聚类节点为节点2和节点3,则将目标数据x2分类到节点2和节点3的组合所对应的类别B。
作为上述实施例的一种可选的实施方式,在获取神经网络模型时,可以包括如下步骤:接收输入的神经网络模型的结构参数,其中,结构参数可以包括神经网络模型的中间层的层数、输入层节点个数、输出层节点个数、每个中间层的节点个数等等,在确定结构参数之后,神经网络模型的结构随之确定,通过训练样本集对结构确定的神经网络模型进行训练,其中,训练样本集中的每个样本包括样本数据和样本类别标签,神经网络模型的训练目标为在输入样本数据之后的输出与样本数据对应的样本类别标签的差距最小。
可选的,训练样本集中的所有样本的样本类别标签如果有N个种类,那么,相应的,可以设置神经网络模型的输出层的节点个数为N个节点。进一步的,样本类别标签可以用N维one-hot vector(独热向量)表示,具体而言,如果训练样本集中的样本分为N个种类,第p个类别的样本数据对应的样本类别标签可以表示为向量X={xi=1(i=p),xi=0(1≤i≤N且i≠p)},例如,如果N为8,第2个类别的样本数据的样本类别标签可以表示为{0,1,0,0,0,0,0,0}。在样本类别标签采用N维one-hot向量表示的情况下,神经网络模型的输出为N维向量,对神经网络模型的训练目标可以为使输出的向量与样本类别标签之间的交叉熵(交叉熵能够表示差异)最小,可选的,训练目标还可以是其它函数,本发明在此不做具体限定。
在输出聚类结果时,可以采用可视化的方式显示,具体而言,在对多个目标数据进行聚类之后,得到每个目标数据的聚类结果,将聚类结果通过聚类分布图的方式进行显示。具体而言,可以将目标数据转换为二维数据,通过散点图进行显示,每个样本点通过点的颜色或标记表示(所属类别的)聚类编号,在显示散点图之后,可以通过人工根据散点图判断聚类效果,或者,如果两个聚类的散点图的区域重叠程度较高时,将两个类别合并为一个类别。
该实施例通过获取神经网络模型;将目标数据输入神经网络模型,确定目标数据对神经网络模型中至少一个中间层节点的激活程度;根据每个中间层节点的激活程度在至少一个中间层节点中选择目标数据的聚类节点;根据聚类节点确定目标数据的聚类结果,解决了相关技术中结合神经网络模型的聚类方法使用复杂度较高的技术问题,进而实现了无需人工选取相似度、无需在中间层中指定聚类的节点、自动根据中间层节点的激活程度在中间层节点中选取聚类节点的效果,并且适用于所有种类的神经网络模型,无需限制神经网络模型中节点类型是连续或离散,神经网络模型中的所有节点可以都是连续节点,具有更强的适用性。
图2是上述实施例的一种可选的实施方式,如图2所示,该实施方式所提供的聚类方法的步骤包括:
步骤一、设计神经网络模型;
步骤二、优化模型参数,其中,通过带标签的数据样本集合对神经网络模型进行优化;
步骤三、选择聚类节点;
步骤四、划分样本聚类;
步骤五、评估聚类结果。
作为一种可选的神经网络模型,其结构可以如图3所示,神经网络模型包括输入层、输出层、一个或多个中间层,该神经网络模型可以是通过人工设计的,用户输入神经网络模型的结构参数即可。在设计神经网络模型之后,将带标签的数据样本集合输入到神经网络模型,优化结构确定的神经网络模型的参数。
在聚类之前,需要设置聚类节点的选择规则,例如,聚类节点在哪一层中选取,最多选取的聚类节点的个数、激活程度的取值范围等等,设置好之后,选择聚类节点的步骤可以通过如图3中所示的聚类节点选择单元执行,聚类节点选择单元根据设置的选择规则在中间层中的多个中间层节点中选择若干节点作为聚类节点,并根据选择出的聚类节点划分每个输入数据(样本)的聚类。可选的,中间层可能包括多层,聚类节点选择单元可以选择在神经网络模型的最后一层中间层中选择若干个节点,如图3所示。最后,可以根据神经网络模型分类的准确率评估聚类效果。
需要说明的是,数据样本集合包括多个样本,每个样本包括样本数据和样本类别标签两个部分,样本类别标签能够表示每个样本数据的一方面特征,例如,样本数据为动物图像,样本类别标签为动物的种类,猫、狗、牛、羊、鸡、鸭、鱼、虫等,通过上述数据样本集合训练之后得到的神经网络模型能够自学习以提取出例如毛发长度、毛发颜色、耳朵性质、四肢长度等特征,每个中间层节点可以是一种特征,因此,依据输入的数据激活程度较高的中间层节点获得的聚类结果可能是分为长毛动物类、短毛动物类,也可能是分为黑色、白色、灰色、杂色动物类,也可能是分为长腿动物类、短腿动物类、无腿动物类,也可能是分为上述属性特征的组合类(如黑色长毛长腿动物类)。通过尝试不同结构的人工神经网络模型(例如,不同的人工神经网络模型层数、中间层节点个数),或者选取不同的中间层节点,可以获得不同的聚类效果。
例如,在一种具体的应用场景下,上述具体实施方式提供的聚类方法的执行步骤包括:
1)获取带有标签的数据样本集合S={xi,yi;i=1,…,N},其中,图像样本xi尺寸为100*100(例如通用的ImageNet数据集),标签yi为猫、狗、牛、羊、鸡、鸭、鱼、虫对应的八维1-hot向量;
2)设置神经网络模型,依次包括输入层、中间层(多个卷积-池化层、一个全连接层)、输出层,其中,输入层为100*100的二维图像数据,全连接层包含F个节点,输出层包含8个节点,如图3所示;
3)优化模型参数:训练神经网络模型的目标函数为最小化输出节点的激活值与标签之间的交叉熵,采用随机梯度下降法迭代地更新模型参数;
4)选择聚类节点:设定聚类节点选择单元,选取模型的若干中间层节点作为聚类节点,选取规则如下:
(1)计算中间层节点的激活均值:
Figure BDA0001324090120000101
(2)计算中间层节点的激活方差:
Figure BDA0001324090120000102
(3)按从大至小的顺序对{Vj}排序,选择前K个值对应的节点作为聚类节点;其中,hij表示输入为xi时所述全连接层的第j个节点的激活值,j=1,…,F,K为用户指定的参数;
(4)划分样本聚类:根据聚类节点的激活程度将各个样本划分到不同的聚类,例如,当某个样本使得第三个中间层节点的激活值最大(或者激活方差最大),则将该样本划分到第三个聚类;
(5)评估聚类效果,计算模型对于给定标签的分类准确率,用于估计模型的聚类效果。
需要说明的是,上述举例中的样本数据可以是一维时序数据,例如声音、心电、脉搏波信号等;也可以是多维数据,例如视频、三维影像数据等;在优化模型参数时可以还采用其它目标函数和优化方法,例如,在目标函数中增加L1正则项(例如,正则项取值为从聚类节点到下一层节点之间的连接权值之和);在根据中间层节点的激活值将各个样本划分到不同的聚类时,还有其它方法,例如,当某个样本使得第3个中间层节点的激活值最大、且第5个中间层节点的激活值第二大,则将该样本分到第15个聚类(对应第3个节点与第5个节点的聚类);在输出聚类结果时,还可以通过可视化的方式估计聚类效果,例如,使用数据降维方法(局部线性嵌入法)将图像样本降低为二维数据,并使用散点图进行显示,其中样本点的颜色或者标记依据聚类编号不同而不同,最后由人工对散点图的聚类效果进行评估,或者,还可以通过可视化的方式优化数据聚类,例如,使用数据降维方法(局部线性嵌入法)将图像样本降低为二维数据,并使用散点图进行显示,其中样本点的颜色或者标记依据聚类编号不同而不同,当两个聚类对应的散点图区域重叠度较高时,将两个聚类合并为一个。
上述实施例提供的聚类方法至少具有以下的效果:
(1)现有技术中的大部分聚类方法需要给定数据样本之间的相似度或者相似度计算方法,该实施例提供的聚类方法不必给定数据样本之间相似度或者相似度计算方法,因而可以适用相似度难以计算的数据,例如图像数据、音频数据;
(2)现有的基于人工神经网络模型的聚类方法要求人工神经网络模型中包含离散节点,即,节点的取值限定为离散状态,该实施例提供的聚类方法不必限定于包含离散节点的人工神经网络模型,节点的取值也可以是连续值,因而可以便捷地用于卷积神经网络(CNN)等各种结构的人工神经网络模型。
(3)该实施例提供的聚类方法能够从给定的带有类别标签的数据样本中学习到数据样本之间的相似度标准,并据此自动划分出新的聚类。
需要说明的是,在附图的流程图虽然示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请还提供了一种存储介质的实施例,该实施例的存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明实施例的聚类方法。
本申请还提供了一种处理器的实施例,该实施例的处理器用于运行程序,其中,程序运行时执行本发明实施例的聚类方法。
本申请还提供了一种聚类装置的实施例。需要说明的是,本发明实施例提供的聚类装置可以用于执行本发明实施例提供的聚类方法。
图4是根据本发明实施例的一种可选的聚类装置的示意图,如图4所示,该装置包括获取单元10,输入单元20,选择单元30和确定单元40,其中,获取单元用于获取神经网络模型;输入单元用于将目标数据输入神经网络模型,确定目标数据对神经网络模型中至少一个中间层节点的激活程度;选择单元用于根据至少一个中间层节点中每个中间层节点的激活程度在至少一个中间层节点中选择目标数据的聚类节点;确定单元用于根据聚类节点确定目标数据的聚类结果。
该实施例通过获取单元,用于获取神经网络模型;输入单元,用于将目标数据输入神经网络模型,确定目标数据对神经网络模型中至少一个中间层节点的激活程度;选择单元,用于根据每个中间层节点的激活程度在至少一个中间层节点中选择目标数据的聚类节点;确定单元,用于根据聚类节点确定目标数据的聚类结果,解决了相关技术中结合神经网络模型的聚类方法使用复杂度较高的技术问题,进而实现了无需人工选取相似度、无需在中间层中指定聚类的节点、自动根据中间层节点的激活程度在中间层节点中选取聚类节点的效果,并且适用于所有种类的神经网络模型,无需限制神经网络模型中节点类型是连续或离散,神经网络模型中的所有节点可以都是连续节点,具有更强的适用性。
作为上述实施例的一种可选实施方式,选择单元包括:获取模块,用于获取输入的聚类节点的数量K;选择模块,用于根据每个中间层节点的激活程度在至少一个中间层节点中选择K个节点作为聚类节点。
作为上述实施例的一种可选实施方式,选择模块包括:逻辑模块,用于将神经网络模型在接收输入的目标数据之后每个中间层节点对应的激励函数的输出值作为激活程度;计算模块,用于根据至少一个中间层节点的激活程度分别计算每个中间层节点的排序参数值;选择子模块,用于按照每个中间层节点的排序参数值对至少一个中间层节点进行排序,选取前K个节点作为聚类节点。
作为上述实施例的一种可选实施方式,确定单元包括:分类模块,用于根据选择出的K个聚类节点的组合将目标数据划分到组合对应的类别。
作为上述实施例的一种可选实施方式,获取单元包括:接收模块,用于接收输入的神经网络模型的结构参数以确定神经网络模型的结构;训练模块,用于通过训练样本集对结构确定的神经网络模型进行训练,其中,训练样本集中的每个样本包括样本数据和样本类别标签,神经网络模型的训练目标为在输入样本数据之后的输出与样本数据对应的样本类别标签的差距最小。
作为上述实施例的一种可选实施方式,该装置还可以包括:显示单元,用于在对多个目标数据进行聚类并得到聚类结果之后,通过可视化方式显示多个目标数据的聚类分布图。
上述的装置可以包括处理器和存储器,上述单元均可以作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
上述本申请实施例的顺序不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。
其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (6)

1.一种聚类方法,其特征在于,包括:
获取神经网络模型;
将目标数据输入所述神经网络模型,确定所述目标数据对所述神经网络模型中至少一个中间层节点的激活程度;
根据每个中间层节点的激活程度在所述至少一个中间层节点中选择所述目标数据的聚类节点;
根据所述聚类节点确定所述目标数据的聚类结果;
其中,获取神经网络模型包括:接收输入的所述神经网络模型的结构参数以确定所述神经网络模型的结构;通过训练样本集对结构确定的神经网络模型进行训练,其中,所述训练样本集中的每个样本包括样本数据和样本类别标签,所述神经网络模型的训练目标为在输入所述样本数据之后的输出与所述样本数据对应的样本类别标签的差距最小;所述样本数据为动物图像,所述样本类别标签为动物的种类,所述中间层节点为动物特征;
根据每个中间层节点的激活程度在所述至少一个中间层节点中选择所述目标数据的聚类节点包括:
获取输入的所述聚类节点的数量K;
根据所述每个中间层节点的激活程度在所述至少一个中间层节点中选择K个节点作为所述聚类节点;
根据所述每个中间层节点的激活程度在所述至少一个中间层节点中选择K个节点作为所述聚类节点包括:
将所述神经网络模型在接收输入的所述目标数据之后每个中间层节点对应的激励函数的输出值作为所述激活程度;
根据所述至少一个中间层节点的激活程度分别计算每个中间层节点的排序参数值;
按照每个中间层节点的排序参数值对所述至少一个中间层节点进行排序,选取前K个节点作为所述聚类节点;
在对多个目标数据进行聚类并得到聚类结果之后,所述方法还包括:
通过可视化方式显示所述多个目标数据的聚类分布图,其中,在所述样本数据包括多维数据的情况下,所述可视化方式包括使用局部线性嵌入法进行数据降维,并用散点图进行显示。
2.根据权利要求1所述的方法,其特征在于,根据所述聚类节点确定所述目标数据的聚类结果包括:
根据选择出的K个聚类节点的组合将所述目标数据划分到所述组合对应的类别。
3.一种聚类装置,其特征在于,包括:
获取单元,用于获取神经网络模型;
输入单元,用于将目标数据输入所述神经网络模型,确定所述目标数据对所述神经网络模型中至少一个中间层节点的激活程度;
选择单元,用于根据每个中间层节点的激活程度在所述至少一个中间层节点中选择所述目标数据的聚类节点;
确定单元,用于根据所述聚类节点确定所述目标数据的聚类结果;
其中,所述获取单元包括:接收模块,用于接收输入的所述神经网络模型的结构参数以确定所述神经网络模型的结构;
训练模块,用于通过训练样本集对结构确定的神经网络模型进行训练,其中,所述训练样本集中的每个样本包括样本数据和样本类别标签,所述神经网络模型的训练目标为在输入所述样本数据之后的输出与所述样本数据对应的样本类别标签的差距最小;所述样本数据为动物图像,所述样本类别标签为动物的种类,所述中间层节点为动物特征;
所述选择单元包括:
获取模块,用于获取输入的所述聚类节点的数量K;
选择模块,用于根据所述每个中间层节点的激活程度在所述至少一个中间层节点中选择K个节点作为所述聚类节点;
所述选择模块包括:
逻辑模块,用于将所述神经网络模型在接收输入的所述目标数据之后每个中间层节点对应的激励函数的输出值作为所述激活程度;
计算模块,用于根据所述至少一个中间层节点的激活程度分别计算每个中间层节点的排序参数值;
选择子模块,用于按照每个中间层节点的排序参数值对所述至少一个中间层节点进行排序,选取前K个节点作为所述聚类节点;
所述装置还包括:
显示单元,用于在对多个目标数据进行聚类并得到聚类结果之后,通过可视化方式显示所述多个目标数据的聚类分布图,其中,在所述样本数据包括多维数据的情况下,所述可视化方式包括使用局部线性嵌入法进行数据降维,并用散点图进行显示。
4.根据权利要求3所述的装置,其特征在于,所述确定单元包括:
分类模块,用于根据选择出的K个聚类节点的组合将所述目标数据划分到所述组合对应的类别。
5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至2任意一项所述的聚类方法。
6.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至2任意一项所述的聚类方法。
CN201710457622.0A 2017-06-16 2017-06-16 聚类方法和装置 Active CN107330452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710457622.0A CN107330452B (zh) 2017-06-16 2017-06-16 聚类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710457622.0A CN107330452B (zh) 2017-06-16 2017-06-16 聚类方法和装置

Publications (2)

Publication Number Publication Date
CN107330452A CN107330452A (zh) 2017-11-07
CN107330452B true CN107330452B (zh) 2021-07-02

Family

ID=60195748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710457622.0A Active CN107330452B (zh) 2017-06-16 2017-06-16 聚类方法和装置

Country Status (1)

Country Link
CN (1) CN107330452B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110152302A (zh) * 2018-02-23 2019-08-23 北京信息科技大学 牌类游戏的手牌生成和聚类方法、设备以及处理器
CN110353657B (zh) * 2019-07-16 2021-02-02 上海数创医疗科技有限公司 一种基于双选机制的多种波形类型筛选方法及装置
CN110777625B (zh) * 2019-11-13 2021-07-20 招商局重庆交通科研设计院有限公司 一种沥青路面服役性态聚类降维评价方法
CN112826514B (zh) * 2019-11-22 2022-07-22 华为技术有限公司 一种房颤信号的分类方法、装置、终端以及存储介质
CN111368926B (zh) * 2020-03-06 2021-07-06 腾讯科技(深圳)有限公司 图像筛选方法、装置和计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITPN20100067A1 (it) * 2010-11-29 2012-05-30 Infinite S R L Procedimento per la trasmissione selettiva e personalizzata di dati ad un dispositivo mobile e sistema client/server che attua il procedimento
CN103278464B (zh) * 2013-04-18 2015-10-21 北京工商大学 鱼肉检测方法和装置
US9940577B2 (en) * 2015-07-07 2018-04-10 Adobe Systems Incorporated Finding semantic parts in images
CN105160352A (zh) * 2015-08-18 2015-12-16 中南大学 一种基于维度重构的高维数据子空间聚类投影效果优化方法
CN106529137A (zh) * 2016-10-26 2017-03-22 象翌微链科技发展有限公司 一种基于云端的ct影像共享方法及装置

Also Published As

Publication number Publication date
CN107330452A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN107330452B (zh) 聚类方法和装置
Van Horn et al. The inaturalist species classification and detection dataset
JP6862579B2 (ja) 画像特徴の取得
Branson et al. The ignorant led by the blind: A hybrid human–machine vision system for fine-grained categorization
Segalin et al. Social profiling through image understanding: Personality inference using convolutional neural networks
Patterson et al. The sun attribute database: Beyond categories for deeper scene understanding
Braun et al. Identifying prototypical components in behaviour using clustering algorithms
Nowozin et al. On parameter learning in CRF-based approaches to object class image segmentation
Hassan et al. Color image segmentation using automated K-means clustering with RGB and HSV color spaces
CN112740196A (zh) 基于知识管理人工智能系统中的识别模型
US20160063692A1 (en) Automated Food Recognition and Nutritional Estimation With a Personal Mobile Electronic Device
US11531840B2 (en) Systems, methods, and storage media for training a model for image evaluation
US20130177235A1 (en) Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations
JP2011154687A (ja) 画像データセットをナビゲートするための方法、装置、及びプログラム
CN109522970B (zh) 图像分类方法、装置及系统
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
McCormack et al. Deep learning of individual aesthetics
Ion et al. Probabilistic joint image segmentation and labeling by figure-ground composition
Bouguila On multivariate binary data clustering and feature weighting
US20220083587A1 (en) Systems and methods for organizing an image gallery
Goldfarb Understanding deep neural networks using topological data analysis
CN110543891B (zh) 数据标注方法、装置、系统及存储介质
CN115115923B (zh) 模型训练方法、实例分割方法、装置、设备及介质
Corso Toward parts-based scene understanding with pixel-support parts-sparse pictorial structures
KR102492843B1 (ko) 지리적 공간에 대한 시공간 데이터 분석 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant