CN109472322A - 基于聚类的分类方法、装置、存储介质和电子设备 - Google Patents

基于聚类的分类方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN109472322A
CN109472322A CN201811474313.5A CN201811474313A CN109472322A CN 109472322 A CN109472322 A CN 109472322A CN 201811474313 A CN201811474313 A CN 201811474313A CN 109472322 A CN109472322 A CN 109472322A
Authority
CN
China
Prior art keywords
feature
degree
features
various features
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811474313.5A
Other languages
English (en)
Other versions
CN109472322B (zh
Inventor
王阳
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811474313.5A priority Critical patent/CN109472322B/zh
Publication of CN109472322A publication Critical patent/CN109472322A/zh
Application granted granted Critical
Publication of CN109472322B publication Critical patent/CN109472322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种基于聚类的分类方法、装置、存储介质和电子设备,涉及信息技术领域,该方法包括:获取待分类的多个对象对应的多个样本数据和多种特征,每个样本数据中包括多种特征中的部分或全部特征对应的数据,根据多个样本数据,获取多种特征中的每两种特征的关联度,根据每两种特征的关联度,确定多种特征中每种特征的权值,根据每种特征的权值,对多个对象进行聚类,以确定多个对象的分类结果。能够在没有先验知识的条件下,结合特征的关联度和特征对聚类影响的大小,来对待分类对象进行分类,提高了分类的准确度。

Description

基于聚类的分类方法、装置、存储介质和电子设备
技术领域
本公开涉及信息技术领域,具体地,涉及一种基于聚类的分类方法、装置、存储介质和电子设备。
背景技术
随着互联网、云计算和物联网等信息技术的迅猛发展,相应带来的数据量也是呈现爆发式的增长,在对于某一种对象进行分类时,需要通过分析该种对象的多个特征、和多个特征对应的大量数据,得到该种对象中每个对象的指标,以实现分类。但每个特征对该种对象在分类时的影响不同,通常需要借助有监督的学习环境(例如:能够预先获取人为经验或先验知识)对多种特征进行分类标识,因此在无监督的学习环境下进行对象分类,会降低分类的准确度。例如,在对医疗卫生机构按照收费标准进行分类时,每个医疗卫生机构包括了多种特征:手术费用、治疗费用、药物费用、医保比例、药物标准等,由于收费标准涉及多个部门多方面的资金,缺少相关研究和先验知识,所以很难对医疗卫生机构进行准确分类。
发明内容
本公开的目的是提供一种基于聚类的分类方法、装置、存储介质和电子设备,用以解决现有技术中缺少先验知识时,分类准确度低的问题。
为了实现上述目的,根据本公开实施例的第一方面,提供一种基于聚类的分类方法,所述方法包括:
获取待分类的多个对象对应的多个样本数据和多种特征,每个所述样本数据中包括所述多种特征中的部分或全部特征对应的数据;
根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度;
根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值;
根据所述每种特征的权值,对所述多个对象进行聚类,以确定所述多个对象的分类结果。
可选地,所述根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度,包括:
根据第一特征和第二特征在每个所述样本数据中对应的数据,和所述第一特征和所述第二特征在全部所述样本数据中对应的数据的平均值,利用预设的第一计算公式获取所述第一特征和所述第二特征的关联度,所述第一特征和所述第二特征为所述多种特征中的任意两种特征。
可选的,所述第一计算公式包括:
其中,wAB表示所述第一特征和所述第二特征的关联度,A表示第一特征,B表示第二特征,Ai表示A在N个所述样本数据中的第i个样本数据中对应的数据,Bi表示B在N个所述样本数据中所述第i个样本数据中对应的数据,表示A在N个所述样本数据中对应的数据的平均值,表示B在N个所述样本数据中对应的数据的平均值。
可选的,根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值,包括:
根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,所述第三特征为所述多种特征中的任一种特征;其中,所述多种特征中每种特征在第一次迭代的影响度是预先设置的;
重复执行所述根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,直至所述第三特征在本次迭代的影响度满足预设影响度条件时,将所述第三特征在本次迭代的影响度作为所述第三特征的权值。
可选的,所述第二计算公式包括:
其中,S表示本次迭代的迭代次数,S-1表示上一次迭代的迭代次数,A表示所述第三特征,Qs(A)表示A在本次迭代的影响度,B表示所述多种特征中除A之外的所有特征中的任一特征,Qs-1(B)表示B在上一次迭代的影响度,K表示所述多种特征中的任一特征,wAB表示A和B的关联度,wKB表示K和B的关联度;
所述预设影响度条件包括:
Qs(A)与Qs-1(A)的差值的绝对值小于预设的影响阈值;和/或,
S等于预设数值。
可选的,所述根据所述每种特征的权值,对所述多个对象进行聚类,以确定所述多个对象的分类结果,包括:
根据所述每种特征的权值,确定所述每种特征在所述多种特征中的顺序;
根据所述顺序对所述多个对象进行聚类,以确定所述多个对象的分类结果。
根据本公开实施例的第二方面,提供一种基于聚类的分类装置,所述装置包括:
数据获取模块,用于获取待分类的多个对象对应的多个样本数据和多种特征,每个所述样本数据中包括所述多种特征中的部分或全部特征对应的数据;
关联度获取模块,用于根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度;
确定模块,用于根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值;
聚类模块,用于根据所述每种特征的权值,对所述多个对象进行聚类,以确定所述多个对象的分类结果。
可选的,所述关联度获取模块用于:
根据第一特征和第二特征在每个所述样本数据中对应的数据,和所述第一特征和所述第二特征在全部所述样本数据中对应的数据的平均值,利用预设的第一计算公式获取所述第一特征和所述第二特征的关联度,所述第一特征和所述第二特征为所述多种特征中的任意两种特征。
可选的,所述第一计算公式包括:
其中,wAB表示所述第一特征和所述第二特征的关联度,A表示第一特征,B表示第二特征,Ai表示A在N个所述样本数据中的第i个样本数据中对应的数据,Bi表示B在N个所述样本数据中所述第i个样本数据中对应的数据,表示A在N个所述样本数据中对应的数据的平均值,表示B在N个所述样本数据中对应的数据的平均值。
可选的,所述确定模块包括:
影响度确定子模块,用于根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,所述第三特征为所述多种特征中的任一种特征;其中,所述多种特征中每种特征在第一次迭代的影响度是预先设置的;
迭代子模块,用于重复执行所述根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,直至所述第三特征在本次迭代的影响度满足预设影响度条件时,将所述第三特征在本次迭代的影响度作为所述第三特征的权值。
可选的,所述第二计算公式包括:
其中,S表示本次迭代的迭代次数,S-1表示上一次迭代的迭代次数,A表示所述第三特征,Qs(A)表示A在本次迭代的影响度,B表示所述多种特征中除A之外的所有特征中的任一特征,Qs-1(B)表示B在上一次迭代的影响度,K表示所述多种特征中的任一特征,wAB表示A和B的关联度,wKB表示K和B的关联度;
所述预设影响度条件包括:
Qs(A)与Qs-1(A)的差值的绝对值小于预设的影响阈值;和/或,
S等于预设数值。
可选的,所述聚类模块包括:
排序子模块,用于根据所述每种特征的权值,确定所述每种特征在所述多种特征中的顺序;
聚类子模块,用于根据所述顺序对所述多个对象进行聚类,以确定所述多个对象的分类结果。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面提供的基于聚类的分类方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面提供的基于聚类的分类方法的步骤。
通过上述技术方案,本公开首先获取待分类的多个对象对应的多个样本数据和多种特征,其中,每个样本数据中都包括多种特征中的部分或全部特征对应的数据,再根据全部样本数据中每两种特征对应的数据,确定每两种特征的关联度,之后根据每两种特征的关联度,确定全部特征中每种特征的权值,最后根据每种特征的权值对多个对象进行聚类,以便对多个对象进行分类,以获取多个对象的分类结果。能够在没有先验知识的条件下,结合特征的关联度和特征对聚类影响的大小,来对待分类对象进行分类,提高了分类的准确度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种基于聚类的分类方法的流程图;
图2是根据一示例性实施例示出的另一种基于聚类的分类方法的流程图;
图3是根据一示例性实施例示出的另一种基于聚类的分类方法的流程图;
图4是根据一示例性实施例示出的一种基于聚类的分类装置的框图;
图5是根据一示例性实施例示出的另一种基于聚类的分类装置的框图;
图6是根据一示例性实施例示出的另一种基于聚类的分类装置的框图;
图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在介绍本公开提供的基于聚类的分类方法、装置、存储介质和电子设备之前,首先对本公开中各个实施例所涉及的应用场景进行介绍,该应用场景为对多个对象进行分类,待分类的多个对象中,每个对象包括多个特征和多个特征对应的数据。
图1是根据一示例性实施例示出的一种基于聚类的分类方法的流程图,如图1所示,该方法包括:
步骤101,获取待分类的多个对象对应的多个样本数据和多种特征,每个样本数据中包括多种特征中的部分或全部特征对应的数据。
举例来说,要对待分类的多个对象进行分类,首先需要获取多个对象对应的多个特征和多个样本数据,其中,每个对象都对应多种特征和至少一个样本数据,每个样本数据中记录的是多种特征中的部分或全部特征对应的数据(每个样本数据中可以包括多个数据,每个数据对应一个对象的一个特征的数据,如果某一对象的某个特征没有对应的数据,对应的样本数据中该对象的该特征的数据可以记为零)。以待分类的多个对象为多个医院(医院A、医院B、医院C、医院D…)为例,需要根据每个医院的收费标准进行分类,对应的每个医院都有手术费用、治疗费用、药物费用三个特征,对应的样本数据如表1所示,其中每个特征对应的数据可以理解为该种费用在总费用中的占比。
表1
手术费用(%) 治疗费用(%) 药物费用(%)
医院A 80% 10% 10%
医院B 65% 20% 15%
医院C 55% 20% 30%
医院D 70% 10% 20%
... ... ... ...
步骤102,根据多个样本数据,获取多种特征中的每两种特征的关联度。
示例的,将多个样本数据按照多种特征进行划分,确定多种特征中的每两种特征的关联度。其中,两种特征的关联度能够反映两种特征之间的关联程度,关联程度越高,表示两种特征关联越紧密,例如可以利用Jaccard相似系数作为两种特征的关联度,还可以根据两个特征在每个样本数据中对应的数据,和两个特征在全部样本数据中的统计特征来确定两种特征的关联度。
步骤103,根据每两种特征的关联度,确定多种特征中每种特征的权值。
举例来说,在确定每两种特征的关联度之后,可以根据每两种特征的关联度,确定多种特征中每种特征的权值。其中,每种特征的权值表示该特征对多个对象分类时影响的大小。例如,在对多个医院按照收费标准进行分类时,手术费用、治疗费用、药物费用三个特征对分类的影响大小各不相同,三个特征对应的权值也各不相同。以手术费用为例,手术费用能够反映医院中进行手术的数量,进一步的能够反映医院中的医疗设备和医生资源的配置,当手术费用对应的权值比较大时,对应的在对多个医院进行分类时影响大。
步骤104,根据每种特征的权值,对多个对象进行聚类,以确定多个对象的分类结果。
示例的,得到每种特征的权值之后,可以按照每个特征的权值大小进行排序,以此对多个对象进行聚类,将彼此相似的对象分为一组,以多个对象的聚类结果作为分类结果。例如,在对多个医院按照收费标准进行分类时,根据手术费用、治疗费用、药物费用三个特征的权值大小,对多个医院进行分类,可以将多个医院分为三级甲等医院、三级乙等医院等类型。
以表1中的样本数据来举例,待分类的多个对象为50个,即对应有50个样本数据,如果需要将医院分为甲等医院、乙等医院、丙等医院3种类别,那么可以在50个样本数据中,随机挑选3个样本数据,作为每种类别医院初始的中心样本。之后,利用每个医院的每种特征的权值,通过空间距离公式计算50个样本数据分别到这3个中心样本的空间距离,空间距离公式为:
其中,dnk表示第n个样本数据到第k个中心样本的空间距离,每个样本数据包含M个特征,p为M个特征中第p个特征,Wp表示在步骤103中求得的第p个特征对应的权值,xp表示第n个样本数据中p对应的数据,cp表示第k个中心样本中p对应的数据。
在获取到50个样本数据分别到这3个中心样本的空间距离后,一个样本数据到3个中心样本中某一中心样本的空间距离最小,将该样本数分配到该中心样本所代表的类别中。将50个样本数据依次分配完之后,更新每个类别的中心样本,每个类别的中心样本中每个特征的值为每个类别中所有样本数据对应的每个特征的平均值。再重复执行计算50个样本数据分别到更新后的3个中心样本的空间距离、根据空间距离对50个样本数据进行分配、更新每个类别的中心样本的步骤,直至满足预设条件(例如:预设的迭代次数,或者每个类别的中心样本在更新前后的变化量小于预设的阈值),得到的结果即为,50个医院的分类结果。
综上所述,本公开首先获取待分类的多个对象对应的多个样本数据和多种特征,其中,每个样本数据中都包括多种特征中的部分或全部特征对应的数据,再根据全部样本数据中每两种特征对应的数据,确定每两种特征的关联度,之后根据每两种特征的关联度,确定全部特征中每种特征的权值,最后根据每种特征的权值对多个对象进行聚类,以便对多个对象进行分类,以获取多个对象的分类结果。能够在没有先验知识的条件下,结合特征的关联度和特征对聚类影响的大小,来对待分类对象进行分类,提高了分类的准确度。
可选的,步骤102可以通过以下方式来实现:
根据第一特征和第二特征在每个样本数据中对应的数据,和第一特征和第二特征在全部样本数据中对应的数据的平均值,利用预设的第一计算公式获取第一特征和第二特征的关联度,第一特征和第二特征为多种特征中的任意两种特征。
其中,第一计算公式可以包括:
其中,wAB表示第一特征和第二特征的关联度,A表示第一特征,B表示第二特征,Ai表示A在N个样本数据中的第i个样本数据中对应的数据,Bi表示B在N个样本数据中的第i个样本数据中对应的数据,表示A在N个样本数据中对应的数据的平均值,表示B在N个样本数据中对应的数据的平均值。
举例来说,以第一特征和第二特征为多种特征中的任意两种特征为例,可以根据第一特征和第二特征在每个样本数据中对应的数据和第一特征和第二特征在全部样本数据中对应的数据的平均值,来获取第一特征和第二特征的关联度。以表1中医院A、医院B、医院C、医院D的样本数据为例,治疗费用和药物费用两个特征的关联度为0.0075/(0.1*0.1479)=0.507。
图2是根据一示例性实施例示出的另一种基于聚类的分类方法的流程图,如图2所示,步骤103可以包括:
步骤1031,根据每两种特征的关联度,和多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定第三特征在本次迭代的影响度,第三特征为多种特征中的任一种特征。其中,多种特征中每种特征在第一次迭代的影响度是预先设置的。
步骤1032,重复执行步骤1031,直至第三特征在本次迭代的影响度满足预设影响度条件时,将第三特征在本次迭代的影响度作为第三特征的权值。
举例来说,可以根据每两种特征的关联度,和多种特征中除第三特征之外的所有特征的影响度,通过多次迭代来确定第三特征的权值。首先,在第一次迭代时,设置每种特征在第一次迭代的影响度为初始值(例如可以将每种特征在第一迭代的影响度都设置为1),再进行第二次迭代:第二次迭代根据每两种特征的关联度,和多种特征中除第三特征之外的所有特征在上一次迭代(即第一次迭代)的影响度,计算第三特征在第二次迭代的影响度,再进行第三次迭代,以此类推,经过多次迭代后,直至第三特征在本次迭代的影响度满足预设影响度条件时,将第三特征在本次迭代的影响度作为第三特征的权值。其中,预设影响度条件可以是连着两次迭代得到的第三特征的影响度变化小于预设的阈值,或者迭代次数达到了预设的次数。
其中,第二计算公式可以包括:
其中,S表示本次迭代的迭代次数,S-1表示上一次迭代的迭代次数,A表示第三特征,Qs(A)表示A在本次迭代的影响度,B表示多种特征中除A之外的所有特征中的任一特征,Qs-1(B)表示B在上一次迭代的影响度,K表示多种特征中的任一特征,wAB表示A和B的关联度,wKB表示K和B的关联度。
预设影响度条件包括:
1)Qs(A)与Qs-1(A)的差值的绝对值小于预设的影响阈值。和/或,
2)S等于预设数值。
其中,每种特征在第一次迭代的影响度为初始值可以设置为1,即Q0(A)=1,Q0(B)=1。
需要说明的是,可以将步骤102至103的执行过程理解为:建立了包含了多种特征的关联网络,关联网络中的每个节点对应一种特征,关联网络中的每两个节点之间都有一条连线(即一条边),每条边的值对应该条边两端节点之间的关联度。关联网络中的总影响度始终是守恒的,以每个节点的初始影响度(即每种特征在第一次迭代的影响度)设置为1,关联网络中包括M个节点为例,关联网络中的总影响度为M,经过多次迭代,一些节点的影响度会大于1(对应的特征会扩大对多个对象分类的影响),另一些节点的影响度会小于1(对应的特征会降低对多个对象分类的影响),而M个节点的影响度之和仍为M。
图3是根据一示例性实施例示出的另一种基于聚类的分类方法的流程图,如图3所示,步骤104可以通过以下步骤来实现:
步骤1041,根据每种特征的权值,确定每种特征在多种特征中的顺序。
步骤1042,根据顺序对多个对象进行聚类,以确定多个对象的分类结果。
举例来说,在一种实现方式中,根据每种特征的权值,对多种特征进行排序,排序靠前的特征对多个对象分类的影响大,排序靠后的特征对多个对象分类的影响小。根据多个特征的顺序对多个对象进行聚类,将彼此相似的对象分为一组,将多个对象的聚类结果作为分类结果,例如可以选择多个特征中排序靠前的Q个特征作为对多个对象进行聚类,而排序在Q个特征之后的多个特征,可以理解为不会影响到对多个对象的聚类。此外,在另一种实现方式中,还可以设置预设值作为分类的阈值,对多个对象进行分类,每个对象对应多个特征,可以选择权值大于预设值的一部分特征对多个对象进行聚类,以确定多个对象的分类结果。或者,还可以结合多个特征对应的样本数据和多个特征的权值,依次计算每个对象的指标,再根据每个对象的指标对多个对象进行聚类,以确定多个对象的分类结果。其中,每个对象的指标可以通过以下公式来计算:
其中,DX表示多个对象中的第X个对象的指标,Aj表示M个特征中的第j个特征,Q(Aj)表示Aj对应的权值,AXj表示第X个学校对应的样本数据中Aj的数据。
以对象为学校为例,每个学校对应5个特征:升学率、学生数量、教师数量、实验室数量、班级数量,对应的权值分别为1.2、0.7、1.1、1.5、0.5,其中第X个学校对应的样本数据中升学率、学生数量、教师数量、实验室数量、班级数量对应的数据分别为:10、15、25、10、30,那么第X个学校对应的指标为1.2*10+0.7*15+1.1*25+1.5*10+0.5*30=80。可以依次计算每个学校的指标,再根据每个学校的指标对多个学校进行聚类,以确定多个学校的分类结果。
综上所述,本公开首先获取待分类的多个对象对应的多个样本数据和多种特征,其中,每个样本数据中都包括多种特征中的部分或全部特征对应的数据,再根据全部样本数据中每两种特征对应的数据,确定每两种特征的关联度,之后根据每两种特征的关联度,确定全部特征中每种特征的权值,最后根据每种特征的权值对多个对象进行聚类,以便对多个对象进行分类,以获取多个对象的分类结果。能够在没有先验知识的条件下,结合特征的关联度和特征对聚类影响的大小,来对待分类对象进行分类,提高了分类的准确度。
图4是根据一示例性实施例示出的一种基于聚类的分类装置的框图,如图4所示,该装置200包括:
数据获取模块201,用于获取待分类的多个对象对应的多个样本数据和多种特征,每个样本数据中包括多种特征中的部分或全部特征对应的数据。
关联度获取模块202,用于根据多个样本数据,获取多种特征中的每两种特征的关联度。
确定模块203,用于根据每两种特征的关联度,确定多种特征中每种特征的权值。
聚类模块204,用于根据每种特征的权值,对多个对象进行聚类,以确定多个对象的分类结果。
可选的,关联度获取模块202可以用于实现以下步骤:
根据第一特征和第二特征在每个样本数据中对应的数据,和第一特征和第二特征在全部样本数据中对应的数据的平均值,利用预设的第一计算公式获取第一特征和第二特征的关联度,第一特征和第二特征为多种特征中的任意两种特征。
其中,第一计算公式包括:
其中,wAB表示第一特征和第二特征的关联度,A表示第一特征,B表示第二特征,Ai表示A在N个样本数据中的第i个样本数据中对应的数据,Bi表示B在N个样本数据中第i个样本数据中对应的数据,表示A在N个样本数据中对应的数据的平均值,表示B在N个样本数据中对应的数据的平均值。
图5是根据一示例性实施例示出的另一种基于聚类的分类装置的框图,确定模块203可以包括:
影响度确定子模块2031,用于根据每两种特征的关联度,和多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定第三特征在本次迭代的影响度,第三特征为多种特征中的任一种特征。其中,多种特征中每种特征在第一次迭代的影响度是预先设置的。
迭代子模块2032,用于重复执行根据每两种特征的关联度,和多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定第三特征在本次迭代的影响度,直至第三特征在本次迭代的影响度满足预设影响度条件时,将第三特征在本次迭代的影响度作为第三特征的权值。
可选的,第二计算公式包括:
其中,S表示本次迭代的迭代次数,S-1表示上一次迭代的迭代次数,A表示第三特征,Qs(A)表示A在本次迭代的影响度,B表示多种特征中除A之外的所有特征中的任一特征,Qs-1(B)表示B在上一次迭代的影响度,K表示多种特征中的任一特征,wAB表示A和B的关联度,wKB表示K和B的关联度。
预设影响度条件包括:
Qs(A)与Qs-1(A)的差值的绝对值小于预设的影响阈值。和/或,
S等于预设数值。
图6是根据一示例性实施例示出的另一种基于聚类的分类装置的框图,聚类模块204包括:
排序子模块2041,用于根据每种特征的权值,确定每种特征在多种特征中的顺序。
聚类子模块2042,用于根据顺序对多个对象进行聚类,以确定多个对象的分类结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本公开首先获取待分类的多个对象对应的多个样本数据和多种特征,其中,每个样本数据中都包括多种特征中的部分或全部特征对应的数据,再根据全部样本数据中每两种特征对应的数据,确定每两种特征的关联度,之后根据每两种特征的关联度,确定全部特征中每种特征的权值,最后根据每种特征的权值对多个对象进行聚类,以便对多个对象进行分类,以获取多个对象的分类结果。能够在没有先验知识的条件下,结合特征的关联度和特征对聚类影响的大小,来对待分类对象进行分类,提高了分类的准确度。
图7是根据一示例性实施例示出的一种电子设备300的框图。如图7所示,该电子设备300可以包括:处理器301,存储器302。该电子设备300还可以包括多媒体组件303,输入/输出(I/O)接口304,以及通信组件305中的一者或多者。
其中,处理器301用于控制该电子设备300的整体操作,以完成上述的基于聚类的分类方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作,这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件305可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的基于聚类的分类方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的基于聚类的分类方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器302,上述程序指令可由电子设备300的处理器301执行以完成上述的基于聚类的分类方法。
综上所述,本公开首先获取待分类的多个对象对应的多个样本数据和多种特征,其中,每个样本数据中都包括多种特征中的部分或全部特征对应的数据,再根据全部样本数据中每两种特征对应的数据,确定每两种特征的关联度,之后根据每两种特征的关联度,确定全部特征中每种特征的权值,最后根据每种特征的权值对多个对象进行聚类,以便对多个对象进行分类,以获取多个对象的分类结果。能够在没有先验知识的条件下,结合特征的关联度和特征对聚类影响的大小,来对待分类对象进行分类,提高了分类的准确度。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,本领域技术人员在考虑说明书及实践本公开后,容易想到本公开的其它实施方案,均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。同时本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。本公开并不局限于上面已经描述出的精确结构,本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于聚类的分类方法,其特征在于,所述方法包括:
获取待分类的多个对象对应的多个样本数据和多种特征,每个所述样本数据中包括所述多种特征中的部分或全部特征对应的数据;
根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度;
根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值;
根据所述每种特征的权值,对所述多个对象进行聚类,以确定所述多个对象的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度,包括:
根据第一特征和第二特征在每个所述样本数据中对应的数据,和所述第一特征和所述第二特征在全部所述样本数据中对应的数据的平均值,利用预设的第一计算公式获取所述第一特征和所述第二特征的关联度,所述第一特征和所述第二特征为所述多种特征中的任意两种特征。
3.根据权利要求2所述的方法,其特征在于,所述第一计算公式包括:
其中,wAB表示所述第一特征和所述第二特征的关联度,A表示第一特征,B表示第二特征,Ai表示A在N个所述样本数据中的第i个样本数据中对应的数据,Bi表示B在N个所述样本数据中所述第i个样本数据中对应的数据,表示A在N个所述样本数据中对应的数据的平均值,表示B在N个所述样本数据中对应的数据的平均值。
4.根据权利要求1所述的方法,其特征在于,根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值,包括:
根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,所述第三特征为所述多种特征中的任一种特征;其中,所述多种特征中每种特征在第一次迭代的影响度是预先设置的;
重复执行所述根据所述每两种特征的关联度,和所述多种特征中除第三特征之外的所有特征在上一次迭代的影响度,利用预设的第二计算公式确定所述第三特征在本次迭代的影响度,直至所述第三特征在本次迭代的影响度满足预设影响度条件时,将所述第三特征在本次迭代的影响度作为所述第三特征的权值。
5.根据权利要求4所述的方法,其特征在于,所述第二计算公式包括:
其中,S表示本次迭代的迭代次数,S-1表示上一次迭代的迭代次数,A表示所述第三特征,Qs(A)表示A在本次迭代的影响度,B表示所述多种特征中除A之外的所有特征中的任一特征,Qs-1(B)表示B在上一次迭代的影响度,K表示所述多种特征中的任一特征,wAB表示A和B的关联度,wKB表示K和B的关联度;
所述预设影响度条件包括:
Qs(A)与Qs-1(A)的差值的绝对值小于预设的影响阈值;和/或,
S等于预设数值。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述根据所述每种特征的权值,对所述多个对象进行聚类,以确定所述多个对象的分类结果,包括:
根据所述每种特征的权值,确定所述每种特征在所述多种特征中的顺序;
根据所述顺序对所述多个对象进行聚类,以确定所述多个对象的分类结果。
7.一种基于聚类的分类装置,其特征在于,所述装置包括:
数据获取模块,用于获取待分类的多个对象对应的多个样本数据和多种特征,每个所述样本数据中包括所述多种特征中的部分或全部特征对应的数据;
关联度获取模块,用于根据所述多个样本数据,获取所述多种特征中的每两种特征的关联度;
确定模块,用于根据所述每两种特征的关联度,确定所述多种特征中每种特征的权值;
聚类模块,用于根据所述每种特征的权值,对所述多个对象进行聚类,以确定所述多个对象的分类结果。
8.根据权利要求7所述的装置,其特征在于,所述关联度获取模块用于:
根据第一特征和第二特征在每个所述样本数据中对应的数据,和所述第一特征和所述第二特征在全部所述样本数据中对应的数据的平均值,利用预设的第一计算公式获取所述第一特征和所述第二特征的关联度,所述第一特征和所述第二特征为所述多种特征中的任意两种特征。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。
CN201811474313.5A 2018-12-04 2018-12-04 基于聚类的分类方法、装置、存储介质和电子设备 Active CN109472322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811474313.5A CN109472322B (zh) 2018-12-04 2018-12-04 基于聚类的分类方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811474313.5A CN109472322B (zh) 2018-12-04 2018-12-04 基于聚类的分类方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN109472322A true CN109472322A (zh) 2019-03-15
CN109472322B CN109472322B (zh) 2020-11-27

Family

ID=65675521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811474313.5A Active CN109472322B (zh) 2018-12-04 2018-12-04 基于聚类的分类方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN109472322B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610200A (zh) * 2019-08-27 2019-12-24 浙江大搜车软件技术有限公司 车商分类方法、装置、计算机设备及存储介质
CN113516334A (zh) * 2021-03-12 2021-10-19 中电建电力检修工程有限公司 一种大坝的接缝和裂缝的检验方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273918A (zh) * 2017-05-26 2017-10-20 国信优易数据有限公司 一种样本数据类别确定方法和设备
CN108021713A (zh) * 2017-12-28 2018-05-11 北京奇艺世纪科技有限公司 一种文档聚类的方法和装置
CN108038500A (zh) * 2017-12-07 2018-05-15 东软集团股份有限公司 聚类方法、装置、计算机设备、存储介质和程序产品

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273918A (zh) * 2017-05-26 2017-10-20 国信优易数据有限公司 一种样本数据类别确定方法和设备
CN108038500A (zh) * 2017-12-07 2018-05-15 东软集团股份有限公司 聚类方法、装置、计算机设备、存储介质和程序产品
CN108021713A (zh) * 2017-12-28 2018-05-11 北京奇艺世纪科技有限公司 一种文档聚类的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张作刚 等: "灰色聚类分析在航材分类中的运用", 《四川兵工学报》 *
张雪胭 等: "评价指标关联性制约设计", 《火力与指挥控制》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610200A (zh) * 2019-08-27 2019-12-24 浙江大搜车软件技术有限公司 车商分类方法、装置、计算机设备及存储介质
CN113516334A (zh) * 2021-03-12 2021-10-19 中电建电力检修工程有限公司 一种大坝的接缝和裂缝的检验方法及系统

Also Published As

Publication number Publication date
CN109472322B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
US11238310B2 (en) Training data acquisition method and device, server and storage medium
Zhang et al. Community detection in networks with node features
CN103559504B (zh) 图像目标类别识别方法及装置
Li et al. Adaptive swarm balancing algorithms for rare-event prediction in imbalanced healthcare data
WO2020147488A1 (zh) 异常群体识别方法及装置
CN105446988B (zh) 预测类别的方法和装置
CN110046698A (zh) 异质图神经网络生成方法、装置、电子设备及存储介质
CN108804641A (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN109145299A (zh) 一种文本相似度确定方法、装置、设备及存储介质
Hajiabadi et al. IEDC: An integrated approach for overlapping and non-overlapping community detection
WO2019169704A1 (zh) 一种数据分类方法、装置、设备及计算机可读存储介质
Jiang et al. An efficient community detection method based on rank centrality
CN110019790A (zh) 文本识别、文本监控、数据对象识别、数据处理方法
CN109472322A (zh) 基于聚类的分类方法、装置、存储介质和电子设备
CN109753275A (zh) 应用编程接口的推荐方法、装置、存储介质和电子设备
CN109656541A (zh) 开发资源的推荐方法、装置、存储介质和电子设备
CN109492047A (zh) 一种基于差分隐私的精确直方图的发布方法
CN110533459A (zh) 一种基于梯度提升算法的终端更换概率预测方法及装置
CN110175469A (zh) 一种社交媒体用户隐私泄漏检测方法、系统、设备及介质
Kovács et al. Optimisation of the coalescent hyperbolic embedding of complex networks
Kadak Fractional type multivariate sampling operators
CN110019827A (zh) 一种语料库生成方法、装置、设备和计算机存储介质
CN115081613A (zh) 生成深度学习模型的方法、装置、电子设备及存储介质
CN107644101B (zh) 信息分类方法和装置、信息分类设备及计算机可读介质
CN109657695A (zh) 一种基于确定性退火的模糊划分聚类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant