CN109829498A - 基于聚类分析的粗分类方法、装置、终端设备和存储介质 - Google Patents
基于聚类分析的粗分类方法、装置、终端设备和存储介质 Download PDFInfo
- Publication number
- CN109829498A CN109829498A CN201910097750.8A CN201910097750A CN109829498A CN 109829498 A CN109829498 A CN 109829498A CN 201910097750 A CN201910097750 A CN 201910097750A CN 109829498 A CN109829498 A CN 109829498A
- Authority
- CN
- China
- Prior art keywords
- sample data
- subseries
- category
- data
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于聚类分析的粗分类方法、装置、终端设备和存储介质,该方法中:获取通过预先按照设定的聚类算法对待分类样本数据进行分类确定的第一分类结果,应用第一次分类得到的第一样本数据和第二样本数据训练得到第一级SVM分类器,将第一级SVM分类器的待分类样本数据输入至第一级SVM分类器进行分类;应用上一次分类得到的第一样本数据和第二样本数据训练得到下一级SVM分类器,将下一级SVM分类器的待分类样本数据输入至下一级SVM分类器,直至满足停止分类条件中的第一停止分类条件和第二停止分类条件中的任一个时,停止分类。减少了每级SVM分类器分类误差累积,提高了大数据分类过程中的分类器识别准确率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于聚类分析的粗分类方法、装置、终端设备和存储介质。
背景技术
随着科技的发展,人们的生活中面临着大量的数据,却往往无法找到需要的信息,信息爆炸使得如何有效地利用和处理大量的数据成为当今世界共同关心的问题。随着数据库技术、人工智能、数理统计和云计算等技术的发展,数据挖掘技术在各行各业得到了迅速应用。
从技术角度来讲,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中人们事先不知道但又是潜在有用的信息和知识的过程;从商业角度来讲,数据挖掘是一种新的商业信息处理技术,其主要特点是对数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取有利于商业决策的关键信息和知识。在数据挖掘中,大数据集粗分类的准确性是一个重要的指标。
相关技术中,现有的SVM(Support Vector Machine,支持向量机)组合分类识别器识别的准确率受样本分布的影响很大,SVM组合分类器方法中,无法避免因样本错分带来的误差累积;Kd-tree方法应用于大数据集检索时,虽然准确率较高,但是计算量过大,且依赖于初始数据集的分布。
发明内容
有鉴于此,本发明提供一种基于聚类分析的粗分类方法、装置、终端设备和存储介质,以解决现有技术中大数据分类时的分类器识别准确率低的问题。
本发明采用如下技术方案:
第一方面,本发明实施例提供了一种基于聚类分析的粗分类方法,该方法包括:
获取第一次分类结果,其中,所述第一次分类结果通过预先按照设定的聚类算法对待分类样本数据进行分类确定,第一次分类结果包括属于第一次分类中第一类别的第一样本数据、属于第一次分类中第二类别的第二样本数据,以及属于第一次分类中第一类别和第二类别的共有样本数据;
应用所述第一次分类得到的第一样本数据和第二样本数据训练得到第一级SVM分类器,确定所述第一级SVM分类器的待分类样本数据,将所述第一级SVM分类器的待分类样本数据输入至所述第一级SVM分类器进行分类,得到第二次分类结果,其中,所述第二次分类结果包括属于第二次分类中第一类别的第一样本数据、属于第二次分类中第二类别的第二样本数据,以及属于第二次分类中第一类别和第二类别的共有样本数据;
应用上一次分类得到的第一样本数据和第二样本数据练得到下一级SVM分类器,确定所述下一级SVM分类器的待分类样本数据,将所述下一级SVM分类器的待分类样本数据输入至所述下一级SVM分类器,得到下一次分类结果,其中,所述下一次分类结果包括属于下一次分类中第一类别的第一样本数据、属于下一次分类中第二类别的第二样本数据,以及属于下一次分类中第一类别和第二类别的共有样本数据;
直至满足停止分类条件,其中,所述停止分类条件包括第一停止分类条件和第二停止分类条件之一,所述第一停止分类条件包括属于下一次分类中第一样本数据和共有样本数据的数据量小于第一预设阈值,或,属于下一次分类中的第二样本数据和共有样本数据的数据量小于第一预设阈值;所述第二停止分类条件包括所述属于下一次的第一样本数据和共有样本数据的全部类别为单一类别,或,属于下一次的第一样本数据和共有样本数据的全部类别为单一类别;
其中,通过上一次分类结果中第一样本数据和共有样本数据,以及,上一次分类结果中第二样本数据和共有样本数据确定每一级分类器的待分类样本数据。
第二方面,本发明实施例提供了一种基于聚类分析的粗分类装置,该装置包括:
获取模块,用于获取第一次分类结果,其中,所述第一次分类结果通过预先按照设定的聚类算法对待分类样本数据进行分类确定,第一次分类结果包括属于第一次分类中第一类别的第一样本数据、属于第一次分类中第二类别的第二样本数据,以及属于第一次分类中第一类别和第二类别的共有样本数据;
分类模块,用于应用所述第一次分类得到的第一样本数据和第二样本数据训练得到第一级SVM分类器,确定所述第一级SVM分类器的待分类样本数据,将所述第一级SVM分类器的待分类样本数据输入至所述第一级SVM分类器进行分类,得到第二次分类结果,其中,所述第二次分类结果包括属于第二次分类中第一类别的第一样本数据、属于第二次分类中第二类别的第二样本数据,以及属于第二次分类中第一类别和第二类别的共有样本数据;还用于应用上一次分类得到的第一样本数据和第二样本数据训练得到下一级SVM分类器,确定所述下一级SVM分类器的待分类样本数据,将所述下一级SVM分类器的待分类样本数据输入至所述下一级SVM分类器,得到下一次分类结果,其中,所述下一次分类结果包括属于下一次分类中第一类别的第一样本数据、属于下一次分类中第二类别的第二样本数据,以及属于下一次分类中第一类别和第二类别的共有样本数据;
直至满足停止分类条件,其中,所述停止分类条件包括第一停止分类条件和第二停止分类条件之一,所述第一停止分类条件包括属于下一次分类中第一样本数据和共有样本数据的数据量小于第一预设阈值,或,属于下一次分类中的第二样本数据和共有样本数据的数据量小于第一预设阈值;所述第二停止分类条件包括所述属于下一次的第一样本数据和共有样本数据的全部类别为单一类别,或,属于下一次的第一样本数据和共有样本数据的全部类别为单一类别;通过上一次分类结果中第一样本数据和共有样本数据,以及,上一次分类结果中第二样本数据和共有样本数据确定每一级分类器的待分类样本数据。
第三方面,本发明实施例提供了一种终端设备,包括:处理器,以及与所述处理器相连接的存储器;所述存储器用于存储计算机程序,所述计算机程序至少用于执行本发明实施例所述的方法;所述处理器用于调用并执行所述存储器中的所述计算机程序。
第四方面,本发明实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如本发明实施例所述的方法中各个步骤。
本发明采用以上技术方案,首先通过预先按照设定的聚类算法对待分类样本进行一次大致分类,获取第一次分类结果中同时属于第一类别和第二类别的共有样本数据,这样减少了分类误差;然后应用第一分类得到的第一样本数据和第二样本数据训练得到第一级SVM分类器,将所述第一级SVM分类器的待分类样本数据输入至所述第一级SVM分类器进行分类,得到第二次分类结果;循环应用各级分类器对待分类的样本进行分类的操作,直至满足停止分类条件中的第一停止分类条件和第二停止分类条件中的任一个时,停止分类,其中,每次通过上一次分类结果中第一样本数据和共有样本数据,以及,上一次分类结果中第二样本数据和共有样本数据确定每一级分类器的待分类样本数据,减少了每级SVM分类器分类误差累积,进而提高了分类器识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于聚类分析的粗分类方法的流程图;
图2是本发明实施例中适用的一种kd-tree树型粗分类的示意图;
图3是本发明实施例提供的一种基于聚类分析的粗分类装置的结构示意图;
图4是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
首先对本发明实施例的应用场景以及相关概念进行说明:k-means算法是一种基于样本间相似度量的间聚类方法,属于非监督学习的方法。该算法以k为参数,将n个对象分为k个簇,以使簇内具有较高的相似度,而且簇间的相似度较低。SVM是在特征空间或者特征的高维映射空间里建立一个最大间隔超平面,在分割数据的超平面的两边建有两个互相平行的超平面,建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化,通常情况下,假定平行超平面间的距离或差距越大,分类器的总误差越小。在实际的应用过程中,如果n比较大的情况下算法的时间复杂度比较高,因此需要缩小搜索范围,提高算法的运行效率,因此有必要对图像或者特征做粗分类处理。
k-means聚类算法是根据样本距离选择的中心点的距离来判断样本所属簇类,当样本位于两簇类的连接地带时错分样本的概率较大,而用SVM找到的分割平面能很好的找到处于连接地带附近的样本,把这类样本分属于左右两个子孩子。因此,本发明的技术方案中,应用k-means-SVM相结合的分类方法,再利用二叉树的生长方式来做粗分类,进而随着粗分类过程中随着数据量的减少,可以使用kd-tree做kNN(k-NearestNeighbor,k-最近邻)检索分类。
实施例一
图1为本发明实施例提供的一种基于聚类分析的粗分类方法的流程图,该方法可以由本发明实施例提供的基于聚类分析的粗分类装置来执行,该装置可采用软件和/或硬件的方式实现。参考图1,该方法具体可以包括如下步骤:
S101、获取第一次分类结果,其中,所述第一次分类结果通过预先按照设定的聚类算法对待分类样本数据进行分类确定,第一次分类结果包括属于第一次分类中第一类别的第一样本数据、属于第一次分类中第二类别的第二样本数据,以及属于第一次分类中第一类别和第二类别的共有样本数据。
具体的,预先按照设定的聚类算法对待分类样本数据进行分类,其中,设定的聚类算法可以是k-means算法,在应用k-means算法分类的过程中,可以根据待分类样本数据的维度进行分类。在一个具体的例子中,假设待分类样本数据类别包括汽车、人、猫、包和牛奶等,每个类别均具有不同的维度,例如维度可以是重量、体积和数量等。需要说明的是,本发明实施例通常应用在大数据处理领域,对类别以及维度的举例只是用来示意,并不形成具体的限定。
获取第一次分类结果,其中,第一次分类结果包括属于第一次分类中第一类别的第一样本数据、属于第一次分类中第二类别的第二样本数据,以及属于第一次分类中第一类别和第二类别的共有样本数据。在一个具体的例子中,若第一次分类中第一类别的第一样本数据为身高超过1米7的女性、属于第一次分类中第二类别的第二样本数据为年龄大于30岁的女性,则为第一次分类中第一类别添加标签0,为第一次分类中第二类别添加标签1,也即,第一次分类中第一类别的第一样本数据均在标签为0的分组中,第一次分类中第二类别的第二样本数据均在标签为1的分组中。此外,在上述例子中,属于第一次分类中第一类别和第二类别的共有样本数据为身高超过1米7且年龄大于30岁的女性,为第一次分类中的共有样本数据添加标签2。
需要说明的是,本发明实施例中的第一类别和第二类别只是一个分组,并不对每个类别中的类别数目形成限定,也即,每次分类结果中的第一类别的类别数目至少为一,也可以为多个,每次分类结果中的第二类别的类别数目至少为一,也可以为多个。
S102、应用所述第一次分类得到的第一样本数据和第二样本数据训练得到第一级SVM分类器,确定所述第一级SVM分类器的待分类样本数据,将所述第一级SVM分类器的待分类样本数据输入至所述第一级SVM分类器进行分类,得到第二次分类结果,其中,所述第二次分类结果包括属于第二次分类中第一类别的第一样本数据、属于第二次分类中第二类别的第二样本数据,以及属于第二次分类中第一类别和第二类别的共有样本数据。
示例性的,应用第一次分类得到的第一样本数据和第二样本数据训练对基础SVM分类框架进行训练,得到第一级SVM分类器,确定第一级SVM分类器的待分类样本数据。
具体的,确定第一级SVM分类器的待分类样本可以通过如下方式实现:将第一次分类结果中的共有样本数据添加至第一样本数据,确定第一级SVM分类器的待分类样本数据;将第一次分类结果中的共有样本数据添加至第二样本数据,确定第一级分类器的待分类样本数据。需要说明的是,由于本申请的应用场景是二分类问题,则每一级SVM分类器的待分类样本数据为两组。
将第一级SVM分类器的待分类样本数据输入至第一级SVM分类器进行分类,得到第二分类结果,其中,所述第二次分类结果包括属于第二次分类中第一类别的第一样本数据、属于第二次分类中第二类别的第二样本数据,以及属于第二次分类中第一类别和第二类别的共有样本数据。需要说明的是,第二次分类中的各类数据的划分可参考第一次分类结果的举例,在此不赘述。
S103、应用上一次分类得到的第一样本数据和第二样本数据训练得到下一级SVM分类器,确定所述下一级SVM分类器的待分类样本数据,将所述下一级SVM分类器的待分类样本数据输入至所述下一级SVM分类器,得到下一次分类结果,其中,所述下一次分类结果包括属于下一次分类中第一类别的第一样本数据、属于下一次分类中第二类别的第二样本数据,以及属于下一次分类中第一类别和第二类别的共有样本数据;直至满足停止分类条件,其中,所述停止分类条件包括第一停止分类条件和第二停止分类条件之一,所述第一停止分类条件包括属于下一次分类中第一样本数据和共有样本数据的数据量小于第一预设阈值,或,属于下一次分类中的第二样本数据和共有样本数据的数据量小于第一预设阈值;所述第二停止分类条件包括所述属于下一次的第一样本数据和共有样本数据的全部类别为单一类别,或,属于下一次的第一样本数据和共有样本数据的全部类别为单一类别。
具体的,应用上一次分类得到的第一样本数据和第二样本数据训练基础SVM框架,得到下一级SVM分类器;然后,确定下一级SVM分类器的待分类样本数据,具体方式如下:通过上一次分类结果中第一样本数据和共有样本数据,以及,上一次分类结果中第二样本数据和共有样本数据确定每一级分类器的待分类样本数据。在一个具体的例子中,将所述上一次分类结果中的共有样本数据添加至所述第一样本数据,确定每一级分类器的待分类样本数据;将所述上一次分类结果中的共有样本数据添加至所述第二样本数据,确定每一级分类器的待分类样本数据。以减少每一级SVM分类器的分类误差累积。
最后,将下一级SVM分类器的待分类样本数据输入至所述下一级SVM分类器,得到下一次分类结果,其中,所述下一次分类结果包括属于下一次分类中第一类别的第一样本数据、属于下一次分类中第二类别的第二样本数据,以及属于下一次分类中第一类别和第二类别的共有样本数据。直至满足停止分类条件,其中,所述停止分类条件包括第一停止分类条件和第二停止分类条件之一,所述第一停止分类条件包括属于下一次分类中第一样本数据和共有样本数据的数据量小于第一预设阈值,或,属于下一次分类中的第二样本数据和共有样本数据的数据量小于第一预设阈值;所述第二停止分类条件包括所述属于下一次的第一样本数据和共有样本数据的全部类别为单一类别,或,属于下一次的第一样本数据和共有样本数据的全部类别为单一类别。在一个具体的例子中,第一预设阈值可以是研发人员根据实际的需求设定,在此不进行限定。
本发明采用以上技术方案,首先通过预先按照设定的聚类算法对待分类样本进行一次大致分类,获取第一次分类结果中同时属于第一类别和第二类别的共有样本数据,这样减少了分类误差;然后应用第一分类得到的第一样本数据和第二样本数据训练得到第一级SVM分类器,将所述第一级SVM分类器的待分类样本数据输入至所述第一级SVM分类器进行分类,得到第二次分类结果;循环应用各级分类器对待分类的样本进行分类的操作,直至满足第一停止分类条件和第二停止分类条件中的任一条件,停止分类。其中,每次通过上一次分类结果中第一样本数据和共有样本数据,以及,上一次分类结果中第二样本数据和共有样本数据确定每一级分类器的待分类样本数据,减少了每级SVM分类器分类误差累积,进而提高了分类器识别的准确率。
在上述技术方案的基础上,本发明实施例的技术方案还包括:若所述第一次分类中的第一样本数据和第二样本数据的类别数目的和,与所述第一次分类中的共有样本数据的类别数目之差小于第二预设阈值,则重新根据通过预先按照设定的聚类算法选取所述待分类样本数据中的设定维度的数据进行分类,确定第一次分类结果,直至所述第一次分类中的第一样本数据和第二样本数据的类别数目的和,与所述第一次分类中的共有样本数据的类别数目之差小于第二预设阈值。
在实际的应用过程中,存在这样一种情况,通过预先按照设定的聚类算法对待分类样本进行分类得到的第一分类结果不准确,影响后边每一个SVM分类器的训练以及应用。因此,在获得第一次分类结果后,判断第一次分类中的第一样本数据和第二样本数据的类别数目的和,与所述第一次分类中的共有样本数据的类别数目之差是否小于第二预设阈值,也即,共有样本数据的类别数目是否远远大于第一次分类中的第一样本数据和第二样本数据的类别数目的和。在一个具体的例子中,属于标签2的样本数据的类别数目远远大于属于标签1和标签0的数目总和。可以采取对待分类样本数据的样本维度进行抽样选择,对抽样选择的样本维度重新根据通过预先按照设定的聚类算法选取所述待分类样本数据中的设定维度的数据进行分类,确定第一次分类结果,直至所述第一次分类中的第一样本数据和第二样本数据的类别数目的和,与所述第一次分类中的共有样本数据的类别数目之差大于第二预设阈值。此时,满足训练每级SVM分类器的条件。
在一个具体的例子中,抽样选择的样本数据的维度可以是全部样本维度中的一部分,例如,初始的待分类样本数据的维度是100,则抽样选择的样本数据的维度可以是60。
在上述技术方案的基础上,还包括:将最后一次的分类结果作为目标样本,利用kd-tree算法对所述目标样本进行预测。在实际的应用过程中,将最后一次的分类结果作为目标样本,利用kd-tree算法对所述目标样本进行预测。示例性的,所述利用kd-tree算法对所述目标样本进行预测具体可以通过如下方式实现:指定应用kd-tree算法时的搜索范围;根据叶子节点上的标签信息对所述目标样本进行粗分类预测,其中,所述标签信息与每次分类结果中的第一类别和第二类别对应。
其中,kd-tree(k-dimension tree)是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd-tree是一种二叉树,表示对k维空间的一个划分,构造kd-tree相当于不断地用垂直于坐标轴的超平面将k维空间切分,构成一系列的k维超矩形区域。kd树的每个节点对应于一个k维超矩形区域。利用kd-tree可以省去对大部分数据点的搜索,从而减少搜索的计算量。
具体的,kd-tree算法对所述目标样本进行预测时指定kd-tree的搜索范围,根据叶子节点上的标签信息完成粗分类预测,其中,标签信息与每次分类结果中的第一类别和第二类别对应,例如,标签信息可以是上述实施例中添加的标签0、1或2。
在一个具体的例子中,将目标样本作为测试样本输入树型结构中根据到达叶子节点类型进行预测识别,具体的,将每一级分类器当做一个节点,其中,节点包括父节点、子节点和叶子节点。如果叶子结点有与类别对应的标签信息,则返回该类别对应的标签中的样本数据作为测试结果,也即,当叶子结点为单一类别的数据时,返回该类别作为测试样本的类别标签;否则,使用该叶子结点的kd-tree进行预测,例如可以是取指定N个最近邻中,类别标签的比重最大的作为测试样本的预测标签,也即,当叶子结点为个数小于一定阈值的复合kd-tree时,返回该kd-tree的前N个最近邻,取N个最近邻中类别个数最多的类别作为测试样本的类别标签。
本发明实施例的技术方案,避免集成分类器中,因错分导致的误差累积,增大了集成分类器的识别准确率;另外,根据树型结构的逐层划分,将样本数据量减少至小于第三预设阈值后使用kd-tree进行预测,增大了识别的准确率。
在上述技术方案的基础上,图2示出了一种kd-tree树型粗分类的示意图,其中,父节点到左孩子、左孩子到左孩子、右孩子到左孩子,均表示SVM-kd-tree的粗分类0;父节点到右孩子、左孩子到右孩子、右孩子到右孩子,均表示SVM-kd-tree的粗分类1。需要说明的是,上述0和1均表示上述实施例中提到的类别标签。在实际的应用过程中,将每一级SVM分类器预测错误的数据以及属于标签2的数据同时添加到左右两个子节点中形成两个子节点的数据,其中,图2中的左孩子和右孩子分别为子节点或叶子节点。
实施例二
图3是本发明是实施例提供的一种基于聚类分析的粗分类装置的结构示意图,该装置适用于执行本发明实施例提供给的一种基于聚类分析的粗分类方法。如图3所示,该装置具体可以包括:
获取模块301,用于获取第一次分类结果,其中,所述第一次分类结果通过预先按照设定的聚类算法对待分类样本数据进行分类确定,第一次分类结果包括属于第一次分类中第一类别的第一样本数据、属于第一次分类中第二类别的第二样本数据,以及属于第一次分类中第一类别和第二类别的共有样本数据;
分类模块302,用于应用所述第一次分类得到的第一样本数据和第二样本数据训练得到第一级SVM分类器,确定所述第一级SVM分类器的待分类样本数据,将所述第一级SVM分类器的待分类样本数据输入至所述第一级SVM分类器进行分类,得到第二次分类结果,其中,所述第二次分类结果包括属于第二次分类中第一类别的第一样本数据、属于第二次分类中第二类别的第二样本数据,以及属于第二次分类中第一类别和第二类别的共有样本数据;还用于应用上一次分类得到的第一样本数据和第二样本数据训练得到下一级SVM分类器,确定所述下一级SVM分类器的待分类样本数据,将所述下一级SVM分类器的待分类样本数据输入至所述下一级SVM分类器,得到下一次分类结果,其中,所述下一次分类结果包括属于下一次分类中第一类别的第一样本数据、属于下一次分类中第二类别的第二样本数据,以及属于下一次分类中第一类别和第二类别的共有样本数据;直至满足停止分类条件,其中,所述停止分类条件包括第一停止分类条件和第二停止分类条件之一,所述第一停止分类条件包括属于下一次分类中第一样本数据和共有样本数据的数据量小于第一预设阈值,或,属于下一次分类中的第二样本数据和共有样本数据的数据量小于第一预设阈值;所述第二停止分类条件包括所述属于下一次的第一样本数据和共有样本数据的全部类别为单一类别,或,属于下一次的第一样本数据和共有样本数据的全部类别为单一类别;其中,通过上一次分类结果中第一样本数据和共有样本数据,以及,上一次分类结果中第二样本数据和共有样本数据确定每一级分类器的待分类样本数据。
进一步的,分类模块302包括确定子模块,所述确定子模块具体用于:
将所述上一次分类结果中的共有样本数据添加至所述第一样本数据,确定每一级分类器的待分类样本数据;
将所述上一次分类结果中的共有样本数据添加至所述第二样本数据,确定每一级分类器的待分类样本数据。
进一步的,还包括判断模块,所述判断模块具体用于:
若所述第一次分类中的第一样本数据和第二样本数据的类别数目的和,与所述第一次分类中的共有样本数据的类别数目之差小于第二预设阈值,则重新根据通过预先按照设定的聚类算法选取所述待分类样本数据中的设定维度的数据进行分类,确定第一次分类结果,直至所述第一次分类中的第一样本数据和第二样本数据的类别数目的和,与所述第一次分类中的共有样本数据的类别数目之差小于第二预设阈值。
进一步的,还包括预测模块,具体用于将最后一次的分类结果作为目标样本,利用kd-tree算法对所述目标样本进行预测。
进一步的,所述预测模具体用于:
指定应用kd-tree算法时的搜索范围;
根据叶子节点上的标签信息对所述目标样本进行粗分类预测,其中,所述标签信息与每次分类结果中的第一类别和第二类别对应。
进一步的,所述设定的聚类算法包括k-means算法。
进一步的,每次分类结果中的第一类别的类别数目至少为一,每次分类结果中的第二类别的类别数目至少为一。
本发明实施例提供的基于聚类分析的粗分类装置可执行本发明任意实施例提供的基于聚类分析的粗分类方法,具备执行方法相应的功能模块和有益效果。
本发明实施例还提供一种终端设备,请参阅图4,图4为一种终端设备的结构示意图,如图4所示,该终端设备包括:处理器41,以及与处理器41相连接的存储器42;存储器42用于存储计算机程序,所述计算机程序至少用于执行本发明实施例中的基于聚类分析的粗分类;处理器41用于调用并执行所述存储器中的所述计算机程序。
本发明实施例还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如本发明实施例中的基于聚类分析的粗分类方法中各个步骤。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于聚类分析的粗分类方法,其特征在于,包括:
获取第一次分类结果,其中,所述第一次分类结果通过预先按照设定的聚类算法对待分类样本数据进行分类确定,第一次分类结果包括属于第一次分类中第一类别的第一样本数据、属于第一次分类中第二类别的第二样本数据,以及属于第一次分类中第一类别和第二类别的共有样本数据;
应用所述第一次分类得到的第一样本数据和第二样本数据训练得到第一级SVM分类器,确定所述第一级SVM分类器的待分类样本数据,将所述第一级SVM分类器的待分类样本数据输入至所述第一级SVM分类器进行分类,得到第二次分类结果,其中,所述第二次分类结果包括属于第二次分类中第一类别的第一样本数据、属于第二次分类中第二类别的第二样本数据,以及属于第二次分类中第一类别和第二类别的共有样本数据;
应用上一次分类得到的第一样本数据和第二样本数据训练得到下一级SVM分类器,确定所述下一级SVM分类器的待分类样本数据,将所述下一级SVM分类器的待分类样本数据输入至所述下一级SVM分类器,得到下一次分类结果,其中,所述下一次分类结果包括属于下一次分类中第一类别的第一样本数据、属于下一次分类中第二类别的第二样本数据,以及属于下一次分类中第一类别和第二类别的共有样本数据,直至满足停止分类条件;
其中,所述停止分类条件包括第一停止分类条件和第二停止分类条件之一,所述第一停止分类条件包括属于下一次分类中第一样本数据和共有样本数据的数据量小于第一预设阈值,或,属于下一次分类中的第二样本数据和共有样本数据的数据量小于第一预设阈值;所述第二停止分类条件包括所述属于下一次的第一样本数据和共有样本数据的全部类别为单一类别,或,属于下一次的第一样本数据和共有样本数据的全部类别为单一类别;
其中,通过上一次分类结果中第一样本数据和共有样本数据,以及,上一次分类结果中第二样本数据和共有样本数据确定每一级分类器的待分类样本数据。
2.根据权利要求1所述的方法,其特征在于,所述通过上一次分类结果中第一样本数据和共有样本数据,以及,上一次分类结果中第二样本数据和共有样本数据确定每一级分类器的待分类样本数据,包括:
将所述上一次分类结果中的共有样本数据添加至所述第一样本数据,确定每一级分类器的待分类样本数据;
将所述上一次分类结果中的共有样本数据添加至所述第二样本数据,确定每一级分类器的待分类样本数据。
3.根据权利要求1所述的方法,其特征在于,还包括:
若所述第一次分类中的第一样本数据和第二样本数据的类别数目的和,与所述第一次分类中的共有样本数据的类别数目之差小于第二预设阈值,则重新根据通过预先按照设定的聚类算法选取所述待分类样本数据中的设定维度的数据进行分类,确定第一次分类结果,直至所述第一次分类中的第一样本数据和第二样本数据的类别数目的和,与所述第一次分类中的共有样本数据的类别数目之差小于第二预设阈值。
4.根据权利要求1所述的方法,其特征在于,还包括:
将最后一次的分类结果作为目标样本,利用kd-tree算法对所述目标样本进行预测。
5.根据权利要求4所述的方法,其特征在于,所述利用kd-tree算法对所述目标样本进行预测,包括:
指定应用kd-tree算法时的搜索范围;
根据叶子节点上的标签信息对所述目标样本进行粗分类预测,其中,所述标签信息与每次分类结果中的第一类别和第二类别对应。
6.根据权利要求1所述的方法,其特征在于,所述设定的聚类算法包括k-means算法。
7.根据权利要求1-6任一项所述的方法,其特征在于,每次分类结果中的第一类别的类别数目至少为一,每次分类结果中的第二类别的类别数目至少为一。
8.一种基于聚类分析的粗分类装置,其特征在于,包括:
获取模块,用于获取第一次分类结果,其中,所述第一次分类结果通过预先按照设定的聚类算法对待分类样本数据进行分类确定,第一次分类结果包括属于第一次分类中第一类别的第一样本数据、属于第一次分类中第二类别的第二样本数据,以及属于第一次分类中第一类别和第二类别的共有样本数据;
分类模块,用于应用所述第一次分类得到的第一样本数据和第二样本数据训练得到第一级SVM分类器,确定所述第一级SVM分类器的待分类样本数据,将所述第一级SVM分类器的待分类样本数据输入至所述第一级SVM分类器进行分类,得到第二次分类结果,其中,所述第二次分类结果包括属于第二次分类中第一类别的第一样本数据、属于第二次分类中第二类别的第二样本数据,以及属于第二次分类中第一类别和第二类别的共有样本数据;还用于应用上一次分类得到的第一样本数据和第二样本数据训练得到下一级SVM分类器,确定所述下一级SVM分类器的待分类样本数据,将所述下一级SVM分类器的待分类样本数据输入至所述下一级SVM分类器,得到下一次分类结果,其中,所述下一次分类结果包括属于下一次分类中第一类别的第一样本数据、属于下一次分类中第二类别的第二样本数据,以及属于下一次分类中第一类别和第二类别的共有样本数据;直至满足停止分类条件,其中,所述停止分类条件包括第一停止分类条件和第二停止分类条件之一,所述第一停止分类条件包括属于下一次分类中第一样本数据和共有样本数据的数据量小于第一预设阈值,或,属于下一次分类中的第二样本数据和共有样本数据的数据量小于第一预设阈值;所述第二停止分类条件包括所述属于下一次的第一样本数据和共有样本数据的全部类别为单一类别,或,属于下一次的第一样本数据和共有样本数据的全部类别为单一类别;通过上一次分类结果中第一样本数据和共有样本数据,以及,上一次分类结果中第二样本数据和共有样本数据确定每一级分类器的待分类样本数据。
9.一种终端设备,其特征在于,包括:
处理器,以及与所述处理器相连接的存储器;
所述存储器用于存储计算机程序,所述计算机程序至少用于执行权利要求1-7任一项所述的方法;
所述处理器用于调用并执行所述存储器中的所述计算机程序。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-7任一项所述的方法中各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910097750.8A CN109829498A (zh) | 2019-01-31 | 2019-01-31 | 基于聚类分析的粗分类方法、装置、终端设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910097750.8A CN109829498A (zh) | 2019-01-31 | 2019-01-31 | 基于聚类分析的粗分类方法、装置、终端设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109829498A true CN109829498A (zh) | 2019-05-31 |
Family
ID=66863186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910097750.8A Pending CN109829498A (zh) | 2019-01-31 | 2019-01-31 | 基于聚类分析的粗分类方法、装置、终端设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829498A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555466A (zh) * | 2019-08-13 | 2019-12-10 | 创新奇智(南京)科技有限公司 | 一种可动态增加的级联识别网络算法 |
CN112073360A (zh) * | 2019-11-22 | 2020-12-11 | 深圳大学 | 超文本传输数据的检测方法、装置、终端设备及介质 |
CN113027696A (zh) * | 2019-12-24 | 2021-06-25 | 新疆金风科技股份有限公司 | 液压变桨系统的故障诊断方法和装置 |
-
2019
- 2019-01-31 CN CN201910097750.8A patent/CN109829498A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555466A (zh) * | 2019-08-13 | 2019-12-10 | 创新奇智(南京)科技有限公司 | 一种可动态增加的级联识别网络算法 |
CN112073360A (zh) * | 2019-11-22 | 2020-12-11 | 深圳大学 | 超文本传输数据的检测方法、装置、终端设备及介质 |
CN112073360B (zh) * | 2019-11-22 | 2022-12-20 | 深圳大学 | 超文本传输数据的检测方法、装置、终端设备及介质 |
CN113027696A (zh) * | 2019-12-24 | 2021-06-25 | 新疆金风科技股份有限公司 | 液压变桨系统的故障诊断方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10467526B1 (en) | Artificial intelligence system for image similarity analysis using optimized image pair selection and multi-scale convolutional neural networks | |
Handl et al. | Ant-based clustering and topographic mapping | |
US6871201B2 (en) | Method for building space-splitting decision tree | |
Casalino et al. | Data stream classification by dynamic incremental semi-supervised fuzzy clustering | |
CN106055573B (zh) | 一种多示例学习框架下的鞋印图像检索方法及系统 | |
CN110008259A (zh) | 可视化数据分析的方法及终端设备 | |
CN109829498A (zh) | 基于聚类分析的粗分类方法、装置、终端设备和存储介质 | |
CN107590263B (zh) | 一种基于多变量决策树模型的分布式大数据分类方法 | |
IndiraPriya et al. | A survey on different clustering algorithms in data mining technique | |
CN109948668A (zh) | 一种多模型融合方法 | |
Casalino et al. | Incremental adaptive semi-supervised fuzzy clustering for data stream classification | |
Islam et al. | A comprehensive survey on the process, methods, evaluation, and challenges of feature selection | |
Carbonera et al. | Efficient instance selection based on spatial abstraction | |
Carbonera et al. | Local-set based-on instance selection approach for autonomous object modelling | |
CN111797267A (zh) | 一种医学图像检索方法及系统、电子设备、存储介质 | |
Debbi | Causal explanation of convolutional neural networks | |
Singh et al. | Multiclass imbalanced big data classification utilizing spark cluster | |
CN110516741A (zh) | 基于动态分类器选择的类别重叠不平衡数据分类方法 | |
Gupta et al. | Feature selection: an overview | |
CN109885685A (zh) | 情报数据处理的方法、装置、设备及存储介质 | |
Sirisomboonrat et al. | Breast cancer diagnosis using multi-attributed lens recursive partitioning algorithm | |
IL290977B2 (en) | A system for a model configuration selection method | |
Sami et al. | Incorporating random forest trees with particle swarm optimization for automatic image annotation | |
Alami Chehboune et al. | Transferable deep metric learning for clustering | |
Roushdy et al. | Intelligent clustering technique based on genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190531 |
|
RJ01 | Rejection of invention patent application after publication |