CN112800138B - 大数据分类方法及系统 - Google Patents
大数据分类方法及系统 Download PDFInfo
- Publication number
- CN112800138B CN112800138B CN202110157162.6A CN202110157162A CN112800138B CN 112800138 B CN112800138 B CN 112800138B CN 202110157162 A CN202110157162 A CN 202110157162A CN 112800138 B CN112800138 B CN 112800138B
- Authority
- CN
- China
- Prior art keywords
- data
- big data
- total number
- obtaining
- big
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/278—Data partitioning, e.g. horizontal or vertical partitioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种大数据分类方法及系统,其包括如下步骤:对目标数据进行降维处理获得初步降维后大数据,根据级别获得超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据,对每个所述区域数据进行降维处理获得降维后区域数据,对所有的所述降维后区域数据进行组合,获得分割后数据并对其进行融合处理,获得有效降维后大数据,采用聚类算法对有效降维后大数据进行聚类处理获得聚类后大数据,聚类后大数据的各个数据集合为分类结果数据。本方法考虑了数据集不同均匀区域的多样性,有效解决了传统PCA对大数据各个区域的不同性欠缺考虑、难以获得较高分类精度的问题,在大数据上实现了精度与速度兼备的分类效果。
Description
技术领域
本发明涉及数据挖掘和数据处理技术领域,尤其涉及一种大数据的分类方法及系统。
背景技术
图像和视频等维数大的数据称为高维数据,海量高维数据和/或其他数据可以称为大数据,由于大数据固有的一些特性使得对大数据进行分析和处理变得困难。而随着云计算的发展和应用,加上近年来互联网、移动互联网、物联网等行业发展迅速,在线视频、社交网络、云存储,电子商务和视频监控等应用迅速崛起,这些互联网和移动终端的应用导致各类数据量都在大量增长,特别是图像、视频等大数据的种类和数量都在呈指数增长。寻求精确且高效的分类方法,去合理利用、有效处理和高效检索这些大数据中的各类数据成为众多领域所面临的一个重大问题。由于数据量的增多,数据需要提取的特征就越来越多,于是数据的维度就越来越大,这就导致了维数灾难的发生。
一般来说,传统的聚类方法进行聚类依赖于相似性度量和概率,这些方法在低维空间中非常有效,但是在高维空间中传统的聚类方法往往得不到有意义的簇。由此可见,采用传统方案对大数据进行聚类以实现各类数据分类存在准确性低的问题。
发明内容
本申请要解决的技术问题是提供一种分类效果好、速度快的大数据分类方法。
本申请提供了一种大数据分类方法,其包括如下步骤:
步骤一:对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的多维数据;
步骤二:根据预设的级别获得超像素总数;
步骤三:根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
步骤四:对每个所述区域数据进行降维处理获得降维后区域数据;
步骤五:对所有的所述降维后区域数据进行组合,获得分割后数据;
步骤六:对所述分割后数据进行融合处理,获得有效降维后大数据;
步骤七:采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
在其中一个实施例中,所述步骤三包括如下步骤:
提取所述初步降维后大数据的第一主成分数据;
采用超像素分割算法对该第一主成分数据进行分割,获得超像素,该超像素的数量与所述超像素总数相同;
将所述超像素映射到所述初步降维后大数据中,获得多个区域数据。
在其中一个实施例中,所述步骤六包括如下步骤:
确定融合对象序列,将所述分割后数据设为该融合对象序列中的融合对象;
获得类标签序列;
从融合对象序列中获得数据点集合;
获得该数据点集合中每一个数据点所对应的类标签;
将该数据点集合中每一个数据点与其对应的类标签组合,获得有效降维后大数据。
在其中一个实施例中,所述获得该数据点集合中每一个数据点所对应的类标签的方法包括如下步骤:
对每一个所述数据点所属分类进行投票决策,其投票公式为: 其中i∈{g1,g2,....,gG},其中g1、g2为类标签,G为类标签总数,I为指标函数,aj为第j个融合对象的投票权,k代表所述融合对象序列中融合对象的总数,N(i)为所述数据点属于第i类标签的预测次数;
获得所述预测次数N(i)的最大值,获得与最大值对应的类标签,该类标签为所述数据点的类标签,其计算公式为l=argmaxN(i),其中l为所述预测次数的最大值对应的类标签。
在其中一个实施例中,所述分割后数据和所述初步降维后大数据均为所述融合对象序列中的融合对象。
在其中一个实施例中,所述分割后数据为多个,其获得方法为:根据设定的最大分割级别C,获得分割级别序列{0,±1,±2,...,±C};
对该分割级别序列中的每一个分割级别执行如下步骤获得多个所述分割后数据:
运行所述步骤三至所述步骤五,获得所述分割后数据。
大数据分类系统,其包括:
第一降维模块,用于对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的多维数据;
获取模块,用于根据预设的级别获得超像素总数;
超像素分割模块,用于根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
第二降维模块,用于对每个所述区域数据进行降维处理获得降维后区域数据;
组合模块,用于对所有的所述降维后区域数据进行组合,获得分割后数据;
融合模块,用于对所述分割后数据进行融合处理,获得有效降维后大数据;
聚类模块,用于采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现大数据分类方法的步骤。
计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时,实现大数据分类方法的步骤。
本申请的大数据分类方法考虑了大数据不同区域的多样性,即不同的区域应该有不同的投影,有效解决了传统PCA对大数据进行统一尺度投影导致对各个区域的不同性欠缺考虑、难以获得较高分类精度的问题,在大数据上实现了精度与速度兼备的分类效果。
附图说明
此处的附图,示出了本发明所述技术方案的具体实例,并与具体实施方式构成说明书的一部分,用于解释本发明的技术方案、原理及效果。
除非特别说明或另有定义,不同附图中,相同的附图标记代表相同或相似的技术特征,对于相同或相似的技术特征,也可能会采用不同的附图标记进行表示。
图1是本申请大数据分类方法实施例示意图,
图2为Indian_pines高光谱图像处理效果图,
图3为Salinas高光谱图像处理效果图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在大数据上可能存在许多同质区域,在每个区域内的数据更可能属于相同类别。因此,在降维过程中,不同区域应该具有不同的变换向量,显然,更不可能为整个大数据所生成的变换向量。所以传统的PCA降维方法对大数据进行单一投影,其降维效果并不理想。k均值聚类算法具备速度快、操作简单的优点,然而在高维数据上聚类精度不高,因此降维效果不理想的前提下,大数据分类精度也不高。
为实现对大数据快速且精准的分类,基于分而治之的策略,本申请提出一种在PCA降维基础上进行改进的大数据分类方法。该方法原理为:首先,对大数据进行初步降维处理,然后,为了利用同质区域之间的差异找到大数据中最佳变换向量,通过将整个大数据分割成多个不同的均匀区域,对每个均匀区域再进行PCA降维处理,提取到相同数量的主成分,再将主成分融合起来形成有效降维后大数据。因此,该有效降维后大数据能充分包含单尺度降维无法提取的空间信息。在得到有效降维后大数据后再对其进行k均值聚类处理。
具体的,下面以对高光谱图像处理为实施例详细说明本申请的大数据分类方法的处理过程,如图1所示,其步骤如下:
S10、对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的多维数据;
在上述目标数据为高光谱图像时,该步骤具体是对高光谱图像进行降维处理获得初步降维后数据;
具体的,由于PCA降维通常用于高维数据的探索与可视化、数据压缩,数据预处理中,因此,本实施例中的降维处理均采用PCA降维处理。PCA降维通过计算在降维空间中使数据方差最大化的低维表示来进行降维。例如,X为原始L维空间的数据集X∈RL×P,Y为D维空间的数据集Y∈RD×P,其中D<L,PCA降维找到了从高维空间X到低维空间Y的线性映射W,即Y=WTX。
经过初步降维后,提取高光谱图像的主成分数据后,将特征值最大的主成分数据作为第一主成分数据If,即初步降维后数据。其目标函数为:argmaxTr(WTCov(X)W);约束条件为:WTW=I,其中I为单位矩阵。
即对于一个高维数据集,PCA降维方法尝试找到一个线性映射W,使得WTCov(X)W达到最大,其中Cov(X)是数据集X的协方差矩阵,Tr(X)表示矩阵X的迹。因为Cov(X)是一个对称矩阵,所以Cov(X)的奇异值等于Cov(X)特征值且W矩阵正交,即对Cov(X)进行奇异值分解即可得W,且W矩阵的向量互不相关。
其中,线性映射W可通过以下四步来得到:首先是将矩阵X特征中心化;其次是求特征中心化后矩阵X的协方差矩阵V;再求得协方差矩阵V的特征值和特征向量;最后,选取前D个特征值最大的特征向量作为W。
S20、根据预设的级别获得超像素总数;
在超像素分割算法中,当超像素总数太少时,分割会导致模糊标记的边界超像素需要进一步细分;当超像素总数太大时,计算特征相同的区域结果又可能会变得不同。因此,本实施例针对这个问题提出了多尺度分割策略,从而缓解上述问题。
具体的,根据设定的最大分割级别C,获得分割级别序列{0,±1,±2,...,±C},分割级别序列中的每一个分割级别c所对应的超像素总数不相同,即对初步降维后第一主成分数据If分割的尺度不一样。采用分割级别序列中每一个分割级别c对降维后第一主成分数据If进行分割,总分割次数为2C+1次,从而实现多尺度分割。
其中计算与分割级别序列中的每一个分割级别c所对应的超像素总数的方法为:其中:Sc为分割级别c对应的超像素总数,Sf是初始的超像素数,根据经验来设定。由于Sc的值可能不是{1,2,…,P}中的整数,可以通过Sc=min(max(1;round(Sc));P)方法来将其重置为整数,式中,P是高光谱图像的总像素数。
S30、根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
获得了高光谱图像的第一主成分数据If,即获取了高光谱图像的主要信息,降低了分割的计算成本。由于熵率超像素分割在速度和效率方面都有很好的表现,本实施例采用熵率超像素分割对第一主成分数据If进行区域分割得到若干个均匀区域,将这些区域映射到高光谱图像立方体数据中,获得区域数据。
可选的,也可以采取其他超像素分割方法,例如:简单线性迭代聚类(SLIC)。
上述超像素分割原理为:通过高光谱图像第一主成分数据If生成基图像,在基图像上构造一个图,由图上随机游走的熵率和获得紧凑、均匀、平衡的平衡项组成目标函数,使用迭代贪婪算法优化目标函数,最终会选择图中边的子集,从而生成超像素将基图像分割为不同的均匀区域。
S40、对每个区域数据进行降维处理,得到降维后区域数据;
对每次分割后获得的区域数据,通过对其进行PCA降维处理,从而每一个区域数据都提取到相同数量的主成分,形成降维后区域数据。
S50、将所有降维后区域数据进行组合,获得分割后数据;
具体的,将降维后区域数据按照该区域在原降维后第一主成分数据If所处位置组合在一起,从而获得分割后数据。依据前述设定的最大分割级别C,按照对应分割级别序列中的每个分割级别所获得的超像素总数,重复运行S30、S40和S50的步骤,因此可以得到2C+1个分割后数据。
可选的,在确定了一个合适的分割级别c,获得了对应的超像素总数后,也可以只采用该分割级别c对降维后第一主成分数据If进行一次分割处理,即运行一次S30、S40和S50的步骤,获得分割后数据。
S60、对所述分割后数据进行融合处理,获得有效降维后大数据;
将原始的大数据(如原高光谱图像)分割为2C+1尺度,则高光谱图像将有2C+1个不同的分类结果,得到分割后数据也为2C+1个,需要将这些分割后数据进行融合在一起,得到有效降维后高光谱数据。由于基于多数投票(MV)的决策融合策略对不精确的后验概率估计不敏感,我们优选采用该决策融合策略来聚合分类结果。
具体的,分割后数据作为融合对象,将2C+1个分割后数据形成融合对象序列。如果只进行了一个级别的切割,也可以将初步降维后第一主成分数据If作为融合对象加入到融合对象序列中。
由于这些分割后数据的数据点总量相同,因此取其中一个分割后数据的所有数据点作为数据集。对该数据集中每一个所述数据点的所属分类进行投票决策,其投票公式为:其中i∈{g1,g2,...,gG},其中g1、g2为类标签,G为设定的类标签总数,I为指标函数,aj为第j个融合对象的投票权,k代表所述融合对象序列中融合对象的总数,N(i)为所述数据点属于第i类标签的预测次数;
获得所述预测次数N(i)的最大值,获得与最大值对应的类标签,该类标签为所述数据点的类标签,其目标公式为l=argmaxN(i),其中l为所述预测次数的最大值对应的类标签。
得到上述每一个数据点的类标签后,将类标签结果与数据集组合产生新的有效降维后大数据,即有效降维后高光谱数据。
S70、采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
针对高光谱数据,可以采用聚类算法对有效降维后高光谱数据进行聚类处理获得聚类后的高光谱数据,以实现对高光谱数据中各类型数据的分类。
最后,需要对有效降维后高光谱数据进行聚类处理。在已经对高光谱图像进行了切割、降维、融合处理后,在有效的降维效果基础上,由于k均值聚类算法速度快,操作简单,因此接下来的聚类处理采用k均值聚类算法就能达到很好的聚类效果,从而既能得到分类精度高的大数据、又保证了分类的速度快、效率高。
本实施例通过对目标数据进行降维处理获得初步降维后大数据,根据预设的级别获得超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据,对每个所述区域数据进行降维处理获得降维后区域数据,对所有的所述降维后区域数据进行组合,获得分割后数据,对所述分割后数据进行融合处理,获得有效降维后大数据,采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,将聚类后大数据中的各个数据集合确定为目标数据中各类型数据,即将一个数据集合确定为一类数据,以实现对大数据的准确分类,提升分类效率,使分类后的各类型数据可以直接用于相关分析和/或处理过程,进而提升后续分析和/或处理的效率,获得更好的分析和/或处理效果。
具体地,上述聚类算法可以包括k均值聚类算法,k均值聚类算法是基于样本集合划分的聚类算法,其原理为:将数据样本集合划分为k个子集,构成k个类,将n个样本分到k个类中,使得每个样本到其所属类的中心的距离最小。
假如获得的新的矩阵为Xc=[X(1),X(2),...X(m)]。
首先,采用欧式平方距离作为样本之间的距离d(xi,xj):
然后,定义样本与其所属类的中心之间的距离的总和为损失函数,即:
最后求解最优化问题:
当相似的样本被聚到同类时,损失函数值最小,这个目标函数的最优化能达到聚类的目的。由于将n个样本分到k个类中所有可能的分法的数目是:
所以,常用迭代来找出最优分类。
k均值聚类算法具体计算步骤如下:
然后,在划分确定的情况下,使样本和其所属类的中心之间的距离总和最小,求解结果,对于每个包含nl个样本的类Gl,更新其均值ml:
重复以上两个步骤,直到划分不再改变,得到聚类结果Y。
本申请的大数据分类方法可以应用在大数据处理、计算、挖掘等多个应用场合中。该方法融合了k均值聚类算法快速、谱聚类算法准确的优点,在低维数据集中,该算法保持了精准;在高维的数据集中,较k均值聚类算法与谱聚类能得到较好的聚类结果,从而获得较高分类精度,在大数据上实现了精度与速度兼备的分类效果。
在一个实施例中,所述步骤三包括如下步骤:
提取所述初步降维后大数据的第一主成分数据;
采用超像素分割算法对该第一主成分数据进行分割,获得超像素,该超像素的数量与所述超像素总数相同;
将所述超像素映射到所述初步降维后大数据中,获得多个区域数据。
本实施例对初步降维后大数据进行分割是针对初步降维后大数据的第一主成分数据进行分割。由于获得了高光谱图像的第一主成分数据,即获取了高光谱图像的主要信息,只针对初步降维后大数据的第一主成分数据进行分割,能显著降低分割的计算成本。
本实施例根据预设的级别获得超像素总数的计算方法,使得不同级别所获得的超像素总数之间的区别显著、分布合理,从而使得采用不同超像素总数分割所获得的区域数据有明显区别。
在一个实施例中,所述步骤六包括如下步骤:
确定融合对象序列,将所述分割后数据设为该融合对象序列中的融合对象;
获得类标签序列;
从融合对象序列中获得数据点集合;
获得该数据点集合中每一个数据点所对应的类标签;
将该数据点集合中每一个数据点与其对应的类标签组合,获得有效降维后大数据。
具体地,所述获得该数据点集合中每一个数据点所对应的类标签的方法包括如下步骤:
对每一个所述数据点所属分类进行投票决策,其投票公式为: 其中i∈{g1,g2,....,gG},其中g1、g2为类标签,G为类标签总数,I为指标函数,aj为第j个融合对象的投票权,k代表所述融合对象序列中融合对象的总数,N(i)为所述数据点属于第i类标签的预测次数;
获得所述预测次数N(i)的最大值,获得与最大值对应的类标签,该类标签为所述数据点的类标签,其计算公式为l=argmaxN(i),其中l为所述预测次数的最大值对应的类标签。
具体地,所述分割后数据和所述初步降维后大数据均为所述融合对象序列中的融合对象。
本实施例中对分割后数据采取基于多数投票(MV)的决策融合策略进行融合。由于基于多数投票(MV)的决策融合策略对不精确的后验概率估计不敏感,能更加准确的获得分割后数据所对应的类标签,从而获得的有效降维后大数据能精确的反映目标数据的分类特征。
在一个实施例中,所述分割后数据为多个,其获得方法为:
根据设定的最大分割级别C,获得分割级别序列{0,±1,±2,...,±C};
对该分割级别序列中的每一个分割级别执行如下步骤获得多个所述分割后数据:
运行所述步骤三至所述步骤五,获得所述分割后数据。
由于单次的分割,很难定出理想的超像素总数,当超像素总数太少时,分割会导致模糊标记的边界超像素需要进一步细分;当超像素总数太大时,计算特征相同的区域结果又可能会变得不同。因此本实施例中采取对初步降维后大数据进行多个级别的分割,从而使得分割时的超像素总数不相同,即分割的尺度不一样,从而可以得到理想的分割后数据。
在一个实施例中,通过实验对上述大数据分类方法的效果进行进一步说明,
实验条件:
本发明实施例的实验是在主频为3GHZ的Intel(R)Core(TM)I7、内存8G的硬件环境和Matlab R2017a软件环境下实现的。
实验对象:
本申请的实验测试了两组高光谱图像数据集:Indian_pines与Salinas。
数据集详细信息如下表所示:
数据集 | 数据点数 | 维数 | 类别数 |
Indian_pines | 21025 | 145 | 16 |
Salinas | 111104 | 204 | 16 |
不同方法实验结果如下:(其中AAC为平均精度,OAC为总体精度,Kappa为一致性检验,Time为处理时间,OM为超过计算机内存运行失败)
以下为对Indian_pines高光谱图像的处理结果:
本申请方法 | PCA+Kmeans | Kmeans | SC | |
AAC | 0.5380 | 0.3125 | 0.2894 | 0.2732 |
OAC | 0.4456 | 0.2231 | 0.2447 | 0.1675 |
Kappa | 0.3748 | 0.1656 | 0.1703 | 0.2520 |
Time | 11.2175 | 8.1353 | 5.7142 | 378.7384 |
以下为对Salinas高光谱图像的处理结果:
SPCA+Kmeans | PCA+Kmeans | Kmeans | SC | |
AAC | 0.8027 | 0.6457 | 0.5142 | OM |
OAC | 0.8004 | 0.6295 | 0.4887 | OM |
Kappa | 0.7922 | 0.668 | 0.53 | OM |
Time | 6.6382 | 21.3206 | 21.9043 | OM |
从上述结果和图2、图3可以得知,本申请所提出算法获得了更好的聚类精度,平均精度、总体精度、一致性检验皆高于PCA+Kmeans算法、Kmeans算法、谱聚类算法(SC)单独处理的效果。说明在高维数据集中,本申请的大数据分类方法的聚类效果与效率优于PCA+Kmeans算法、Kmeans算法与谱聚类算法。
本申请还提供了一种大数据分类系统,其包括:
第一降维模块,用于对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的多维数据;
获取模块,用于根据预设的级别获得超像素总数;
超像素分割模块,用于根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
第二降维模块,用于对每个所述区域数据进行降维处理获得降维后区域数据;
组合模块,用于对所有的所述降维后区域数据进行组合,获得分割后数据;
融合模块,用于对所述分割后数据进行融合处理,获得有效降维后大数据;
聚类模块,用于采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
关于大数据分类系统的具体限定可以参见上文中对于大数据分类方法的限定,在此不再赘述。上述大数据分类系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于工业边缘端中的处理器中,也可以以软件形式存储于工业边缘端中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
当然,本申请中的方法还可以是其他的实现相应功能的装置,例如计算机设备或计算机可读介质。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (10)
1.大数据分类方法,其特征在于,包括如下步骤:
步骤一:对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的高光谱图像数据;
步骤二:根据预设的级别获得超像素总数;
步骤三:根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
步骤四:对每个所述区域数据进行降维处理获得降维后区域数据;
步骤五:对所有的所述降维后区域数据进行组合,获得分割后数据;
步骤六:对所述分割后数据进行融合处理,获得有效降维后大数据;
步骤七:采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
2.如权利要求1所述的大数据分类方法,其特征在于,所述步骤三包括如下步骤:
提取所述初步降维后大数据的第一主成分数据;
采用超像素分割算法对该第一主成分数据进行分割,获得超像素,该超像素的数量与所述超像素总数相同;
将所述超像素映射到所述初步降维后大数据中,获得多个区域数据。
4.如权利要求1所述的大数据分类方法,其特征在于,所述步骤六包括如下步骤:
确定融合对象序列,将所述分割后数据设为该融合对象序列中的融合对象;
获得类标签序列;
从融合对象序列中获得数据点集合;
获得该数据点集合中每一个数据点所对应的类标签;
将该数据点集合中每一个数据点与其对应的类标签组合,获得有效降维后大数据。
6.如权利要求4所述的大数据分类方法,其特征在于,所述分割后数据和所述初步降维后大数据均为所述融合对象序列中的融合对象。
8.大数据分类系统,其特征在于,包括:
第一降维模块,用于对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的高光谱图像数据;
获取模块,用于根据预设的级别获得超像素总数;
超像素分割模块,用于根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
第二降维模块,用于对每个所述区域数据进行降维处理获得降维后区域数据;
组合模块,用于对所有的所述降维后区域数据进行组合,获得分割后数据;
融合模块,用于对所述分割后数据进行融合处理,获得有效降维后大数据;
聚类模块,用于采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
9.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的大数据分类方法的步骤。
10.计算机设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时,实现如权利要求1至7任意一项所述的大数据分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157162.6A CN112800138B (zh) | 2021-02-04 | 2021-02-04 | 大数据分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157162.6A CN112800138B (zh) | 2021-02-04 | 2021-02-04 | 大数据分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800138A CN112800138A (zh) | 2021-05-14 |
CN112800138B true CN112800138B (zh) | 2021-10-15 |
Family
ID=75814231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110157162.6A Active CN112800138B (zh) | 2021-02-04 | 2021-02-04 | 大数据分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800138B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049562B (zh) * | 2021-11-30 | 2022-06-21 | 中国科学院地理科学与资源研究所 | 一种土地覆被数据融合修正方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977767A (zh) * | 2019-02-18 | 2019-07-05 | 浙江大华技术股份有限公司 | 基于超像素分割算法的目标检测方法、装置及存储装置 |
CN110096519A (zh) * | 2019-04-09 | 2019-08-06 | 北京中科智营科技发展有限公司 | 一种大数据分类规则的优化方法和装置 |
CN110796038A (zh) * | 2019-10-15 | 2020-02-14 | 南京理工大学 | 结合快速区域生长超像素分割的高光谱遥感图像分类方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7961957B2 (en) * | 2007-01-30 | 2011-06-14 | Alon Schclar | Diffusion bases methods for segmentation and clustering |
CN103353986B (zh) * | 2013-05-30 | 2015-10-28 | 山东大学 | 一种基于超像素模糊聚类的脑部mr图像分割方法 |
CN105023239B (zh) * | 2015-08-18 | 2018-03-13 | 西安电子科技大学 | 基于超像素和最大边界分布的高光谱数据降维方法 |
EP3246876A1 (en) * | 2016-05-17 | 2017-11-22 | Thomson Licensing | Method to determine chromatic component of illumination sources of an image |
CN106097252B (zh) * | 2016-06-23 | 2019-03-12 | 哈尔滨工业大学 | 基于图Graph模型的高光谱图像超像素分割方法 |
CN110070485A (zh) * | 2019-04-04 | 2019-07-30 | 南京信息工程大学 | 一种高光谱图像降维方法 |
CN111563544B (zh) * | 2020-04-27 | 2023-07-25 | 中国科学院国家空间科学中心 | 一种多尺度超像素分割的最大信噪比高光谱数据降维方法 |
-
2021
- 2021-02-04 CN CN202110157162.6A patent/CN112800138B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977767A (zh) * | 2019-02-18 | 2019-07-05 | 浙江大华技术股份有限公司 | 基于超像素分割算法的目标检测方法、装置及存储装置 |
CN110096519A (zh) * | 2019-04-09 | 2019-08-06 | 北京中科智营科技发展有限公司 | 一种大数据分类规则的优化方法和装置 |
CN110796038A (zh) * | 2019-10-15 | 2020-02-14 | 南京理工大学 | 结合快速区域生长超像素分割的高光谱遥感图像分类方法 |
Non-Patent Citations (2)
Title |
---|
Superpixel based spectral classification of hyperspectral images in different spaces;Sinem Aybüke Şakaci,等;《2018 5th International Conference on Electrical and Electronic Engineering (ICEEE)》;20180621;第384-388页 * |
高光谱影像的降维方法研究;姚娆;《中国优秀硕士学位论文全文数据库基础科学辑》;20190115;第2-42页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112800138A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11294624B2 (en) | System and method for clustering data | |
Song et al. | Unsupervised classification of polarimetric SAR imagery using large-scale spectral clustering with spatial constraints | |
Wang et al. | CLUES: A non-parametric clustering method based on local shrinking | |
Chakraborty et al. | Simultaneous variable weighting and determining the number of clusters—A weighted Gaussian means algorithm | |
Wang et al. | Fast Image Segmentation Using Two‐Dimensional Otsu Based on Estimation of Distribution Algorithm | |
WO2023108995A1 (zh) | 向量相似度计算方法、装置、设备及存储介质 | |
Yang et al. | New l 2, 1-norm relaxation of multi-way graph cut for clustering | |
CN111027636B (zh) | 基于多标签学习的无监督特征选择方法及系统 | |
Deng et al. | Adaptive multi-bit quantization for hashing | |
Yu et al. | A content-based goods image recommendation system | |
JP2011014133A (ja) | 平均値シフト手順を用いてサンプルをクラスタリングするための方法 | |
Bourouis et al. | Color object segmentation and tracking using flexible statistical model and level-set | |
Chen et al. | Sparsity-regularized feature selection for multi-class remote sensing image classification | |
Wang et al. | High-dimensional Data Clustering Using K-means Subspace Feature Selection. | |
Xiao et al. | Segmentation by continuous latent semantic analysis for multi-structure model fitting | |
CN112800138B (zh) | 大数据分类方法及系统 | |
Liu et al. | Color image segmentation using nonparametric mixture models with multivariate orthogonal polynomials | |
Zhan et al. | Improved spectral clustering based on Nyström method | |
Xie et al. | Imbalanced big data classification based on virtual reality in cloud computing | |
Wang et al. | Mic-kmeans: a maximum information coefficient based high-dimensional clustering algorithm | |
CN110209895B (zh) | 向量检索方法、装置和设备 | |
Kong et al. | Robust and smart spectral clustering from normalized cut | |
Liu et al. | A weight-incorporated similarity-based clustering ensemble method | |
Xu et al. | The image segmentation algorithm of colorimetric sensor array based on fuzzy C-means clustering | |
Kazemi et al. | FEM-DBSCAN: AN efficient density-based clustering approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Big Data Classification Methods and Systems Effective date of registration: 20230515 Granted publication date: 20211015 Pledgee: Bank of Guangzhou Co.,Ltd. Nansha branch Guangdong Free Trade Zone Pledgor: GUANGDONG YUN ZHAO MEDICAL TECHNOLOGY Co.,Ltd. Registration number: Y2023980040531 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |