CN112800138B - 大数据分类方法及系统 - Google Patents

大数据分类方法及系统 Download PDF

Info

Publication number
CN112800138B
CN112800138B CN202110157162.6A CN202110157162A CN112800138B CN 112800138 B CN112800138 B CN 112800138B CN 202110157162 A CN202110157162 A CN 202110157162A CN 112800138 B CN112800138 B CN 112800138B
Authority
CN
China
Prior art keywords
data
big data
total number
obtaining
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110157162.6A
Other languages
English (en)
Other versions
CN112800138A (zh
Inventor
杨晓君
李云
赖星锦
杜鹏林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Yun Zhao Medical Technology Co ltd
Original Assignee
Guangdong Yun Zhao Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Yun Zhao Medical Technology Co ltd filed Critical Guangdong Yun Zhao Medical Technology Co ltd
Priority to CN202110157162.6A priority Critical patent/CN112800138B/zh
Publication of CN112800138A publication Critical patent/CN112800138A/zh
Application granted granted Critical
Publication of CN112800138B publication Critical patent/CN112800138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种大数据分类方法及系统,其包括如下步骤:对目标数据进行降维处理获得初步降维后大数据,根据级别获得超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据,对每个所述区域数据进行降维处理获得降维后区域数据,对所有的所述降维后区域数据进行组合,获得分割后数据并对其进行融合处理,获得有效降维后大数据,采用聚类算法对有效降维后大数据进行聚类处理获得聚类后大数据,聚类后大数据的各个数据集合为分类结果数据。本方法考虑了数据集不同均匀区域的多样性,有效解决了传统PCA对大数据各个区域的不同性欠缺考虑、难以获得较高分类精度的问题,在大数据上实现了精度与速度兼备的分类效果。

Description

大数据分类方法及系统
技术领域
本发明涉及数据挖掘和数据处理技术领域,尤其涉及一种大数据的分类方法及系统。
背景技术
图像和视频等维数大的数据称为高维数据,海量高维数据和/或其他数据可以称为大数据,由于大数据固有的一些特性使得对大数据进行分析和处理变得困难。而随着云计算的发展和应用,加上近年来互联网、移动互联网、物联网等行业发展迅速,在线视频、社交网络、云存储,电子商务和视频监控等应用迅速崛起,这些互联网和移动终端的应用导致各类数据量都在大量增长,特别是图像、视频等大数据的种类和数量都在呈指数增长。寻求精确且高效的分类方法,去合理利用、有效处理和高效检索这些大数据中的各类数据成为众多领域所面临的一个重大问题。由于数据量的增多,数据需要提取的特征就越来越多,于是数据的维度就越来越大,这就导致了维数灾难的发生。
一般来说,传统的聚类方法进行聚类依赖于相似性度量和概率,这些方法在低维空间中非常有效,但是在高维空间中传统的聚类方法往往得不到有意义的簇。由此可见,采用传统方案对大数据进行聚类以实现各类数据分类存在准确性低的问题。
发明内容
本申请要解决的技术问题是提供一种分类效果好、速度快的大数据分类方法。
本申请提供了一种大数据分类方法,其包括如下步骤:
步骤一:对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的多维数据;
步骤二:根据预设的级别获得超像素总数;
步骤三:根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
步骤四:对每个所述区域数据进行降维处理获得降维后区域数据;
步骤五:对所有的所述降维后区域数据进行组合,获得分割后数据;
步骤六:对所述分割后数据进行融合处理,获得有效降维后大数据;
步骤七:采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
在其中一个实施例中,所述步骤三包括如下步骤:
提取所述初步降维后大数据的第一主成分数据;
采用超像素分割算法对该第一主成分数据进行分割,获得超像素,该超像素的数量与所述超像素总数相同;
将所述超像素映射到所述初步降维后大数据中,获得多个区域数据。
在其中一个实施例中,所述根据预设的级别获得超像素总数的方法为:
Figure BDA0002934128810000021
其中Sf为设定的初始超像素数量,c为所述预设的级别,S为超像素总数。
在其中一个实施例中,所述步骤六包括如下步骤:
确定融合对象序列,将所述分割后数据设为该融合对象序列中的融合对象;
获得类标签序列;
从融合对象序列中获得数据点集合;
获得该数据点集合中每一个数据点所对应的类标签;
将该数据点集合中每一个数据点与其对应的类标签组合,获得有效降维后大数据。
在其中一个实施例中,所述获得该数据点集合中每一个数据点所对应的类标签的方法包括如下步骤:
对每一个所述数据点所属分类进行投票决策,其投票公式为:
Figure BDA0002934128810000031
Figure BDA0002934128810000032
其中i∈{g1,g2,....,gG},其中g1、g2为类标签,G为类标签总数,I为指标函数,aj为第j个融合对象的投票权,k代表所述融合对象序列中融合对象的总数,N(i)为所述数据点属于第i类标签的预测次数;
获得所述预测次数N(i)的最大值,获得与最大值对应的类标签,该类标签为所述数据点的类标签,其计算公式为l=argmaxN(i),其中l为所述预测次数的最大值对应的类标签。
在其中一个实施例中,所述分割后数据和所述初步降维后大数据均为所述融合对象序列中的融合对象。
在其中一个实施例中,所述分割后数据为多个,其获得方法为:根据设定的最大分割级别C,获得分割级别序列{0,±1,±2,...,±C};
对该分割级别序列中的每一个分割级别执行如下步骤获得多个所述分割后数据:
获得与所述分割级别对应的超像素总数,其方法为:
Figure BDA0002934128810000033
其中Sf为设定的初始超像素数量,c为所述分割级别,S为超像素总数;
运行所述步骤三至所述步骤五,获得所述分割后数据。
大数据分类系统,其包括:
第一降维模块,用于对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的多维数据;
获取模块,用于根据预设的级别获得超像素总数;
超像素分割模块,用于根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
第二降维模块,用于对每个所述区域数据进行降维处理获得降维后区域数据;
组合模块,用于对所有的所述降维后区域数据进行组合,获得分割后数据;
融合模块,用于对所述分割后数据进行融合处理,获得有效降维后大数据;
聚类模块,用于采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现大数据分类方法的步骤。
计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时,实现大数据分类方法的步骤。
本申请的大数据分类方法考虑了大数据不同区域的多样性,即不同的区域应该有不同的投影,有效解决了传统PCA对大数据进行统一尺度投影导致对各个区域的不同性欠缺考虑、难以获得较高分类精度的问题,在大数据上实现了精度与速度兼备的分类效果。
附图说明
此处的附图,示出了本发明所述技术方案的具体实例,并与具体实施方式构成说明书的一部分,用于解释本发明的技术方案、原理及效果。
除非特别说明或另有定义,不同附图中,相同的附图标记代表相同或相似的技术特征,对于相同或相似的技术特征,也可能会采用不同的附图标记进行表示。
图1是本申请大数据分类方法实施例示意图,
图2为Indian_pines高光谱图像处理效果图,
图3为Salinas高光谱图像处理效果图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在大数据上可能存在许多同质区域,在每个区域内的数据更可能属于相同类别。因此,在降维过程中,不同区域应该具有不同的变换向量,显然,更不可能为整个大数据所生成的变换向量。所以传统的PCA降维方法对大数据进行单一投影,其降维效果并不理想。k均值聚类算法具备速度快、操作简单的优点,然而在高维数据上聚类精度不高,因此降维效果不理想的前提下,大数据分类精度也不高。
为实现对大数据快速且精准的分类,基于分而治之的策略,本申请提出一种在PCA降维基础上进行改进的大数据分类方法。该方法原理为:首先,对大数据进行初步降维处理,然后,为了利用同质区域之间的差异找到大数据中最佳变换向量,通过将整个大数据分割成多个不同的均匀区域,对每个均匀区域再进行PCA降维处理,提取到相同数量的主成分,再将主成分融合起来形成有效降维后大数据。因此,该有效降维后大数据能充分包含单尺度降维无法提取的空间信息。在得到有效降维后大数据后再对其进行k均值聚类处理。
具体的,下面以对高光谱图像处理为实施例详细说明本申请的大数据分类方法的处理过程,如图1所示,其步骤如下:
S10、对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的多维数据;
在上述目标数据为高光谱图像时,该步骤具体是对高光谱图像进行降维处理获得初步降维后数据;
具体的,由于PCA降维通常用于高维数据的探索与可视化、数据压缩,数据预处理中,因此,本实施例中的降维处理均采用PCA降维处理。PCA降维通过计算在降维空间中使数据方差最大化的低维表示来进行降维。例如,X为原始L维空间的数据集X∈RL×P,Y为D维空间的数据集Y∈RD×P,其中D<L,PCA降维找到了从高维空间X到低维空间Y的线性映射W,即Y=WTX。
经过初步降维后,提取高光谱图像的主成分数据后,将特征值最大的主成分数据作为第一主成分数据If,即初步降维后数据。其目标函数为:argmaxTr(WTCov(X)W);约束条件为:WTW=I,其中I为单位矩阵。
即对于一个高维数据集,PCA降维方法尝试找到一个线性映射W,使得WTCov(X)W达到最大,其中Cov(X)是数据集X的协方差矩阵,Tr(X)表示矩阵X的迹。因为Cov(X)是一个对称矩阵,所以Cov(X)的奇异值等于Cov(X)特征值且W矩阵正交,即对Cov(X)进行奇异值分解即可得W,且W矩阵的向量互不相关。
其中,线性映射W可通过以下四步来得到:首先是将矩阵X特征中心化;其次是求特征中心化后矩阵X的协方差矩阵V;再求得协方差矩阵V的特征值和特征向量;最后,选取前D个特征值最大的特征向量作为W。
S20、根据预设的级别获得超像素总数;
在超像素分割算法中,当超像素总数太少时,分割会导致模糊标记的边界超像素需要进一步细分;当超像素总数太大时,计算特征相同的区域结果又可能会变得不同。因此,本实施例针对这个问题提出了多尺度分割策略,从而缓解上述问题。
具体的,根据设定的最大分割级别C,获得分割级别序列{0,±1,±2,...,±C},分割级别序列中的每一个分割级别c所对应的超像素总数不相同,即对初步降维后第一主成分数据If分割的尺度不一样。采用分割级别序列中每一个分割级别c对降维后第一主成分数据If进行分割,总分割次数为2C+1次,从而实现多尺度分割。
其中计算与分割级别序列中的每一个分割级别c所对应的超像素总数的方法为:
Figure BDA0002934128810000071
其中:Sc为分割级别c对应的超像素总数,Sf是初始的超像素数,根据经验来设定。由于Sc的值可能不是{1,2,…,P}中的整数,可以通过Sc=min(max(1;round(Sc));P)方法来将其重置为整数,式中,P是高光谱图像的总像素数。
S30、根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
获得了高光谱图像的第一主成分数据If,即获取了高光谱图像的主要信息,降低了分割的计算成本。由于熵率超像素分割在速度和效率方面都有很好的表现,本实施例采用熵率超像素分割对第一主成分数据If进行区域分割得到若干个均匀区域,将这些区域映射到高光谱图像立方体数据中,获得区域数据。
可选的,也可以采取其他超像素分割方法,例如:简单线性迭代聚类(SLIC)。
上述超像素分割原理为:通过高光谱图像第一主成分数据If生成基图像,在基图像上构造一个图,由图上随机游走的熵率和获得紧凑、均匀、平衡的平衡项组成目标函数,使用迭代贪婪算法优化目标函数,最终会选择图中边的子集,从而生成超像素将基图像分割为不同的均匀区域。
分割目标公式为:
Figure BDA0002934128810000072
式中,S表示超像素总数,约束条件为:
Figure BDA0002934128810000073
Figure BDA0002934128810000074
是第g个超像素,
Figure BDA0002934128810000075
是第k个超像素,即If由S个两两之间无交集的超像素组成。
S40、对每个区域数据进行降维处理,得到降维后区域数据;
对每次分割后获得的区域数据,通过对其进行PCA降维处理,从而每一个区域数据都提取到相同数量的主成分,形成降维后区域数据。
S50、将所有降维后区域数据进行组合,获得分割后数据;
具体的,将降维后区域数据按照该区域在原降维后第一主成分数据If所处位置组合在一起,从而获得分割后数据。依据前述设定的最大分割级别C,按照对应分割级别序列中的每个分割级别所获得的超像素总数,重复运行S30、S40和S50的步骤,因此可以得到2C+1个分割后数据。
可选的,在确定了一个合适的分割级别c,获得了对应的超像素总数后,也可以只采用该分割级别c对降维后第一主成分数据If进行一次分割处理,即运行一次S30、S40和S50的步骤,获得分割后数据。
S60、对所述分割后数据进行融合处理,获得有效降维后大数据;
将原始的大数据(如原高光谱图像)分割为2C+1尺度,则高光谱图像将有2C+1个不同的分类结果,得到分割后数据也为2C+1个,需要将这些分割后数据进行融合在一起,得到有效降维后高光谱数据。由于基于多数投票(MV)的决策融合策略对不精确的后验概率估计不敏感,我们优选采用该决策融合策略来聚合分类结果。
具体的,分割后数据作为融合对象,将2C+1个分割后数据形成融合对象序列。如果只进行了一个级别的切割,也可以将初步降维后第一主成分数据If作为融合对象加入到融合对象序列中。
由于这些分割后数据的数据点总量相同,因此取其中一个分割后数据的所有数据点作为数据集。对该数据集中每一个所述数据点的所属分类进行投票决策,其投票公式为:
Figure BDA0002934128810000081
其中i∈{g1,g2,...,gG},其中g1、g2为类标签,G为设定的类标签总数,I为指标函数,aj为第j个融合对象的投票权,k代表所述融合对象序列中融合对象的总数,N(i)为所述数据点属于第i类标签的预测次数;
获得所述预测次数N(i)的最大值,获得与最大值对应的类标签,该类标签为所述数据点的类标签,其目标公式为l=argmaxN(i),其中l为所述预测次数的最大值对应的类标签。
得到上述每一个数据点的类标签后,将类标签结果与数据集组合产生新的有效降维后大数据,即有效降维后高光谱数据。
S70、采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
针对高光谱数据,可以采用聚类算法对有效降维后高光谱数据进行聚类处理获得聚类后的高光谱数据,以实现对高光谱数据中各类型数据的分类。
最后,需要对有效降维后高光谱数据进行聚类处理。在已经对高光谱图像进行了切割、降维、融合处理后,在有效的降维效果基础上,由于k均值聚类算法速度快,操作简单,因此接下来的聚类处理采用k均值聚类算法就能达到很好的聚类效果,从而既能得到分类精度高的大数据、又保证了分类的速度快、效率高。
本实施例通过对目标数据进行降维处理获得初步降维后大数据,根据预设的级别获得超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据,对每个所述区域数据进行降维处理获得降维后区域数据,对所有的所述降维后区域数据进行组合,获得分割后数据,对所述分割后数据进行融合处理,获得有效降维后大数据,采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,将聚类后大数据中的各个数据集合确定为目标数据中各类型数据,即将一个数据集合确定为一类数据,以实现对大数据的准确分类,提升分类效率,使分类后的各类型数据可以直接用于相关分析和/或处理过程,进而提升后续分析和/或处理的效率,获得更好的分析和/或处理效果。
具体地,上述聚类算法可以包括k均值聚类算法,k均值聚类算法是基于样本集合划分的聚类算法,其原理为:将数据样本集合划分为k个子集,构成k个类,将n个样本分到k个类中,使得每个样本到其所属类的中心的距离最小。
假如获得的新的矩阵为Xc=[X(1),X(2),...X(m)]。
首先,采用欧式平方距离作为样本之间的距离d(xi,xj):
Figure BDA0002934128810000101
其中,m为Xc矩阵中的中心点个数,xi,xj为Xc矩阵中的样本;
然后,定义样本与其所属类的中心之间的距离的总和为损失函数,即:
Figure BDA0002934128810000102
其中,
Figure BDA0002934128810000103
为第l个类的均值或中心,
Figure BDA0002934128810000104
I(C(i)=l)是指示函数,取值为1或0。函数W(C)也称为能量,表示相同类中样本的相似程度;
最后求解最优化问题:
Figure BDA0002934128810000105
当相似的样本被聚到同类时,损失函数值最小,这个目标函数的最优化能达到聚类的目的。由于将n个样本分到k个类中所有可能的分法的数目是:
Figure BDA0002934128810000106
所以,常用迭代来找出最优分类。
k均值聚类算法具体计算步骤如下:
首先,对于给定的中心值(m1,m2,m3,...,mk),求一个划分C,使得目标函数极小化:
Figure BDA0002934128810000107
然后,在划分确定的情况下,使样本和其所属类的中心之间的距离总和最小,求解结果,对于每个包含nl个样本的类Gl,更新其均值ml
Figure BDA0002934128810000108
重复以上两个步骤,直到划分不再改变,得到聚类结果Y。
本申请的大数据分类方法可以应用在大数据处理、计算、挖掘等多个应用场合中。该方法融合了k均值聚类算法快速、谱聚类算法准确的优点,在低维数据集中,该算法保持了精准;在高维的数据集中,较k均值聚类算法与谱聚类能得到较好的聚类结果,从而获得较高分类精度,在大数据上实现了精度与速度兼备的分类效果。
在一个实施例中,所述步骤三包括如下步骤:
提取所述初步降维后大数据的第一主成分数据;
采用超像素分割算法对该第一主成分数据进行分割,获得超像素,该超像素的数量与所述超像素总数相同;
将所述超像素映射到所述初步降维后大数据中,获得多个区域数据。
本实施例对初步降维后大数据进行分割是针对初步降维后大数据的第一主成分数据进行分割。由于获得了高光谱图像的第一主成分数据,即获取了高光谱图像的主要信息,只针对初步降维后大数据的第一主成分数据进行分割,能显著降低分割的计算成本。
在一个实施例中,所述根据预设的级别获得超像素总数的方法为:
Figure BDA0002934128810000111
其中Sf为设定的初始超像素数量,c为所述预设的级别,S为超像素总数。
本实施例根据预设的级别获得超像素总数的计算方法,使得不同级别所获得的超像素总数之间的区别显著、分布合理,从而使得采用不同超像素总数分割所获得的区域数据有明显区别。
在一个实施例中,所述步骤六包括如下步骤:
确定融合对象序列,将所述分割后数据设为该融合对象序列中的融合对象;
获得类标签序列;
从融合对象序列中获得数据点集合;
获得该数据点集合中每一个数据点所对应的类标签;
将该数据点集合中每一个数据点与其对应的类标签组合,获得有效降维后大数据。
具体地,所述获得该数据点集合中每一个数据点所对应的类标签的方法包括如下步骤:
对每一个所述数据点所属分类进行投票决策,其投票公式为:
Figure BDA0002934128810000121
Figure BDA0002934128810000122
其中i∈{g1,g2,....,gG},其中g1、g2为类标签,G为类标签总数,I为指标函数,aj为第j个融合对象的投票权,k代表所述融合对象序列中融合对象的总数,N(i)为所述数据点属于第i类标签的预测次数;
获得所述预测次数N(i)的最大值,获得与最大值对应的类标签,该类标签为所述数据点的类标签,其计算公式为l=argmaxN(i),其中l为所述预测次数的最大值对应的类标签。
具体地,所述分割后数据和所述初步降维后大数据均为所述融合对象序列中的融合对象。
本实施例中对分割后数据采取基于多数投票(MV)的决策融合策略进行融合。由于基于多数投票(MV)的决策融合策略对不精确的后验概率估计不敏感,能更加准确的获得分割后数据所对应的类标签,从而获得的有效降维后大数据能精确的反映目标数据的分类特征。
在一个实施例中,所述分割后数据为多个,其获得方法为:
根据设定的最大分割级别C,获得分割级别序列{0,±1,±2,...,±C};
对该分割级别序列中的每一个分割级别执行如下步骤获得多个所述分割后数据:
获得与所述分割级别对应的超像素总数,其方法为:
Figure BDA0002934128810000123
其中Sf为设定的初始超像素数量,c为所述分割级别,S为超像素总数;
运行所述步骤三至所述步骤五,获得所述分割后数据。
由于单次的分割,很难定出理想的超像素总数,当超像素总数太少时,分割会导致模糊标记的边界超像素需要进一步细分;当超像素总数太大时,计算特征相同的区域结果又可能会变得不同。因此本实施例中采取对初步降维后大数据进行多个级别的分割,从而使得分割时的超像素总数不相同,即分割的尺度不一样,从而可以得到理想的分割后数据。
在一个实施例中,通过实验对上述大数据分类方法的效果进行进一步说明,
实验条件:
本发明实施例的实验是在主频为3GHZ的Intel(R)Core(TM)I7、内存8G的硬件环境和Matlab R2017a软件环境下实现的。
实验对象:
本申请的实验测试了两组高光谱图像数据集:Indian_pines与Salinas。
数据集详细信息如下表所示:
数据集 数据点数 维数 类别数
Indian_pines 21025 145 16
Salinas 111104 204 16
不同方法实验结果如下:(其中AAC为平均精度,OAC为总体精度,Kappa为一致性检验,Time为处理时间,OM为超过计算机内存运行失败)
以下为对Indian_pines高光谱图像的处理结果:
本申请方法 PCA+Kmeans Kmeans SC
AAC 0.5380 0.3125 0.2894 0.2732
OAC 0.4456 0.2231 0.2447 0.1675
Kappa 0.3748 0.1656 0.1703 0.2520
Time 11.2175 8.1353 5.7142 378.7384
以下为对Salinas高光谱图像的处理结果:
SPCA+Kmeans PCA+Kmeans Kmeans SC
AAC 0.8027 0.6457 0.5142 OM
OAC 0.8004 0.6295 0.4887 OM
Kappa 0.7922 0.668 0.53 OM
Time 6.6382 21.3206 21.9043 OM
从上述结果和图2、图3可以得知,本申请所提出算法获得了更好的聚类精度,平均精度、总体精度、一致性检验皆高于PCA+Kmeans算法、Kmeans算法、谱聚类算法(SC)单独处理的效果。说明在高维数据集中,本申请的大数据分类方法的聚类效果与效率优于PCA+Kmeans算法、Kmeans算法与谱聚类算法。
本申请还提供了一种大数据分类系统,其包括:
第一降维模块,用于对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的多维数据;
获取模块,用于根据预设的级别获得超像素总数;
超像素分割模块,用于根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
第二降维模块,用于对每个所述区域数据进行降维处理获得降维后区域数据;
组合模块,用于对所有的所述降维后区域数据进行组合,获得分割后数据;
融合模块,用于对所述分割后数据进行融合处理,获得有效降维后大数据;
聚类模块,用于采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
关于大数据分类系统的具体限定可以参见上文中对于大数据分类方法的限定,在此不再赘述。上述大数据分类系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于工业边缘端中的处理器中,也可以以软件形式存储于工业边缘端中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
当然,本申请中的方法还可以是其他的实现相应功能的装置,例如计算机设备或计算机可读介质。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (10)

1.大数据分类方法,其特征在于,包括如下步骤:
步骤一:对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的高光谱图像数据;
步骤二:根据预设的级别获得超像素总数;
步骤三:根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
步骤四:对每个所述区域数据进行降维处理获得降维后区域数据;
步骤五:对所有的所述降维后区域数据进行组合,获得分割后数据;
步骤六:对所述分割后数据进行融合处理,获得有效降维后大数据;
步骤七:采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
2.如权利要求1所述的大数据分类方法,其特征在于,所述步骤三包括如下步骤:
提取所述初步降维后大数据的第一主成分数据;
采用超像素分割算法对该第一主成分数据进行分割,获得超像素,该超像素的数量与所述超像素总数相同;
将所述超像素映射到所述初步降维后大数据中,获得多个区域数据。
3.如权利要求1所述的大数据分类方法,其特征在于,所述根据预设的级别获得超像素总数的方法为:
Figure FDA0003170802590000011
其中Sf为设定的初始超像素数量,c为所述预设的级别,S为超像素总数。
4.如权利要求1所述的大数据分类方法,其特征在于,所述步骤六包括如下步骤:
确定融合对象序列,将所述分割后数据设为该融合对象序列中的融合对象;
获得类标签序列;
从融合对象序列中获得数据点集合;
获得该数据点集合中每一个数据点所对应的类标签;
将该数据点集合中每一个数据点与其对应的类标签组合,获得有效降维后大数据。
5.如权利要求4所述的大数据分类方法,其特征在于,所述获得该数据点集合中每一个数据点所对应的类标签的方法包括如下步骤:
对每一个所述数据点所属分类进行投票决策,其投票公式为:
Figure FDA0003170802590000021
Figure FDA0003170802590000022
其中i∈{g1,g2,....,gG},其中g1、g2为类标签,G为类标签总数,I为指标函数,aj为第j个融合对象的投票权,k代表所述融合对象序列中融合对象的总数,N(i)为所述数据点属于第i类标签的预测次数;
获得所述预测次数N(i)的最大值,获得与最大值对应的类标签,该类标签为所述数据点的类标签,其计算公式为l=arg maxN(i),其中l为所述预测次数的最大值对应的类标签。
6.如权利要求4所述的大数据分类方法,其特征在于,所述分割后数据和所述初步降维后大数据均为所述融合对象序列中的融合对象。
7.如权利要求1所述的大数据分类方法,其特征在于,所述分割后数据为多个,其获得方法为:
根据设定的最大分割级别C,获得分割级别序列{0,±1,±2,...,±C};
对该分割级别序列中的每一个分割级别执行如下步骤获得多个所述分割后数据:
获得与所述分割级别对应的超像素总数,其方法为:
Figure FDA0003170802590000023
其中Sf为设定的初始超像素数量,c为所述分割级别,S为超像素总数;
运行所述步骤三至所述步骤五,获得所述分割后数据。
8.大数据分类系统,其特征在于,包括:
第一降维模块,用于对目标数据进行降维处理获得初步降维后大数据,所述目标数据为待分类的高光谱图像数据;
获取模块,用于根据预设的级别获得超像素总数;
超像素分割模块,用于根据所述超像素总数,采用超像素分割算法对该初步降维后大数据进行分割,获得多个区域数据;
第二降维模块,用于对每个所述区域数据进行降维处理获得降维后区域数据;
组合模块,用于对所有的所述降维后区域数据进行组合,获得分割后数据;
融合模块,用于对所述分割后数据进行融合处理,获得有效降维后大数据;
聚类模块,用于采用聚类算法对所述有效降维后大数据进行聚类处理获得聚类后大数据,该聚类后大数据中的各个数据集合为所述目标数据分类后的结果数据。
9.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的大数据分类方法的步骤。
10.计算机设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时,实现如权利要求1至7任意一项所述的大数据分类方法的步骤。
CN202110157162.6A 2021-02-04 2021-02-04 大数据分类方法及系统 Active CN112800138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110157162.6A CN112800138B (zh) 2021-02-04 2021-02-04 大数据分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110157162.6A CN112800138B (zh) 2021-02-04 2021-02-04 大数据分类方法及系统

Publications (2)

Publication Number Publication Date
CN112800138A CN112800138A (zh) 2021-05-14
CN112800138B true CN112800138B (zh) 2021-10-15

Family

ID=75814231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110157162.6A Active CN112800138B (zh) 2021-02-04 2021-02-04 大数据分类方法及系统

Country Status (1)

Country Link
CN (1) CN112800138B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114049562B (zh) * 2021-11-30 2022-06-21 中国科学院地理科学与资源研究所 一种土地覆被数据融合修正方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977767A (zh) * 2019-02-18 2019-07-05 浙江大华技术股份有限公司 基于超像素分割算法的目标检测方法、装置及存储装置
CN110096519A (zh) * 2019-04-09 2019-08-06 北京中科智营科技发展有限公司 一种大数据分类规则的优化方法和装置
CN110796038A (zh) * 2019-10-15 2020-02-14 南京理工大学 结合快速区域生长超像素分割的高光谱遥感图像分类方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7961957B2 (en) * 2007-01-30 2011-06-14 Alon Schclar Diffusion bases methods for segmentation and clustering
CN103353986B (zh) * 2013-05-30 2015-10-28 山东大学 一种基于超像素模糊聚类的脑部mr图像分割方法
CN105023239B (zh) * 2015-08-18 2018-03-13 西安电子科技大学 基于超像素和最大边界分布的高光谱数据降维方法
EP3246876A1 (en) * 2016-05-17 2017-11-22 Thomson Licensing Method to determine chromatic component of illumination sources of an image
CN106097252B (zh) * 2016-06-23 2019-03-12 哈尔滨工业大学 基于图Graph模型的高光谱图像超像素分割方法
CN110070485A (zh) * 2019-04-04 2019-07-30 南京信息工程大学 一种高光谱图像降维方法
CN111563544B (zh) * 2020-04-27 2023-07-25 中国科学院国家空间科学中心 一种多尺度超像素分割的最大信噪比高光谱数据降维方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977767A (zh) * 2019-02-18 2019-07-05 浙江大华技术股份有限公司 基于超像素分割算法的目标检测方法、装置及存储装置
CN110096519A (zh) * 2019-04-09 2019-08-06 北京中科智营科技发展有限公司 一种大数据分类规则的优化方法和装置
CN110796038A (zh) * 2019-10-15 2020-02-14 南京理工大学 结合快速区域生长超像素分割的高光谱遥感图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Superpixel based spectral classification of hyperspectral images in different spaces;Sinem Aybüke Şakaci,等;《2018 5th International Conference on Electrical and Electronic Engineering (ICEEE)》;20180621;第384-388页 *
高光谱影像的降维方法研究;姚娆;《中国优秀硕士学位论文全文数据库基础科学辑》;20190115;第2-42页 *

Also Published As

Publication number Publication date
CN112800138A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
US11294624B2 (en) System and method for clustering data
Song et al. Unsupervised classification of polarimetric SAR imagery using large-scale spectral clustering with spatial constraints
Wang et al. CLUES: A non-parametric clustering method based on local shrinking
Chakraborty et al. Simultaneous variable weighting and determining the number of clusters—A weighted Gaussian means algorithm
Wang et al. Fast Image Segmentation Using Two‐Dimensional Otsu Based on Estimation of Distribution Algorithm
WO2023108995A1 (zh) 向量相似度计算方法、装置、设备及存储介质
Yang et al. New l 2, 1-norm relaxation of multi-way graph cut for clustering
CN111027636B (zh) 基于多标签学习的无监督特征选择方法及系统
Deng et al. Adaptive multi-bit quantization for hashing
Yu et al. A content-based goods image recommendation system
JP2011014133A (ja) 平均値シフト手順を用いてサンプルをクラスタリングするための方法
Bourouis et al. Color object segmentation and tracking using flexible statistical model and level-set
Chen et al. Sparsity-regularized feature selection for multi-class remote sensing image classification
Wang et al. High-dimensional Data Clustering Using K-means Subspace Feature Selection.
Xiao et al. Segmentation by continuous latent semantic analysis for multi-structure model fitting
CN112800138B (zh) 大数据分类方法及系统
Liu et al. Color image segmentation using nonparametric mixture models with multivariate orthogonal polynomials
Zhan et al. Improved spectral clustering based on Nyström method
Xie et al. Imbalanced big data classification based on virtual reality in cloud computing
Wang et al. Mic-kmeans: a maximum information coefficient based high-dimensional clustering algorithm
CN110209895B (zh) 向量检索方法、装置和设备
Kong et al. Robust and smart spectral clustering from normalized cut
Liu et al. A weight-incorporated similarity-based clustering ensemble method
Xu et al. The image segmentation algorithm of colorimetric sensor array based on fuzzy C-means clustering
Kazemi et al. FEM-DBSCAN: AN efficient density-based clustering approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Big Data Classification Methods and Systems

Effective date of registration: 20230515

Granted publication date: 20211015

Pledgee: Bank of Guangzhou Co.,Ltd. Nansha branch Guangdong Free Trade Zone

Pledgor: GUANGDONG YUN ZHAO MEDICAL TECHNOLOGY Co.,Ltd.

Registration number: Y2023980040531

PE01 Entry into force of the registration of the contract for pledge of patent right