CN108764288A - 一种gk鉴别聚类的茶叶品种分类方法 - Google Patents

一种gk鉴别聚类的茶叶品种分类方法 Download PDF

Info

Publication number
CN108764288A
CN108764288A CN201810376203.9A CN201810376203A CN108764288A CN 108764288 A CN108764288 A CN 108764288A CN 201810376203 A CN201810376203 A CN 201810376203A CN 108764288 A CN108764288 A CN 108764288A
Authority
CN
China
Prior art keywords
tea
iteration
sample
fuzzy
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810376203.9A
Other languages
English (en)
Inventor
武小红
王大智
傅海军
孙俊
陈勇
武斌
戴春霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN201810376203.9A priority Critical patent/CN108764288A/zh
Publication of CN108764288A publication Critical patent/CN108764288A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种GK鉴别聚类的茶叶品种分类方法,首先采集茶叶样本近红外光谱,对茶叶样本红外光谱预处理以及降维处理,然后提取茶叶训练样本近红外光谱的鉴别信息,对测试样本进行模糊C均值聚类,最后利用GK鉴别聚类进行茶叶品种的分类。本发明具有检测速度快、分类准确率高,绿色环保等优点。可实现茶叶品种的无损,快速准确分类。

Description

一种GK鉴别聚类的茶叶品种分类方法
技术领域
本发明涉及一种茶叶品种分类方法,具体涉及一种GK鉴别聚类的茶叶品种分类方法。
背景技术
茶叶是世界三大饮料之一,它含有茶多酚、蛋白质和氨基酸等有机物质。岳西翠兰、六安瓜片、施集毛峰、黄山毛峰是安徽地区特有的茶叶品牌,但是在茶叶市场上存在以次充好现象,而普通消费者无法辨认优质名茶和劣质茶叶,往往会受骗上当。不同品种的茶叶其内部的有机物含量不相同,品质也不相同。所以研究一种方法简单、易于操作、检测速度快的茶叶品种的鉴别方法是非常必要的。
近红外光谱检测技术作为一种快速无损检测技术,近年来应用于茶叶品质的检测分析中。近红外光谱检测茶叶后得到漫反射光谱,在不同品种的茶叶上获得的漫反射光谱存在差异,利用这个原理,可以将不同品种的茶叶区分开来,即实现不同品种茶叶的分类。
模糊聚类技术已经有效的应用于大规模数据分析、数据挖掘、模式识别、图像处理等领域,具有重要的理论与实际应用价值。其中最著名的是模糊C-均值(Fuzzy C-Means,FCM)算法,但FCM并未考虑数据集的结构,为此,Gustafson和Kessel通过引入模糊协方差矩阵的方法,对FCM进行了相应的改进,提出了GK聚类方法(GK聚类是由Gustafson和Kessel提出的一种聚类方法,见文献Gustafson D E,Kessel W C.Fuzzy clustering with fuzzycovariance matrix[C]//Proceedings of the IEEE CDC,San Diego,1979:761~766.)。但是GK聚类方法在聚类过程中无法动态提取鉴别信息和改变数据维数。
发明内容
针对传统GK聚类算法的缺陷和不足,本发明提供了一种GK鉴别聚类方法(GKDCM),结合近红外光谱技术实现茶叶品种的准确鉴别,GKDCM可实现模糊聚类过程中进行近红外光谱数据鉴别信息的提取,达到更高的聚类准确率。
本发明采用的技术方案包括以下步骤:
一种GK鉴别聚类的茶叶品种分类方法,采集茶叶样本近红外光谱,通过多元散射校正MSC对茶叶近红外光谱进行预处理、采用主成分分析方法PCA对茶叶样本近红外光谱的降维处理,采用线性鉴别分析LDA提取茶叶训练样本近红外光谱的鉴别信息,对测试样本进行模糊C均值聚类,利用GK鉴别聚类进行茶叶品种的分类。
进一步,利用GK鉴别聚类进行茶叶品种的分类,具体过程为:
1):初始化设置相关参数,包括茶叶测试样本数n、样本类别数目c、权重指数m、迭代次数初始值r、最大迭代次数rmax以及迭代最大误差参数为ε;
2):计算第r次迭代时的类中心值vi (r)、模糊类间散射矩阵SfB、模糊类内散射矩阵SfW和特征向量ψ;
类中心值vi (r)的计算公式为: 其中为第r-1次迭代时第k个测试样本xk隶属于第i类的模糊隶属度;
模糊类间散射矩阵SfB、模糊类内散射矩阵SfW、特征向量ψ的计算公式为:
其中为模糊类内散射矩阵的逆矩阵,λ是特征向量ψ所对应的特征值,上标T代表矩阵转置运算;
3):将样本xk、类中心值vi (r)分别转化到特征空间Rq、Rp
特征空间由ψ1,ψ2,…,ψp组成,特征空间Rq、Rp分别为yk=xk T1,ψ2,…,ψp](yk∈Rp)、其中p和q均为样本的维数,ψp为第p个特征向量;
4):计算第r次迭代时的模糊协方差矩阵模糊隶属度值
第r次迭代时的模糊协方差矩阵模糊隶属度值的计算公式为:式中为第r次迭代时样本yk到类中心的距离,为第r-1次迭代时样本yk到类中心vj的距离范数,j=0,1,2,…,c-1; 是第r次迭代时的第i个聚类中心的范数矩阵,第r次迭代时的第j个聚类中心的范数矩阵,d为测试样本的维数;
5):若或者r>rmax,则迭代计算终止,否则增加迭代数r值,r=r+1,继续重新迭代计算;ε为迭代最大误差参数,rmax为最大迭代次数。
与现有技术相比,本发明具有以下明显的优点:
GKDCM聚类方法通过对矩阵进行特征分解计算特征值和特征向量以提取茶叶样本近红外光谱的鉴别信息,可实现在GK模糊聚类过程中进行数据鉴别信息的提取,达到更高的聚类准确率。
附图说明
图1为本发明的流程示意图;
图2是茶叶样本的近红外光谱图;
图3是多元散射校正MSC处理后的茶叶红外光谱图;
图4是线性判别分析LDA处理后得到的三维测试样本;
图5为模糊C均值聚类的模糊隶属度图;
图6为一种GK鉴别聚类的模糊隶属度图。
具体实施方式
以下结合附图说明和具体实施方式对本发明作进一步的详细描述:本发明提出的一种GK鉴别聚类的茶叶品种分类方法可实现模糊聚类过程中进行数据鉴别信息的提取,可以达到更高的聚类准确率,适用于茶叶品种的鉴别分析,本发明的实施流程如图1所示。
实施例:
步骤一、茶叶(安徽四种茶叶)样本近红外光谱采集。
采集岳西翠兰、六安瓜片、施集毛峰、黄山毛峰四种安徽品牌茶叶,每种茶叶的样本数为65,合计260个样本,所有茶叶样本被研磨粉粹后经40目筛过滤;实验室温度和相对湿度保持相对不变,Antaris II近红外光谱分析仪开机预热1个小时;采用反射积分球模式采集茶叶近红外光谱,近红外光谱分析仪扫描每个样品32次以获取样品的漫反射光谱均值;光谱扫描的波数为10000~4000cm-1,扫描间隔为3.857cm-1,采集到每个茶叶样品的光谱是1557维的数据;每个样本采样3次,取其平均值作为后续模型建立的实验数据。四种茶叶样本的近红外光谱如图2所示。
步骤二、对茶叶红外光谱预处理:利用多元散射校正(MSC)对茶叶近红外光谱进行处理。
先计算步骤一茶叶近红外光谱的平均值,然后将每个茶叶样本的近红外光谱与平均值做线性回归,计算每个茶叶样本的近红外光谱相对于平均值的线性平移量和倾斜偏移量,最后,在每个茶叶样本的近红外光谱中减去线性平移量同时除以倾斜偏移量以实现茶叶近红外光谱的多元散射校正(MSC);茶叶红外光谱经过多元散射校正后的结果如图3所示。
步骤三、采用主成分分析方法(PCA)对茶叶样本近红外光谱进行降维处理,将茶叶样本近红外光谱从高维数据变换为低维数据。
将步骤二中经过多元散射校正(MSC)处理后的茶叶样本近红外光谱按行排列组成矩阵,对该矩阵进行数据标准化,使其均值变为零,然后计算矩阵的协方差矩阵并对协方差矩阵进行特征分解计算特征值和特征向量,将特征值从大到小排列,取前7个最大特征值(分别为:22.69,1.19,0.47,0.18,0.05,0.03,0.01)对应的7个特征向量,将260个茶叶样本的近红外光谱数据投影到这7个特征向量上,从而将近红外光谱从1557维压缩到7维。
步骤四、采用线性鉴别分析(LDA)提取茶叶训练样本近红外光谱的鉴别信息。
将步骤三中经过PCA处理后的茶叶样本近红外光谱数据分为两个部分:从每类茶叶样本中选取22个样本组成茶叶样本训练集,剩余43个样本组成茶叶样本测试集。用茶叶样本训练集计算得到类内散射矩阵SW和类间散射矩阵SB,对矩阵进行特征分解计算特征值和特征向量,取前3个最大特征值(分别为:232.29,16.13,2.60)对应的3个特征向量,将茶叶样本测试集投影到这3个特征(鉴别)向量上得到经过线性鉴别分析LDA的三维数据,如图4所示。
步骤五、设置模糊C-均值聚类(FCM)的权重指数m=2.0,最大迭代数rmax=100,误差上限值ε=0.00001;对步骤四的茶叶样本测试集进行模糊C均值聚类(FCM),FCM为迭代计算方法,通过迭代计算下面式子:
上式中,uik为第k个测试样本xk隶属于第i类的模糊隶属度,m为权重指数;vi是第i类的类中心值,c为类别数,n为样本数。
FCM的模糊隶属度如图5(图中HS、LA、SG、YX分别代表黄山毛峰、六安瓜片、施集毛峰、岳西翠兰)所示,其作为GK鉴别聚类的初始模糊隶属度U(0)
步骤六:用GK鉴别聚类进行茶叶品种的判定:
1)初始化:设置茶叶测试样本数n=172,样本类别数目c=4,权重指数m=2.0;设置迭代次数初始值r=1和最大迭代次数rmax=100;设置迭代最大误差参数为ε=0.00001;
2)计算第r(r=1,2,…,rmax)次迭代时的类中心值
其中,为第r-1次迭代时第k个测试样本xk隶属于第i类的模糊隶属度,m代表权重;
3)计算模糊类间散射矩阵SfB和模糊类内散射矩阵SfW
其中,c为类别数,上标T代表矩阵转置运算,为测试样本的均值;
计算可得:第39次迭代时,模糊类间散射矩阵SfB和模糊类内散射矩阵SfW为:
4)计算特征向量
其中,为模糊类内散射矩阵的逆矩阵,λ是特征向量ψ所对应的特征值;计算可得:特征值
特征值λ对应的特征向量
5)将样本xk∈Rq转化到特征空间(由ψ1,ψ2,…,ψp组成)
yk=xk T1,ψ2,…,ψp](yk∈Rp)
其中,p和q均为样本的维数,ψp为第p个特征向量;
计算可得:
6)同样将vi (r)转换到特征空间Rp
计算可得:
7)计算第r次迭代时的模糊协方差矩阵
其中;yk为xk经转换后得到的样本;
计算可得:第39次迭代时迭代结束,
第i=0类模糊协方差矩阵为:
第i=1类模糊协方差矩阵为:
第i=2类模糊协方差矩阵为:
第i=3类模糊协方差矩阵为:
8)计算第r次迭代时的模糊隶属度值
上式中为第r次迭代时样本yk到类中心的距离,为第r-1次迭代时样本yk到类中心vj的距离范数(j=0,1,2,…,c-1);
上式中,是第r次迭代时的第i个聚类中心的范数矩阵,第r次迭代时的第j个聚类中心的范数矩阵,d为测试样本的维数;计算可得:d=3。
9)若或者r>rmax,则迭代计算终止,否则增加迭代数r值,即r=r+1;继续从2)开始重新迭代计算。
实验结果为:迭代终止rmax=39,模糊隶属度值如图6所示,可以将测试样本的茶叶划分为四个类别,聚类准确率为100%。
聚类中心为:
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims (10)

1.一种GK鉴别聚类的茶叶品种分类方法,其特征在于,采集茶叶样本近红外光谱,对茶叶样本红外光谱预处理以及降维处理,提取茶叶训练样本近红外光谱的鉴别信息,对测试样本进行模糊C均值聚类,利用GK鉴别聚类进行茶叶品种的分类。
2.如权利要求1所述的一种GK鉴别聚类的茶叶品种分类方法,其特征在于,通过多元散射校正MSC对茶叶近红外光谱进行预处理。
3.如权利要求1所述的一种GK鉴别聚类的茶叶品种分类方法,其特征在于,采用主成分分析方法PCA对茶叶样本近红外光谱的降维处理。
4.如权利要求1所述的一种GK鉴别聚类的茶叶品种分类方法,其特征在于,采用线性鉴别分析LDA提取茶叶训练样本近红外光谱的鉴别信息。
5.如权利要求1所述的一种GK鉴别聚类的茶叶品种分类方法,其特征在于,利用GK鉴别聚类进行茶叶品种的分类,具体过程为:初始化设置相关参数,计算第r次迭代时的类中心值vi (r)、模糊类间散射矩阵SfB、模糊类内散射矩阵SfW和特征向量ψ,将样本xk、类中心值vi (r)分别转化到特征空间Rq、Rp,计算第r次迭代时的模糊协方差矩阵模糊隶属度值或者r>rmax,则迭代计算终止,否则增加迭代数r值,r=r+1,继续重新迭代计算;ε为迭代最大误差参数,rmax为最大迭代次数。
6.如权利要求5所述的一种GK鉴别聚类的茶叶品种分类方法,其特征在于,所述初始化设置相关参数包括茶叶测试样本数n、样本类别数目c、权重指数m、迭代次数初始值r、最大迭代次数rmax以及迭代最大误差参数为ε。
7.如权利要求5或6所述的一种GK鉴别聚类的茶叶品种分类方法,其特征在于,所述类中心值vi (r)的计算公式为:其中为第r-1次迭代时第k个测试样本xk隶属于第i类的模糊隶属度。
8.如权利要求5或6所述的一种GK鉴别聚类的茶叶品种分类方法,其特征在于,所述模糊类间散射矩阵SfB、模糊类内散射矩阵SfW、特征向量ψ的计算公式为:其中为模糊类内散射矩阵的逆矩阵,λ是特征向量ψ所对应的特征值,上标T代表矩阵转置运算。
9.如权利要求5所述的一种GK鉴别聚类的茶叶品种分类方法,其特征在于,所述特征空间由ψ1,ψ2,...,ψp组成,特征空间Rq、Rp分别为yk=xk T1,ψ2,...,ψp](yk∈Rp)、其中p和q均为样本的维数,ψp为第p个特征向量。
10.如权利要求5所述的一种GK鉴别聚类的茶叶品种分类方法,其特征在于,所述第r次迭代时的模糊协方差矩阵模糊隶属度值的计算公式为:式中为第r次迭代时样本yk到类中心的距离,为第r-1次迭代时样本yk到类中心的距离范数,j=0,1,2,…,c-1; 是第r次迭代时的第i个聚类中心的范数矩阵,第r次迭代时的第j个聚类中心的范数矩阵,d为测试样本的维数。
CN201810376203.9A 2018-04-25 2018-04-25 一种gk鉴别聚类的茶叶品种分类方法 Pending CN108764288A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810376203.9A CN108764288A (zh) 2018-04-25 2018-04-25 一种gk鉴别聚类的茶叶品种分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810376203.9A CN108764288A (zh) 2018-04-25 2018-04-25 一种gk鉴别聚类的茶叶品种分类方法

Publications (1)

Publication Number Publication Date
CN108764288A true CN108764288A (zh) 2018-11-06

Family

ID=64011870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810376203.9A Pending CN108764288A (zh) 2018-04-25 2018-04-25 一种gk鉴别聚类的茶叶品种分类方法

Country Status (1)

Country Link
CN (1) CN108764288A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110108661A (zh) * 2019-04-22 2019-08-09 江苏大学 一种模糊极大熵聚类的茶叶近红外光谱分类方法
CN110378374A (zh) * 2019-06-12 2019-10-25 江苏大学 一种模糊鉴别信息提取的茶叶近红外光谱分类方法
CN110414549A (zh) * 2019-06-12 2019-11-05 江苏大学 一种模糊正交线性鉴别分析的茶叶近红外光谱分类方法
CN112801173A (zh) * 2021-01-25 2021-05-14 江苏大学 一种qr模糊鉴别分析的生菜近红外光谱分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408012A (zh) * 2016-09-09 2017-02-15 江苏大学 一种模糊鉴别聚类的茶叶红外光谱分类方法
CN106570520A (zh) * 2016-10-21 2017-04-19 江苏大学 一种混合gk聚类的红外光谱茶叶优劣鉴别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408012A (zh) * 2016-09-09 2017-02-15 江苏大学 一种模糊鉴别聚类的茶叶红外光谱分类方法
CN106570520A (zh) * 2016-10-21 2017-04-19 江苏大学 一种混合gk聚类的红外光谱茶叶优劣鉴别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
武斌: "FUDT在苹果近红外光谱分类中的应用", 《计算机工程与应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110108661A (zh) * 2019-04-22 2019-08-09 江苏大学 一种模糊极大熵聚类的茶叶近红外光谱分类方法
CN110108661B (zh) * 2019-04-22 2021-12-21 江苏大学 一种模糊极大熵聚类的茶叶近红外光谱分类方法
CN110378374A (zh) * 2019-06-12 2019-10-25 江苏大学 一种模糊鉴别信息提取的茶叶近红外光谱分类方法
CN110414549A (zh) * 2019-06-12 2019-11-05 江苏大学 一种模糊正交线性鉴别分析的茶叶近红外光谱分类方法
CN110378374B (zh) * 2019-06-12 2024-03-15 江苏大学 一种模糊鉴别信息提取的茶叶近红外光谱分类方法
CN110414549B (zh) * 2019-06-12 2024-03-22 江苏大学 一种模糊正交线性鉴别分析的茶叶近红外光谱分类方法
CN112801173A (zh) * 2021-01-25 2021-05-14 江苏大学 一种qr模糊鉴别分析的生菜近红外光谱分类方法
CN112801173B (zh) * 2021-01-25 2024-06-07 江苏大学 一种qr模糊鉴别分析的生菜近红外光谱分类方法

Similar Documents

Publication Publication Date Title
CN110378374B (zh) 一种模糊鉴别信息提取的茶叶近红外光谱分类方法
CN108133232B (zh) 一种基于统计字典学习的雷达高分辨距离像目标识别方法
CN108764288A (zh) 一种gk鉴别聚类的茶叶品种分类方法
Zhang et al. Classification modeling method for near‐infrared spectroscopy of tobacco based on multimodal convolution neural networks
CN106951914B (zh) 一种优化模糊鉴别向量提取的电子鼻鉴别食醋品种方法
CN106408012A (zh) 一种模糊鉴别聚类的茶叶红外光谱分类方法
CN109685098B (zh) 一种模糊簇间分离聚类的茶叶品种分类方法
CN112836671B (zh) 一种基于最大化比率和线性判别分析的数据降维方法
CN107192686B (zh) 一种模糊协方差矩阵的可能模糊聚类茶叶品种鉴别方法
CN104374739A (zh) 一种基于近红外定性分析的种子品种真实性鉴别方法
CN110378373B (zh) 一种模糊非相关线性鉴别分析的茶叶品种分类方法
CN105181650A (zh) 一种使用近红外光谱技术快速鉴别茶叶品种的方法
CN110110789A (zh) 一种基于多谱图信息融合技术的中草药品质鉴别方法
CN107271394A (zh) 一种模糊Kohonen鉴别聚类网络的茶叶红外光谱分类方法
CN108491894B (zh) 一种可能模糊鉴别c-均值聚类的茶叶分类方法
CN109886296A (zh) 一种鉴别信息提取式噪声聚类的茶叶品种分类方法
CN108872128B (zh) 一种模糊非相关c均值聚类的茶叶红外光谱分类方法
CN114331474A (zh) 一种模糊线性判别分析的牛奶产地溯源方法
CN111595804A (zh) 一种模糊聚类的茶叶近红外光谱分类方法
CN106199544A (zh) 基于核鉴别局部切空间排列的雷达目标距离像识别方法
CN114112983A (zh) 一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法
CN110414549B (zh) 一种模糊正交线性鉴别分析的茶叶近红外光谱分类方法
CN107392233A (zh) 基于解析型字典学习的多模态模式分类方法
CN101667253B (zh) 一种高光谱遥感数据多类别监督分类方法
CN112801173B (zh) 一种qr模糊鉴别分析的生菜近红外光谱分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106