CN111896495A

CN111896495A - 基于深度学习与近红外光谱太平猴魁产地甄别方法及系统

Info

Publication number: CN111896495A
Application number: CN202010778556.9A
Authority: CN
Inventors: 潘天红; 陈琦; 李鱼强; 林鸿
Original assignee: Huangshan Customs Of People's Republic Of China; Anhui University
Current assignee: Huangshan Customs Of People's Republic Of China; Anhui University
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-11-06

Abstract

基于深度学习与近红外光谱太平猴魁产地甄别方法及系统，属于模式识别及无损检测领域，解决常规分析方法无法实现有效提取不同产地太平猴魁茶近红外光谱特征变量的问题，包括：采集不同产地太平猴魁茶样本，获取原始光谱数据矩阵，并对产地样本属性进行标记；对原始光谱数据矩阵进行SNV预处理；进行间隔采样；获得间隔采样数据矩阵；卷积池化特征降维；对所选特征数据进行全连接矩阵投影数据降维；产地分析建模；根据所得特征数据和对应产地样本属性，以SOFTMAX分类器建立太平猴魁茶产地甄别模型；并对待测试样本进行分析预测，降低特征变量维度，实现近红外光谱特征有效提取和太平猴魁茶产地高精度甄别分析。

Description

基于深度学习与近红外光谱太平猴魁产地甄别方法及系统

技术领域

本发明属于模式识别及无损检测领域，具体内容涉及基于深度学习与近红外光谱太平猴魁产地甄别方法及系统。

背景技术

太平猴魁茶，属于绿茶尖茶，主要产于安徽省黄山市黄山区三合村猴坑、猴岗、严家三个自然村落的凤凰山、狮彤山、鸡公山、鸡公尖一带。因选用特有的柿大茶为主要茶树品种，以及采用独特的加工手艺，其成品深受广大消费者喜爱，被列为中国十大名茶之一。但是太平猴魁茶的品质与茶树生长土壤环境、品种和制作工艺等因素密切相关。茶叶特征成分的差异导致不同产地的太平猴魁茶市场价格相差悬殊，市场价格的差异导致“以次充好”与“掺假”等现象不断发生，该现象严重破坏了太平猴魁茶市场健康、稳定的发展。

传统甄别方法主要通过人工经验实现茶叶产地、等级甄别分析，但由于太平猴魁茶主要产地地理位置相近，其相邻产地茶叶成品之间内含成分种类基本相同；此外，经传统手工制备的茶叶成品外观差异较小，这导致基于人工经验的感官评审方法无法实现快速、高精度的产地甄别分析。

目前主要通过化学分析矿物元素含量方法实现产地甄别分析，现有技术中，叶子弘等提出的申请公布号为CN106560697A的中国发明专利申请《联合近红外光谱和微量元素的武夷岩茶产地鉴别方法》，结合近红外光谱与矿物元素含量，实现了武夷岩茶产地的甄别；罗婷等在文献《绿茶矿质元素特征分析及产地判别研究》中通过分析不同绿茶矿物元素含量，实现了茶叶品种的区分。

虽然结合矿物元素含量分析的甄别方法虽然能够区分一定区域茶叶甄别，但是矿物元素分析属于化学分析，其检测过程成本高、周期长、分析过程较为复杂、其生成物对环境具有破坏性。此外，我国目前没有统一的茶叶矿物元素含量检测标准，对于太平猴魁等特定产区的茗茶而言，相近生产区域的不同产地样本之间矿物元素分布基本相同，无法有效地通过分析矿物元素含量进行产地甄别分析。

近红外光谱作为光谱学的一个重要分支，具有检测过程无污染、成本低、检测周期短等特点，已在农业等相关产业品质检测领域中得到广泛应用，陈全胜等在文献《近红外光谱分析技术在茶叶甄别中的应用研究》中利用近红外光谱建立了龙井、碧螺春、毛峰和铁观音辨别模型；周健等在文献《基于近红外的PLS量化模型鉴定西湖龙井真伪的研究》中通过分析西湖龙井和掺假产品光谱，建立了PLS预测模型；Yong He等在文献《基于多光谱图像的不同品种绿茶的纹理识别》建立了基于近红外光谱的不同品牌绿茶BP判别模型；上述方法通过利用不同地区、品种茶叶的近红外光谱信息实现了较高精度的茶叶产地判别分析，但是对于太平猴魁茶等小范围、特定区域的优质名茶而言，相邻的地理位置导致主要不同产地近红外光谱信息分布基本相同，茶叶产地属性差异仅体现在少数光谱区间，常规数据分析方法无法实现有效特征提取。

随着机器学习的发展，各种新型特征提取方法不断被提出。作为深度学习典型网络结构“卷积神经网络”通过非线性变换，可自动学习数据的本质特征，有效增强了特征提取和模型拟合能力。

现有技术中，杜剑等在文献《基于卷积神经网络与光谱特征的夏威夷果品质鉴定研究》中通过白化操作将一维光谱数据(1×N)转换为二维自相关矩阵(N×N)特征提取，但基于二维矩阵的卷积神经网络计算量大，不适合近红外等高维光谱数据分析处理；李贤等在申请公布号为CN111144423A的中国发明专利申请《基于一维组卷积神经网络的高光谱遥感数据多尺度光谱特征提取方法》中所提的一维组卷积网络将二维高光谱数据矩阵进行列分组，应用核函数进行组间数据循环计算，最终通过将数据重新连接实现特征选择，该方法只能实现二维矩阵特征选择；刘忆森等在申请公布号为CN107478598A的中国发明专利申请《一种基于一维卷积神经网络的近红外光谱分析方法》中提出一种基于单层一维卷积神经网络的近红外光谱分析方法，通过建立不同卷积核大小的单层卷积网络进行特征提取，并采用级联方式进行层间信息融合，该方法未考虑一维光谱数据的高维特性，并且级联信息融合容易导致所得特征变量冗余，进而降低模型性能。

随着茶产品质量检测标准的不断完善，快速、有效的产品属性分析方法是限制目前茶叶产业稳定发展的关键因素。为实现太平猴魁茶高精度产地甄别分析，促进太平猴魁茶等小范围、特定区域的优质名茶产业的不断发展，有必要提供一种快速、高效的产地甄别分析方法，解决当前太平猴魁茶等由于茶产地的地理位置相邻而导致的主要不同产地近红外光谱信息分布基本相同，茶叶产地属性差异仅体现在少数光谱区间，常规分析方法无法实现有效特征提取的问题。

发明内容

本发明所要解决的技术问题在于当前太平猴魁茶由于茶产地的地理位置相邻而导致的主要不同产地近红外光谱信息分布基本相同，茶叶产地属性差异仅体现在少数光谱区间，常规分析方法无法实现有效特征提取的问题。

本发明是通过以下技术方案解决上述技术问题的。

基于深度学习与近红外光谱太平猴魁产地甄别方法，包括以下步骤：

步骤一，获取光谱数据，采集不同产地太平猴魁茶样本，获取原始光谱数据矩阵，并对产地样本属性进行标记；

步骤二，数据预处理，对原始光谱数据矩阵进行SNV预处理；

步骤三，进行间隔采样，获得间隔采样数据矩阵；

步骤四，特征提取，采用多层深度学习的一维卷积神经网络进行“卷积-池化”，提取太平猴魁茶近红外光谱特征；具体为：以步骤三中所述的间隔采样数据矩阵作为一维卷积神经网络的输入层，在获取特征数据前，数据经过L个卷积层C₁,…,C_i,…,C_L与L个池化层P₁,…,P_i,…,P_L，所述卷积层C_i包含

个维度为

的自编码卷积核，卷积层的输入数据经卷积运算后作为池化层的输入数据，池化层P_i包含一个维度为

的池化窗口，根据池化规则选取相应领域内的特征值；所述参数大小根据谱图维度大小进行选择，将输入层数据按照“卷积—池化—卷积—池化……”的顺序进行运算，直至最后一层池化运算结束，完成谱图特征的提取；

步骤五，卷积池化特征降维，对所选特征数据进行全连接矩阵投影数据降维；

步骤六，产地分析建模，根据所得特征数据和对应产地样本属性，以SOFTMAX分类器建立太平猴魁茶产地甄别模型；

步骤七，预测分析，对于待测试样本，以步骤六所建模型进行分析预测。

针对当前太平猴魁茶由于茶产地的地理位置相邻而导致的主要不同产地近红外光谱信息分布基本相同，茶叶产地属性差异仅体现在少数光谱区间，常规分析方法无法实现有效特征提取不同产地太平猴魁茶近红外光谱特征变量，提出基于“卷积-池化”特征选择方法，具有多层网络结构的一维卷积神经网络特征提取模型，同时采用矩阵投影方法对全连接层光谱特征进行数据降维，在降低特征变量维度的同时有效提高模型分析精度，实现近红外光谱特征有效提取和太平猴魁茶高精度产地甄别分析。相比于基于传统近红外光谱特征方法的太平猴魁茶产地甄别分析，本发明利用一维卷积神经网络进行全光谱特征选择，因此可通过“卷积-池化”操作实现有效太平猴魁茶产地属性特征光谱变量选择。

作为本发明技术方案的进一步改进，所述的步骤一中的原始光谱数据矩阵为：

式(1)中，

表示第i个样本的第j个原始光谱数据，n、m分别为样本数和波长数。

作为本发明技术方案的进一步改进，所述的步骤二中的原始光谱数据矩阵进行SNV预处的计算公式为：

式(2)中，x_i,j表示第i个样本的第j个预处理光谱数据，σ_j为样本标准差，μ_j为样本光谱数据均值，样本标准差σ_j以及样本光谱数据均值μ_j的计算公式如下：

作为本发明技术方案的进一步改进，所述的步骤三中的间隔采样数据矩阵表示如下：

其中，X′为间隔采样数据矩阵，x_i,1+kτ表示第i个样本的第1+kτ个间隔采样数据，τ表示采样间隔度，k表示最大采样数，

i表示计数因子，i＝1,2,…,n，n为正整数。

作为本发明技术方案的进一步改进，所述的步骤五中的，对所选特征数据进行全连接矩阵投影数据降维的公式为：

F′＝FB(6)

式(6)中，F′∈R^1×K表示降维后的光谱特征变量，F∈R^1×M表示经一维卷积神经“卷积-池化”后获得原始全连接特征向量，B∈R^M×K(K＜M)表示特征投影矩阵，其中向量的列数M,K,M′根据数据维度大小进行选择。

作为本发明技术方案的进一步改进，所述的步骤六中的SOFTMAX分类器建立太平猴魁茶产地甄别模型为：

式(7)中，

表示模型系数，通过梯度下降确定，F′_k、F′_j表示降维后的光谱特征变量的第k、j个元素，1≤k,j≤120，SOFTMAX函数的输出值表示产地属性的概率。

作为本发明技术方案的进一步改进，所述的步骤七中的分析预测的评价指标计算方式为：

式(8)中，P表示评价指标，N_C表示预测正确的样本数，N_P表示预测集样本数。

本发明还提供了一种应用于所述的基于深度学习与近红外光谱太平猴魁产地甄别方法的甄别系统，包括：

原始光谱数据矩阵获取模块，用于采集不同产地太平猴魁茶样本，获取原始光谱数据矩阵，并对产地样本属性进行标记；

原始光谱数据矩阵预处理模块，用于对原始光谱数据矩阵进行SNV预处理；

间隔采样模块，用于进行间隔采样，获得间隔采样数据矩阵；

特征提取模块，用于特征提取，采用多层深度学习一维卷积神经网络进行“卷积-池化”，提取太平猴魁近红外光谱特征；具体为：以步骤三中所述的间隔采样数据矩阵作为卷积神经网络的输入层，在获取特征数据前，数据经过L个卷积层C₁,…,C_i,…,C_L与L个池化层P₁,…,P_i,…,P_L，所述卷积层C_i包含

个维度为

卷积池化特征降维模块，用于对所选特征数据进行全连接矩阵投影数据降维；

产地分析建模模块，用于根据所得特征数据和对应样本属性，以SOFTMAX分类器建立太平猴魁茶产地甄别模型；

预测分析模块，用于对于待测试样本，以步骤六所建模型进行分析预测。

作为本发明技术方案的进一步改进，所述的原始光谱数据矩阵获取模块中的原始光谱数据矩阵为：

式(1)中，

表示第i个样本的第j个原始光谱数据，n、m分别为样本数和波长数；

所述的原始光谱数据矩阵预处理模块中的原始光谱数据矩阵进行SNV预处的计算公式为：

式(2)中，

表示第i个样本的第j个预处理光谱数据，σ_j为样本标准差，μ_j为样本光谱数据均值，样本标准差σ_j以及样本光谱数据均值μ_j的计算公式如下：

所述的间隔采样模块中的间隔采样数据矩阵表示如下：

i表示计数因子，i＝1,2,…,n，n为正整数。

作为本发明技术方案的进一步改进，所述的卷积池化特征降维模块中的对所选特征数据进行全连接矩阵投影数据降维的公式为：

F′＝FB(6)

式(6)中，F′∈R^1×K表示降维后的光谱特征变量，F∈R^1×M表示经一维卷积神经“卷积-池化”后获得原始全连接特征向量，B∈R^M×K(K＜M)表示特征投影矩阵，其中向量的列数M,K,M′根据数据维度大小进行选择；

所述的产地分析建模模块中的，SOFTMAX分类器建立太平猴魁茶产地甄别模型为：

式(7)中，

表示模型系数，通过梯度下降确定，F′_k、F′_j表示降维后的光谱特征变量的第k、j个元素，1≤k,j≤120，SOFTMAX函数的输出值表示产地属性的概率；

所述的预测分析模块中的，分析预测的评价指标计算方式为：

式(8)中，P表示评价指标，N_C表示预测正确样本数，N_P表示预测集样本数。

本发明的优点在于：

(1)针对当前太平猴魁茶由于茶产地的地理位置相邻而导致的主要不同产地近红外光谱信息分布基本相同，茶叶产地属性差异仅体现在少数光谱区间，常规分析方法无法实现有效特征提取不同产地太平猴魁茶近红外光谱特征变量，提出基于“卷积-池化”特征选择方法，具有多层网络结构的一维卷积神经网络特征提取模型，同时采用矩阵投影方法对全连接层光谱特征进行数据降维，在降低特征变量维度的同时有效提高模型分析精度，实现近红外光谱特征有效提取和太平猴魁茶高精度产地甄别分析。相比于基于传统近红外光谱特征方法的太平猴魁茶产地甄别分析，本发明利用一维卷积神经网络进行全光谱特征选择，因此可通过“卷积-池化”操作实现有效太平猴魁茶产地属性特征光谱变量选择。

(2)采用全光谱数据信息作为输入变量，保证了样本光谱信息的完整性，能够有效提高系统的准确性；

(3)结合卷积神经网络对于大数据的处理能力，极大地提高了特征选择效率；

(4)以全光谱数据作为系统输入虽然增加了数据维度，但是一维卷积神经网络的参数共享和稀疏交互有效降低了计算量和储存要求，有效提高了系统的分析速度；

(5)采用多层卷积神经网络作为分析模型，能够实现全光谱区间的非线性特征提取，有效解决了现有分析方法的特征信息丢失问题；

(6)SOFTMAX分类器能够实现特征数据差异化分布，提高了太平猴魁茶产地甄别模型准确率。

(7)降维矩阵的引入能够降低特征变量维度，提高模型分析速度。

附图说明

图1为本发明实施例的基于深度学习与近红外光谱的太平猴魁茶产地甄别分析总体流程图；

图2为本发明实施例的基于深度学习与近红外光谱的太平猴魁茶产地甄别分析中样本原始光谱数据；

图3为本发明实施例的基于深度学习与近红外光谱的太平猴魁茶产地甄别分析预处理光谱数据；

图4为本发明实施例的基于深度学习与近红外光谱的太平猴魁茶产地甄别分析“卷积-池化”结构；

图5为本发明实施例的基于深度学习与近红外光谱的太平猴魁茶产地甄别分析获取光谱特征分布；

图6为本发明实施例的基于深度学习与近红外光谱的太平猴魁茶产地甄别分析对比结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合说明书附图以及具体的实施例对本发明的技术方案作进一步描述：

实施例1

如图1所示，基于深度学习与近红外光谱太平猴魁产地甄别方法，包括以下步骤：

步骤一：采集6个不同产地太平猴魁茶样本，每个产地各20个样本，一共120个样本，每个样本采集12446个变量元素，建立如图2所示的样本原始光谱数据矩阵X^org∈R¹²⁰ ^×12446，对产地属性y进行标记(#1，#2，#3，#4，#5，#6)；其中，X^org为样本原始光谱数据矩阵，R^120×12446为样本原始光谱数据矩阵的元素集合。

原始光谱数据矩阵可以表示为：

式(1)中，

步骤二：如图3所示，对原始光谱数据矩阵进行SNV(Standard normal variatetransformation，标准正态变量变换)预处理，计算公式为：

式(2)中，

步骤三：进行间隔采样，获得间隔采样数据矩阵表示如下：

i表示计数因子，i＝1,2,…,n，n为正整数。

步骤四，特征提取，为有效提取太平猴魁茶近红外光谱特征，采用多层深度学习一维卷积神经网络进行“卷积-池化”特征提取。

所述的步骤四中的多层深度学习一维卷积神经网络“卷积-池化”特征提取具体为：以步骤三中间隔采样数据矩阵作为卷积神经网络的输入层，在获取特征数据前，数据需经过L个卷积层(C₁,…,C_i,…,C_L)与池化层(P₁,…,P_i,…,P_L)，其中，所述卷积层C_i包含

个维度为

的池化窗口，根据池化规则选取相应领域内的特征值。所述参数大小根据谱图维度大小进行选择，将输入层数据按照“卷积—池化—卷积—池化……”的顺序进行运算，直至最后一层池化运算结束，完成谱图特征的提取。

本实施例中多层一维卷积神经网络的处理过程，包含数据输入层、卷积层、池化层、全连接层、特征降维层和输出层。其中输入层为分析对象的间隔采样光谱数据(1×2074)；复合的3层“卷积-池化”为采用参数共享和稀疏交互的特征提取层，层的数目表示深度学习卷积神经网络的深度，本发明将网络深度设置为3，每一卷积层均含有32个特征映射矩阵，每一个特征映射矩阵的维度为1×31，所有池化层窗口维度均为1×2；对于输入光谱数据(1×2074×1)，第一层卷积计算后的数据维度为1×2044×32，此处的32表示卷积层的特征映射矩阵数目，第一层池化计算后的数据维度为1×2022×32；以第一层池化所得数据为输入，经第二层卷积计算所得数据维度为1×992×32，第二层池化计算后得到的数据维度为1×496×32；以第二层池化所得数据作为输入，经第三层卷积计算所得数据维度为1×466×32，第三层池化计算后所得数据维度为1×233×32。

全连接层表示对第三层池化计算所得特征进行列排列，得到全连接特征变量(1×7456)，如果直接使用该数据进行建模分析计算过程复杂，采用矩阵投影对所得特征变量进行降维，即特征降维层(1×64)；至此，经过3层“卷积-池化”计算、全连接排列及特征降维，最终得到维度为1×64的特征变量。输出层是指以所得特征数据为输入，6个不同产地属性为输出进行SOFTMAX概率计算，建立基于特征变量的太平猴魁茶产地甄别模型。

步骤五：卷积池化特征降维，对所选特征数据进行全连接矩阵投影数据降维。卷积池化特征降维是指为避免因步骤四获取数据维度较高而产生数据冗余和增加模型复杂度现象，对所获取特征数据进行全连接排列并进行降维操作，表示如下：

F′＝FB (6)

步骤六：产地分析建模，根据所得特征数据F′和对应样本属性y，以SOFTMAX分类器建立太平猴魁茶产地甄别模型：

式(7)中，

步骤七：预测分析，对于待测试样本，以步骤六所建模型进行分析预测，评价指标计算方式为：

本实施例中N_p＝36，与PCA(Principal Component Analysis，主成分分析)分析进行对比，对比结果如图6所示，通过对比可知，本实施例所述方法能够有效提取太平猴魁茶近红外光谱特征，实现高精度产地甄别分析。

相比于基于传统近红外光谱特征方法的太平猴魁茶产地甄别分析，本发明利用深度学习多层一维卷积神经网络进行全光谱特征选择，可通过多层“卷积-池化”操作实现太平猴魁茶特征光谱变量选择，矩阵投影处理可有效降低特征变量维度，扩大所提方法的适用范围。

实施例2

应用于所述的基于深度学习与近红外光谱太平猴魁产地甄别方法的甄别系统，包括：

原始光谱数据矩阵获取模块：用于采集6个不同产地太平猴魁茶样本，每个产地各20个样本，一共120个样本，每个样本采集12446个变量元素，建立如图2所示的样本原始光谱数据矩阵X^org∈R^120×12446，对产地属性y进行标记(#1，#2，#3，#4，#5，#6)；其中，X^org为样本原始光谱数据矩阵，R^120×12446为样本原始光谱数据矩阵的元素集合。

原始光谱数据矩阵可以表示为：

式(1)中，

原始光谱数据矩阵预处理模块：用于对原始光谱数据矩阵进行SNV(Standardnormal variate transformation，标准正态变量变换)预处理，计算公式为：

式(2)中，

间隔采样模块：用于进行间隔采样，获得间隔采样数据矩阵表示如下：

i表示计数因子，i＝1,2,…,n，n为正整数。

特征提取模块：用于间隔采样模型获得的数据作为一维卷积神经网络的输入，进行光谱特征选择，将输入层数据按照“卷积-池化-卷积-池化-卷积-池化”的顺序进行计算(如图4所示)，直至最后一层池化计算结束，完成谱图特征的提取(如图5所示)。其中第一层卷积计算后的数据维度为1×2044×32，此处的32表示卷积层的特征映射矩阵数目，第一层池化计算后的数据维度为1×2022×32；以第一层池化所得数据为输入，经第二层卷积计算所得数据维度为1×992×32，第二层池化计算后得到的数据维度为1×496×32；以第二层池化所得数据作为输入，经第三层卷积计算所得数据维度为1×466×32，第三层池化计算后所得数据维度为1×233×32。

卷积池化特征降维模块：用于对所获得的特征进行列向量排列，并按下式进行特征降维：

F′＝FB (6)

产地分析建模模块：用于根据所得特征数据F′和对应样本属性y，以SOFTMAX分类器建立太平猴魁茶产地甄别模型：

式(7)中，

预测分析模块：用于对于待测试样本，以步骤六所建模型进行分析预测，评价指标计算方式为：

本实施例中N_p＝36，与PCA(Principal Component Analysis，主成分分析)分析进行对比，对比结果如图6所示，通过对比可知，本实施例所述方法能够有效提起太平猴魁茶近红外光谱特征，实现高精度产地甄别分析。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。