CN111563519B - 基于Stacking加权集成学习的茶叶杂质识别方法及分选设备 - Google Patents
基于Stacking加权集成学习的茶叶杂质识别方法及分选设备 Download PDFInfo
- Publication number
- CN111563519B CN111563519B CN202010338038.5A CN202010338038A CN111563519B CN 111563519 B CN111563519 B CN 111563519B CN 202010338038 A CN202010338038 A CN 202010338038A CN 111563519 B CN111563519 B CN 111563519B
- Authority
- CN
- China
- Prior art keywords
- tea
- features
- image
- stacking
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000012535 impurity Substances 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000010801 machine learning Methods 0.000 claims abstract description 15
- 238000002790 cross-validation Methods 0.000 claims abstract description 11
- 238000003066 decision tree Methods 0.000 claims abstract description 11
- 238000007477 logistic regression Methods 0.000 claims abstract description 10
- 238000012706 support-vector machine Methods 0.000 claims abstract description 10
- 244000269722 Thea sinensis Species 0.000 claims description 173
- 235000013616 tea Nutrition 0.000 claims description 159
- 235000020334 white tea Nutrition 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 17
- 235000006468 Thea sinensis Nutrition 0.000 claims description 16
- 235000020279 black tea Nutrition 0.000 claims description 16
- 230000005540 biological transmission Effects 0.000 claims description 13
- 230000002950 deficient Effects 0.000 claims description 12
- 239000007921 spray Substances 0.000 claims description 12
- 238000007790 scraping Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 8
- 239000011521 glass Substances 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 241000196324 Embryophyta Species 0.000 claims description 6
- 238000000540 analysis of variance Methods 0.000 claims description 6
- 230000001680 brushing effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 4
- 238000003708 edge detection Methods 0.000 claims description 4
- 238000003709 image segmentation Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims 1
- 241001122767 Theaceae Species 0.000 abstract 3
- 230000006872 improvement Effects 0.000 description 8
- 230000003068 static effect Effects 0.000 description 8
- 239000000463 material Substances 0.000 description 5
- 238000001179 sorption measurement Methods 0.000 description 4
- 239000000428 dust Substances 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000005357 flat glass Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24317—Piecewise classification, i.e. whereby each classification requires several discriminant rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Stacking加权集成学习的茶叶杂质识别方法及分选设备,通过将采集到的茶叶原始图像样本进行分类后,首先提取分类后的茶叶图像的颜色特征、纹理特征和形状特征,然后基于Stacking加权集成学习模型,将支持向量机、决策树、逻辑回归三种机器学习算法作为基分类器进行训练学习,利用3折交叉验证将数据集划分为3份子数据集,作为3个基分类器的训练数据,然后利用K近邻算法作为元分类器对基分类器的预测结果进行加权集成学习,得到最终预测分类结果,相比现有技术,其提高了对茶叶中杂质的识别准确率与稳定性,进而有效的提高了茶叶杂质识别与剔除工序的整体性能,且智能化程度高。
Description
技术领域
本发明属于茶叶杂质识别分选技术领域,具体涉及基于Stacking加权集成学习的茶叶杂质识别方法及分选设备。
背景技术
茶叶加工过程中,茶叶杂质去除工序是一个关键的工序,很大程度上决定了茶叶品质。茶叶加工生产线的茶叶除杂工序不能够对杂质进行高精度识别则无法精准剔除杂质。目前茶叶杂质去除工序主要依靠人工,人眼识别杂质并手动剔除,效率低下,成本大,而且品质参差不一;在茶叶除杂设备如色选机得到应用之后,一定程度上提高茶叶品质并降低了人工成本。然而目前的除杂设备仍存在诸多不足,如针对颜色相近、形态微小的杂质识别效率不高、依然需要人工。且在实际茶叶杂质识别过程中,数据样本往往较大,而且茶叶种类、茶叶杂质类别较多。而传统的机器学习算法往往只适用于小样本的数据训练,随着数据量增大,模型性能急剧下降,而且模型泛化能力较弱,导致训练的模型对测试数据准确率低。
因此,如何解决现有除杂设备对茶叶杂质识别效果不佳、过于依靠人工的缺陷成了本领域技术人员亟需解决的问题。
发明内容
本发明的目的在于避免现有技术中的不足而提供基于Stacking加权集成学习的茶叶杂质识别方法及分选设备,其提高了茶叶中杂质识别的准确率与稳定性,进而有效的提高了茶叶杂质识别与剔除工序的整体性能。
本发明的目的之一通过以下技术方案实现:提供基于Stacking加权集成学习的茶叶杂质识别方法包括如下步骤:
S100、采集待分选茶叶的原始图像样本并进行分类,将原始茶叶图像样本按照种类及品质分为五类:一级黑毛茶、二级黑毛茶、一级白毛茶、二级白毛茶、三级白毛茶,得到分类好的茶叶图像样本,其中,一级代表无杂质茶叶,二级代表含有叶梗的茶叶,三级代表含有杂草的茶叶;
S200、对上一步的茶叶图像样本提取茶叶图像的颜色特征、纹理特征和形状特征,并对其进行拼接得到最终的茶叶图像特征向量;
S300、将茶叶图像特征向量输入Stacking加权集成学习模型进行茶叶杂质识别,所述Stacking加权集成学习模型的茶叶杂质识别模型包括两层机器学习框架结构,第一层利用支持向量机、决策树、逻辑回归3个机器学习算法作为基分类器,利用3折交叉验证将数据集划分为3份子数据集,作为3个基分类器的训练数据;根据基分类器的预测结果准确率对基分类器进行加权,第二层利用K近邻算法作为元分类器对基分类器的预测结果进行加权集成学习,得到最终预测分类结果。
作为进一步的改进,所述步骤S100和步骤S200之间还包括步骤S200’,所述步骤S200’为茶叶图像预处理:对步骤S100中分类好的茶叶图像进行灰度化,利用中值滤波器分别对彩色图和灰度图分别进行中值滤波降噪处理,接着利用Otsu方法计算图像分割阈值并结合实际效果调整阈值对图像进行背景分割,再利用Sobel算子对灰度图像进行边缘检测。
作为进一步的改进,所述步骤S200具体表现为:对步骤S200’中处理好的茶叶图像,利用颜色直方图提取彩色图像的RGB、HSV颜色特征,并分别进行归一化,得到颜色特征,接着,利用边缘方向直方图提取灰度图像的纹理进行归一化处理,得到纹理特征,再利用Hu矩的七个不变矩提取图像的形状特征,并对这些特征分别归一化并拼接,得到最终的茶叶图像特征向量。
作为进一步的改进,所述步骤S200和步骤S300之间还包括步骤S300’,所述步骤S300’为特征选择降维:对步骤S200茶叶图像特征向量中提取到的特征,利用方差分析法对特征进行初步选择,再利用互信息对方差分析法选择后的特征进行进一步选择,得到最终的特征。
作为进一步的改进,所述步骤S300中3折交叉验证的具体过程为:
将初始数据集D划分成3个大小相似的子数据集D1、D2和D3,将D-Di作为第i个学习算法的训练数据,得到基分类器Mi,并用基分类器Mi的对数据Di进行预测,得到Di的预测结果Pi,其中i=1,2,3。
作为进一步的改进,所述步骤S300中根据基分类器的预测结果准确率对基分类器进行加权,第二层利用K近邻算法作为元分类器对基分类器的预测结果进行加权集成学习,得到最终预测分类结果的具体过程为:
1)得到各基分类器Mi的结果Si,通过下述公式计算各基分类器Mi的准确率Pi:
式中,ni为第i个基分类器Mi分类正确的样本数,ntotal为样本总数;
2)得到步骤1)中各基分类器Mi的准确率Pi之后,利用如下公式计算各分类器Mi的权重Wi:
式中,P为所有基分类器准确率之和,其中m取值为3;
3)得到各基分类器Mi的权重Wi之后,对各基分类器Mi进行加权:
Si’=Si*Wi (4)
式中,Si’为各基分类器Mi加权的结果;
4)对各基分类器Mi加权之后,利用K近邻算法对各基分类器Mi加权的结果Si’进行训练学习,得到最终的集成模型。
本发明的目的之二通过以下技术方案实现:提供基于Stacking加权集成学习的茶叶杂质分选设备,采用其上任一项所述的基于Stacking加权集成学习的茶叶杂质识别方法进行识别分选,所述茶叶杂质分选设备包括进料输送机、振动器、静电辊筒、图像获取装置、喷阀、合格品出口、次品出口、刮刷辊、传动轮系、驱动装置、杂物出口、控制系统和机架:
所述进料输送机位于振动器的上方,用于输送待分选茶叶;
所述振动器安装在机架的顶部,通过振动使待分选茶叶均匀轴向落在静电辊筒上;
所述静电辊筒安装于机架上,且设置于振动器的下方;
所述图像获取装置安装于机架一侧,用于采集待分选茶叶的原始图像样本;
所述控制系统分别与喷阀、图像获取装置和传动轮系电连接,所述喷阀通过高速喷嘴喷射出的压缩空气除去次品,且所述控制系统基于FPGA的嵌入式高性能计算平台实时获取图像获取装置采集的原始图像样本,所述嵌入式高性能计算平台内设有Stacking加权集成学习模型;
所述传动轮系分别与驱动装置和静电辊筒相连;
所述刮刷辊设置于机架另一侧,且与静电辊筒相切配合;
所述合格品出口与静电辊筒的出料口相连;
所述次品出口设置于静电辊筒的下方,且与图像获取装置同位于机架的一侧;
所述杂物出口设置于静电辊筒的下方,且与刮刷辊同位于机架的另一侧。
作为进一步的改进,所述嵌入式高性能计算平台包括视频信号AD采集模块、FPGA、SDRAM和USB接口,所述FPGA分别与SDRAM和USB接口连接,实现数据的双向传递,所述视频信号AD采集模块的输入端与图像获取装置相连,其输出端与FPGA相连。
作为进一步的改进,图像获取装置包括光源、背景板和CCD线阵摄像机,所述光源用于为待分选茶叶和背景板提供稳定的均匀照明,所述背景板用于为控制系统提供基准信号,所述CCD线阵摄像机将待分选茶叶的反射光转化为电信号。
作为进一步的改进,所述CCD线阵摄像机上安装有清扫系统,所述清扫系统包括气缸及与其相连的玻璃刷器,所述气缸还与控制系统连接。
本发明提供的基于Stacking加权集成学习的茶叶杂质识别方法及分选设备,通过将采集到的茶叶原始图像样本进行分类后,首先提取分类后的茶叶图像的颜色特征和纹理特征,然后基于Stacking加权集成学习模型,将支持向量机(SVM)、决策树(DT)、逻辑回归(Logistics)三种机器学习算法作为基分类器进行训练学习,利用3折交叉验证将数据集划分为3份子数据集,作为3个基分类器的训练数据,然后利用K近邻算法作为元分类器对基分类器的预测结果进行加权集成学习,得到最终预测分类结果,相比现有技术,其提高了对茶叶中杂质的识别准确率与稳定性,进而有效的提高了茶叶杂质识别与剔除工序的整体性能,且智能化程度高。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是基于Stacking加权集成学习的茶叶杂质识别方法一实施例的流程图。
图2是基于Stacking加权集成学习的茶叶杂质识别方法另一实施例的流程图。
图3是基于Stacking加权集成学习模型的流程图。
图4是基于Stacking加权集成学习的茶叶杂质分选设备的主视图。
图5是基于Stacking加权集成学习的茶叶杂质分选设备的左视图。
图6是基于Stacking加权集成学习的茶叶杂质分选设备的俯视图。
图7是嵌入式高性能计算平台的结构框图。
图8是基于Stacking加权集成学习的茶叶杂质分选设备的控制系统的茶叶杂质分类流程图。
附图标记说明
进料输送机-1、振动器-2、静电辊筒-3、CCD摄像头-4、喷阀-5、合格品出口-6、次品出口-7、刮刷辊-8、传动轮系-9、杂物出口-10、控制系统-11
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步详细的描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
实施例1:
参见图1,一种基于Stacking加权集成学习的茶叶杂质识别方法包括如下步骤:
S100、采集待分选茶叶的原始图像样本并进行分类,将原始茶叶图像样本按照种类及品质分为五类:一级黑毛茶、二级黑毛茶、一级白毛茶、二级白毛茶、三级白毛茶,得到分类好的茶叶图像样本,其中,一级代表无杂质茶叶,二级代表含有叶梗的茶叶,三级代表含有杂草的茶叶,优选地,该步骤具体分为:
按照茶叶种类将采集待分选茶叶的原始图像样本分为两类:黑毛茶和白毛茶;
按照茶叶品质将茶叶分为三类:一级茶叶代表无杂质茶叶,二级茶叶代表含有叶梗的茶叶,三级茶叶代表含有杂草的茶叶;
按照前两步的分类规则,将茶叶图像分为五类:一级黑毛茶、二级黑毛茶、一级白毛茶、二级白毛茶和三级白毛茶;
将分类好的茶叶作类别标记:一级黑毛茶标记为类别1,二级黑毛茶标记为类别2,一级白毛茶标记为类别3,二级白毛茶标记为类别4,三级白毛茶标记为类别5,得到归类好的茶叶图像样本;
S200、对上一步的茶叶图像样本提取茶叶图像的颜色特征、纹理特征和形状特征,并对其进行拼接得到最终的茶叶图像特征向量,优选地,该步骤具体表现为:对于处理好的茶叶图像,利用颜色直方图提取彩色图像的RGB(RGB是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,代表红、绿、蓝三个通道的颜色)、HSV颜色特征(HSV,Hue,Saturation,Value,其中,H表示色调,S表示饱和度,V表示明度),并分别进行归一化,得到颜色特征,接着,利用边缘方向直方图提取灰度图像的纹理进行归一化处理,得到纹理特征,再利用Hu矩(图像的hu矩是一种具有平移、旋转和尺度不变性的图像特征)的七个不变矩提取图像的形状特征,并对这些特征分别归一化并拼接,得到最终的茶叶图像特征向量;
S300、将茶叶图像特征向量输入Stacking加权集成学习模型进行茶叶杂质识别,参见图3,Stacking加权集成学习模型的茶叶杂质识别模型包括两层机器学习框架结构,第一层利用支持向量机、决策树、逻辑回归3个机器学习算法作为基分类器,利用3折交叉验证将数据集划分为3份子数据集,作为3个基分类器的训练数据;根据基分类器的预测结果准确率对基分类器进行加权,第二层利用K近邻算法作为元分类器对基分类器的预测结果进行加权集成学习,得到最终预测分类结果。图需要说明的是,本步骤中3折交叉验证的具体过程为:将初始数据集D划分成3个大小相似的子数据集D1、D2和D3,将D-Di作为第i个学习算法的训练数据,得到基分类器Mi,并用基分类器Mi的对数据Di进行预测,得到Di的预测结果Pi,其中i=1,2,3。
同时,值得提及的是,步骤S300中根据基分类器的预测结果准确率对基分类器进行加权,第二层利用K近邻算法作为元分类器对基分类器的预测结果进行加权集成学习,得到最终预测分类结果的具体过程为:
1)得到各基分类器Mi的结果Si,通过下述公式计算各基分类器Mi的准确率Pi:
式中,ni为第i个基分类器Mi分类正确的样本数,ntotal为样本总数;
2)得到步骤1)中各基分类器Mi的准确率Pi之后,利用如下公式计算各分类器Mi的权重Wi:
式中,P为所有基分类器准确率之和,其中m取值为3;
3)得到各基分类器Mi的权重Wi之后,对各基分类器Mi进行加权:
Si’=Si*Wi (4)
式中,Si’为各基分类器Mi加权的结果;
4)对各基分类器Mi加权之后,利用K近邻算法对各基分类器Mi加权的结果Si’进行训练学习,得到最终的集成模型。
实施例2:
如图2所示,本实施例提供了一种基于Stacking加权集成学习的茶叶杂质识别方法,包括如下步骤:
S100、采集待分选茶叶的原始图像样本并进行分类,将原始茶叶图像样本按照种类及品质分为五类:一级黑毛茶、二级黑毛茶、一级白毛茶、二级白毛茶、三级白毛茶,得到分类好的茶叶图像样本,其中,一级代表无杂质茶叶,二级代表含有叶梗的茶叶,三级代表含有杂草的茶叶,需要说明的是,该实施例中步骤S100的具体分解步骤与实施例1中相同;
S200’、茶叶图像预处理:对步骤S100中分类好的茶叶图像进行灰度化,利用中值滤波器分别对彩色图和灰度图分别进行中值滤波降噪处理,接着利用Otsu方法(大津法,是一种确定图像二值化分割阈值的算法)计算图像分割阈值并结合实际效果调整阈值对图像进行背景分割,再利用Sobel算子(索贝尔算子,主要用于获得数字图像的一阶梯度,是把图像中每个像素的上下左右四领域的灰度值加权差,在边缘处达到极值从而检测边缘)对灰度图像进行边缘检测,优选地,该步骤中对茶叶图像预处理的具体步骤为:
①对步骤S100中得到的分类好的茶叶图像,进行灰度化操作,得到灰度图像;
②对彩色图像以及步骤①中得到的灰度图像,利用中值滤波算法进行滤波降噪处理,中值滤波流程为:
其中,为像素值为4的像素点及其邻域内8个像素点组成的邻域矩阵,计算邻域内8个像素点值的中值为6,将像素值为4的像素点值替换为6,得到矩阵/>将图像所有像素点都进行中值滤波,得到中值滤波后的图像;
③对步骤②中得到滤波降噪后的彩色及灰度图像,利用Otsu法计算图像分割阈值t,阈值两边分别为背景和前景,通过Otsu法寻找一个合适的阈值t来使得背景与前景的方差g最大,
g=ω0*(μ0-μ)2+ω1*(μ1-μ)2 (6)
μ=ω0*μ0+ω1*μ1 (7)
其中,ω0,μ0分别代表前景像素占比和像素均值,ω1,μ1分别代表背景像素占比和均值,μ代表图像总体像素均值,故g的计算可以转化为,
g=ω0*ω1*(μ0-μ1)2 (8)
得到g最大情况下的阈值t,并根据阈值t来将图像背景与前景进行划分;
④对步骤③得到的图像中的灰度图,利用Sobel算子进行边缘检测,进一步抑制噪声点的影响,Sobel算子的计算公式为:
其中,Gx代表图像水平方向像素梯度,/>Gy代表图像垂直方向像素梯度,A为原始图像。
S200、对上一步的茶叶图像样本提取茶叶图像的颜色特征、纹理特征和形状特征,并对其进行拼接得到最终的茶叶图像特征向量,需要说明的是,该实施例中步骤S200的具体过程与实施例1中相同;
S300’、特征选择降维:对步骤S200茶叶图像特征向量中提取到的特征,利用方差分析法对特征进行初步选择,再利用互信息对方差分析法选择后的特征进行进一步选择,得到最终的特征,具体表现为:
(1)利用方差分析法首先计算特征的组内方差SSEk和组间方差SSAk,
式中,1≤k≤K,M为类别数目,K为总的特征维度,Ni为第i个类别里特征数目(Ni=K),xijk为第k个特征第i个类别下第j个特征值,为第k个特征第i个类别的特征均值,/>为第k个特征的特征均值;
得到所有特征的组内方差SSEk和组间方差SSAk之后,计算出特征与类别之间的关联强度并进行从大到小进行排序,
对有序的关联强度,计算特征关联度的累积贡献率ηk,
其中,为第l个特征的关联强度,k为累积数量;
通过设定一个阈值,当累积贡献率ηk大于或等于阈值时,停止累加贡献率,选择累积贡献率包含的特征,其他的特征舍弃,得到选择的特征;
(2)对步骤(1)中方差分析方法对特征选择后的特征,利用互信息来对特征进行进一步选择,计算特征之间的互信息I,和互信息均值
式中,T为整个特征向量,X和Y表示两个特征,p(x)和p(y)分别表示变量X和Y的分布概率,p(x,y)表示变量X和Y的联合分布概率;
当I(X;Y)大于均值时,将特征X和Y中关联强度R2更小的剔除,选择留下R2更大的特征;当X和Y中有一个或两个已经被剔除,则跳过当前剔除操作。将所有的I与/>比较,并进行选择与剔除操作之后,得到最终的特征。
S300、将茶叶图像特征向量输入Stacking加权集成学习模型进行茶叶杂质识别,所述Stacking加权集成学习模型的茶叶杂质识别模型包括两层机器学习框架结构,第一层利用支持向量机、决策树、逻辑回归3个机器学习算法作为基分类器,利用3折交叉验证将数据集划分为3份子数据集,作为3个基分类器的训练数据;根据基分类器的预测结果准确率对基分类器进行加权,第二层利用K近邻(k-NearestNeighbor,KNN)算法作为元分类器对基分类器的预测结果进行加权集成学习,得到最终预测分类结果。需要说明的是,此实施例中3折交叉验证的具体过程和利用K近邻算法作为元分类器对基分类器的预测结果进行加权集成学习的具体过程与实施例1中优选相同。
为验证上述识别方法的准确性,本发明提供了茶叶图像数据集实验分类结果和公开数据集RobotNavigation实验分类结果的对比表格,参见表1和表2:
表1茶叶图像数据集实验分类结果
分类算法 | 支持向量机 | 逻辑回归 | 决策树 | K近邻 | Stacking | 加权Stacking |
准确度(%) | 75.94 | 69.93 | 76.37 | 78.32 | 91.02 | 92.54 |
表2公开数据集RobotNavigation实验分类结果
分类算法 | 支持向量机 | 逻辑回归 | 决策树 | K近邻 | Stacking | 加权Stacking |
准确度(%) | 88.55 | 67.23 | 89.97 | 87.04 | 98.90 | 99.63 |
通过表1和表2的对比实验分类结果可知,本发明采用的算法(加权Stacking)及其对比模型支持向量机、逻辑回归、决策树、K近邻、Stacking的实验分类结果,Stacking的准确率要远高于单一机器学习算法的准确率,说明集成学习能够提高单一机器学习算法的性能,加权Stacking的准确率比Stacking的准确率要稍高一个百分点左右,说明加权操作能够进一步提高集成学习的性能。由此可知,本发明所采用的算法能够有效提高茶叶中杂质识别的准确率。
故此,上述两实施例中提供的基于Stacking加权集成学习的茶叶杂质识别方法,针对茶叶除杂工序中现有除杂设备对茶叶杂质识别率低的问题,通过构造两层机器学习框架结构,第一层利用支持向量机、决策树、逻辑回归等3个机器学习算法作为基分类器,利用3折交叉验证将数据集划分为3份子数据集,作为3个基分类器的训练数据;根据基分类器的预测结果准确率对基分类器进行加权,第二层利用K近邻算法作为元分类器对基分类器的结果进行加权集成学习,得到最终预测分类结果。该方法提高了对茶叶中杂质的识别准确率与稳定性,进而有效的提高了茶叶杂质识别与剔除工序的整体性能。
实施例3:
本发明提供的基于Stacking集成学习的茶叶杂质分选设备,采用其上所述的基于Stacking加权集成学习的茶叶杂质识别方法进行识别分选,参见图4-图6,该茶叶杂质分选设备包括进料输送机1、振动器2、静电辊筒3、图像获取装置、喷阀5、合格品出口6、次品出口7、刮刷辊8、传动轮系9、驱动装置、杂物出口10、控制系统11和机架:进料输送机1位于振动器2的上方,振动器2安装在机架的顶部,静电辊筒3安装于机架上,且设置于振动器2的下方;图像获取装置安装于机架一侧,控制系统11分别与喷阀5、图像获取装置和传动轮系9电连接,喷阀5通过高速喷嘴喷射出的压缩空气除去次品,且控制系统基于FPGA的嵌入式高性能计算平台实时获取图像获取装置采集的原始图像样本,嵌入式高性能计算平台内设有Stacking加权集成学习模型,传动轮系9分别与驱动装置和静电辊筒3相连,刮刷辊8设置于机架另一侧,且与静电辊筒3相切配合,合格品出口6与静电辊筒3的出料口相连,用于输出一级代表无杂质茶叶;次品出口7设置于静电辊筒3的下方,且与图像获取装置同位于机架的一侧,用于输出二级代表含有叶梗的茶叶和含有杂草的茶叶,杂物出口10设置于静电辊筒3的下方,且与刮刷辊8同位于机架的另一侧,用于输出茶叶中的被静电辊筒3吸附的杂质,如毛发、纤维。需要说明的是,静电辊筒3的工作原理为:通过其设置的辊筒与毛毡之间相互摩擦产生静电,以静电吸附的方式剔除杂质,物料沿着辊筒上方转动方向向前运动,该静电辊的径向直径优选为1000mm,其辊筒转速通过无极变频调速器控制,茶叶落入到辊筒上,使茶叶与辊筒表面充分的接触,保证了茶叶通过运动方式在辊筒上经过多次静电吸附可将茶叶中95%以上(毛发、纤维)的杂质剔除,极大地提高了除杂工序的效率,减少了人工用量,提高茶叶品质和经济效益;且对于不同品种的茶叶,可通过调整辊筒转速和进料多少来调整辊筒与茶叶之间的相对运动速度,从而实现不同的吸附效果。
在进一步的技术方案中,图像获取装置包括光源、背景板和CCD(Charge-coupledDevice,电荷耦合元件)线阵摄像机,光源用于为待分选茶叶和背景板提供稳定的均匀照明,背景板用于为控制系统11提供基准信号,其反光特性与合格品的反光特性基本等效,而与剔除物差异较大,CCD线阵摄像机将待分选茶叶的反射光转化为电信号。需要说明的是,CCD线阵摄像机每排采用2个CCD摄像头4进行双面识别。CCD摄像头4对次品实行瞬间的扫描,然后控制喷阀5动作,通过高速喷嘴喷射出的压缩空气除去次品,尤其是采用了两段式的二次选别,可以得到高纯度、高品质的成品。
同时,由于茶叶在色选过程中会产生灰尘及其他易附着于玻璃上的杂质,一旦附着过多灰尘及杂质,透过CCD摄像头4对茶物料进行分选检测的光电系统就会容易产生误检等连锁问题,对色选精度、色选带出比产生影响,也易造成喷气嘴频繁工作,故CCD摄像头4的视窗玻璃上优选安装有清扫系统,清扫系统包括气缸及玻璃刷器,玻璃雨刷器安装于气缸上,由控制系统11按预设时间通过控制气缸阀门开关推动气缸活塞滑动达到定时清扫玻璃上灰尘杂质效果。
同时,参见图7,前述嵌入式高性能计算平台包括视频信号AD采集模块、FPGA(FieldProgrammable Gate Array,现场可编程逻辑门阵列)、SDRAM(Synchronous DynamicRandom-access Memory,同步动态随机存取内存)和USB接口,FPGA分别与SDRAM和USB接口连接,实现数据的双向传递,优选地,该USB接口为USB2.0,视频信号AD采集模块的输入端与图像获取装置相连,其输出端与FPGA相连。需要说明的是,控制系统11即通过FPGA与驱动装置电连接,从而驱动传动轮系9带动静电辊筒3旋转,完成精确的茶叶分级。嵌入式高性能计算平台通过视频信号AD采集模块实时采集CCD线阵摄像机的图像,并利用强大的并行计算能力对图像进行处理和分析,进而利用Stacking加权集成学习模型高精度识别,可实现毫秒级的运算周期,具体参见图8。通过该过程可去除小至0.14mm的微小杂质,亦可以选别各种杂质包括透明玻璃、塑料等。
通过上述设置,待分选茶叶由进料输送机1进入振动器2,通过振动使物料自动排列成一列连续的瀑布状细束,使茶叶均匀轴向落在静电辊筒3上,静电辊筒3的辊筒与毛毡之间相互摩擦产生静电,以静电吸附的方式剔除杂质,物料沿着辊筒上方转动方向向前运动,茶叶落入到辊筒上,使茶叶与辊筒表面充分的接触,辊筒吸附的杂质通过刮辊刷处理后经杂物出口10收集,茶叶从静电辊筒3沿旋转方向进入分选室内,在光源的作用下,根据光的强弱及颜色变化,由控制系统11产生输出信号驱动喷阀5工作吹出异色颗粒至次品出口7,而好的被选物料继续下落至合格出口,从而达到选别的目的,控制系统11基于ALTERACYCLONE IV的嵌入式高性能计算平台实时采集CCD线阵摄像机的图像,并利用强大的并行计算能力对图像进行处理和分析,以及Stacking加权集成学习模型高精度识别,可实现毫秒级的运算周期,从而驱动传动轮系9带动静电辊筒3旋转,完成精确的茶叶分级。
上面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,不能理解为对本发明保护范围的限制。
总之,本发明虽然列举了上述优选实施方式,但是应该说明,虽然本领域的技术人员可以进行各种变化和改型,除非这样的变化和改型偏离了本发明的范围,否则都应该包括在本发明的保护范围内。
Claims (4)
1.基于Stacking加权集成学习的茶叶杂质识别方法,其特征在于,包括如下步骤:
S100、采集待分选茶叶的原始图像样本并进行分类,将原始茶叶图像样本按照种类及品质分为五类:一级黑毛茶、二级黑毛茶、一级白毛茶、二级白毛茶、三级白毛茶,得到分类好的茶叶图像样本,其中,一级代表无杂质茶叶,二级代表含有叶梗的茶叶,三级代表含有杂草的茶叶;
S200、对上一步的茶叶图像样本提取茶叶图像的颜色特征、纹理特征和形状特征,并对其进行拼接得到最终的茶叶图像特征向量;
S300、将茶叶图像特征向量输入Stacking加权集成学习模型进行茶叶杂质识别,所述Stacking加权集成学习模型的茶叶杂质识别模型包括两层机器学习框架结构,第一层利用支持向量机、决策树、逻辑回归3个机器学习算法作为基分类器,利用3折交叉验证将数据集划分为3份子数据集,作为3个基分类器的训练数据;根据基分类器的预测结果准确率对基分类器进行加权,第二层利用K近邻算法作为元分类器对基分类器的预测结果进行加权集成学习,得到最终预测分类结果;
所述步骤S200具体表现为:对上一步的茶叶图像样本,利用颜色直方图提取彩色图像的RGB颜色特征,并分别进行归一化,得到颜色特征;接着,利用边缘方向直方图提取灰度图像的纹理进行归一化处理,得到纹理特征;再利用Hu矩的七个不变矩提取图像的形状特征,并对这些特征分别归一化并拼接,得到最终的茶叶图像特征向量;
所述步骤S200和步骤S300之间还包括步骤S300’,所述步骤S300’为特征选择降维:对步骤S200茶叶图像特征向量中提取到的特征,利用方差分析法对特征进行初步选择,再利用互信息对方差分析法选择后的特征进行进一步选择,得到最终的特征;
所述步骤S300’具体表现为:
(1)利用方差分析法首先计算特征的组内方差SSEk和组间方差SSAk,
式中,1≤k≤K,M为类别数目,K为总的特征维度,Ni为第i个类别里特征数目(Ni=K),xijk为第k个特征第i个类别下第j个特征值,为第k个特征第i个类别的特征均值,/>为第k个特征的特征均值;
得到所有特征的组内方差SSEk和组间方差SSAk之后,计算出特征与类别之间的关联强度并进行从大到小进行排序,
对有序的关联强度,计算特征关联度的累积贡献率ηk,
其中,为第l个特征的关联强度,k为累积数量;
通过设定一个阈值,当累积贡献率ηk大于或等于阈值时,停止累加贡献率,选择累积贡献率包含的特征,其他的特征舍弃,得到选择的特征;
(2)对步骤(1)中方差分析方法对特征选择后的特征,利用互信息来对特征进行进一步选择,计算特征之间的互信息I,和互信息均值
式中,T为整个特征向量,X和Y表示两个特征,p(x)和p(y)分别表示变量X和Y的分布概率,p(x,y)表示变量X和Y的联合分布概率;
当I(X;Y)大于均值时,将特征X和Y中关联强度R2更小的剔除,选择留下R2更大的特征;当X和Y中有一个或两个已经被剔除,则跳过当前剔除操作;将所有的I与/>比较,并进行选择与剔除操作之后,得到最终的特征;
基于Stacking加权集成学习的茶叶杂质分选设备,采用所述基于Stacking加权集成学习的茶叶杂质识别方法进行识别分选,所述茶叶杂质分选设备包括进料输送机、振动器、静电辊筒、图像获取装置、喷阀、合格品出口、次品出口、刮刷辊、传动轮系、驱动装置、杂物出口、控制系统和机架:
所述进料输送机位于振动器的上方,用于输送待分选茶叶;
所述振动器安装在机架的顶部,通过振动使待分选茶叶均匀轴向落在静电辊筒上;
所述静电辊筒安装于机架上,且设置于振动器的下方;
所述图像获取装置安装于机架一侧,用于采集待分选茶叶的原始图像样本;
所述控制系统分别与喷阀、图像获取装置和传动轮系电连接,所述喷阀通过高速喷嘴喷射出的压缩空气除去次品,且所述控制系统基于FPGA的嵌入式高性能计算平台实时获取图像获取装置采集的原始图像样本,所述嵌入式高性能计算平台内设有Stacking加权集成学习模型;
所述传动轮系分别与驱动装置和静电辊筒相连;
所述刮刷辊设置于机架另一侧,且与静电辊筒相切配合;
所述合格品出口与静电辊筒的出料口相连;
所述次品出口设置于静电辊筒的下方,且与图像获取装置同位于机架的一侧;
所述杂物出口设置于静电辊筒的下方,且与刮刷辊同位于机架的另一侧;
所述嵌入式高性能计算平台包括视频信号AD采集模块、FPGA、SDRAM和USB接口,所述FPGA分别与SDRAM和USB接口连接,实现数据的双向传递,所述视频信号AD采集模块的输入端与图像获取装置相连,其输出端与FPGA相连;
所述图像获取装置包括光源、背景板和CCD线阵摄像机,所述光源用于为待分选茶叶和背景板提供稳定的均匀照明,所述背景板用于为控制系统提供基准信号,所述CCD线阵摄像机将待分选茶叶的反射光转化为电信号;
所述CCD线阵摄像机上安装有清扫系统,所述清扫系统包括气缸及与其相连的玻璃刷器,所述气缸还与控制系统连接。
2.根据权利要求1所述的基于Stacking加权集成学习的茶叶杂质识别方法,其特征在于,所述步骤S100和步骤S200之间还包括步骤S200’,所述步骤S200’为茶叶图像预处理:对步骤S100中分类好的茶叶图像进行灰度化,利用中值滤波器分别对彩色图和灰度图分别进行中值滤波降噪处理,接着利用Otsu方法计算图像分割阈值并结合实际效果调整阈值对图像进行背景分割,再利用Sobel算子对灰度图像进行边缘检测。
3.根据权利要求1至2中任一项所述的基于Stacking加权集成学习的茶叶杂质识别方法,其特征在于,所述步骤S300中3折交叉验证的具体过程为:
将初始数据集D划分成3个大小相似的子数据集D1、D2和D3,将D-Di作为第i个学习算法的训练数据,得到基分类器Mi,并用基分类器Mi的对数据Di进行预测,得到Di的预测结果Pi,其中i=1,2,3。
4.根据权利要求3所述的基于Stacking加权集成学习的茶叶杂质识别方法,其特征在于,所述步骤S300中根据基分类器的预测结果准确率对基分类器进行加权,第二层利用K近邻算法作为元分类器对基分类器的预测结果进行加权集成学习,得到最终预测分类结果的具体过程为:
1)得到各基分类器Mi的结果Si,通过下述公式计算各基分类器Mi的准确率Pi:
式中,ni为第i个基分类器Mi分类正确的样本数,ntotal为样本总数;
2)得到步骤1)中各基分类器Mi的准确率Pi之后,利用如下公式计算各分类器Mi的权重Wi:
式中,P为所有基分类器准确率之和,其中m取值为3;
3)得到各基分类器Mi的权重Wi之后,对各基分类器Mi进行加权:
S’i=Si*Wi (4)
式中,S’i为各基分类器Mi加权的结果;
4)对各基分类器Mi加权之后,利用K近邻算法对各基分类器Mi加权的结果S’i进行训练学习,得到最终的集成模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010338038.5A CN111563519B (zh) | 2020-04-26 | 2020-04-26 | 基于Stacking加权集成学习的茶叶杂质识别方法及分选设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010338038.5A CN111563519B (zh) | 2020-04-26 | 2020-04-26 | 基于Stacking加权集成学习的茶叶杂质识别方法及分选设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563519A CN111563519A (zh) | 2020-08-21 |
CN111563519B true CN111563519B (zh) | 2024-05-10 |
Family
ID=72071595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010338038.5A Active CN111563519B (zh) | 2020-04-26 | 2020-04-26 | 基于Stacking加权集成学习的茶叶杂质识别方法及分选设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563519B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674219A (zh) * | 2021-07-28 | 2021-11-19 | 云南大益微生物技术有限公司 | 一种基于双重逻辑回归的茶叶杂质识别方法 |
CN114724027A (zh) * | 2022-03-25 | 2022-07-08 | 清华大学 | 基于机器视觉的固态酿造颗粒状原料掺杂鉴别方法 |
CN114550940A (zh) * | 2022-04-26 | 2022-05-27 | 广东工业大学 | 基于Stacking模型融合的无创血糖估计方法、系统及存储介质 |
WO2023232403A1 (en) * | 2022-05-30 | 2023-12-07 | British Telecommunications Public Limited Company | Automated equipment installation verification |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331000A (zh) * | 2014-08-15 | 2015-02-04 | 徐云鹏 | 一种基于fpga的数字随动控制系统 |
CN108319987A (zh) * | 2018-02-20 | 2018-07-24 | 东北电力大学 | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 |
CN109376257A (zh) * | 2018-10-24 | 2019-02-22 | 贵州省机电研究设计院 | 基于图像处理的茶叶识别方法 |
CN209121168U (zh) * | 2018-06-28 | 2019-07-19 | 厦门茶叶进出口有限公司 | 一种智能茶叶选别生产线 |
-
2020
- 2020-04-26 CN CN202010338038.5A patent/CN111563519B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331000A (zh) * | 2014-08-15 | 2015-02-04 | 徐云鹏 | 一种基于fpga的数字随动控制系统 |
CN108319987A (zh) * | 2018-02-20 | 2018-07-24 | 东北电力大学 | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 |
CN209121168U (zh) * | 2018-06-28 | 2019-07-19 | 厦门茶叶进出口有限公司 | 一种智能茶叶选别生产线 |
CN109376257A (zh) * | 2018-10-24 | 2019-02-22 | 贵州省机电研究设计院 | 基于图像处理的茶叶识别方法 |
Non-Patent Citations (2)
Title |
---|
邹琪 等.《基于集成学习的测井岩性识别模型的构建》.《智能计算机与应用》.2020,第10卷(第3期),第2-4节. * |
陈培俊.《基于图像处理和模式分类的茶叶杂质识别研究》.《硕士电子期刊工程科技Ⅰ辑》.2015,第1-2页,第7-17页,第34-39页,第40-51页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111563519A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563519B (zh) | 基于Stacking加权集成学习的茶叶杂质识别方法及分选设备 | |
CN113989279B (zh) | 基于人工智能及图像处理的塑料薄膜质量检测方法 | |
CN107486415A (zh) | 基于机器视觉的篾片缺陷在线检测系统及检测方法 | |
CN101059425A (zh) | 基于多光谱图像的纹理分析鉴别不同品种绿茶的方法和装置 | |
CN109447977B (zh) | 一种基于多光谱深度卷积神经网络的视觉缺陷检测方法 | |
CN109580656B (zh) | 基于动态权重组合分类器的手机导光板缺陷检测方法及系统 | |
CN207238542U (zh) | 一种基于机器视觉的篾片缺陷在线检测系统 | |
CN116205919A (zh) | 基于人工智能的五金零件生产质量检测方法及系统 | |
CN112808603B (zh) | 基于RealSense相机的鲜切花分选装置及方法 | |
CN103034838A (zh) | 一种基于图像特征的特种车辆仪表类型识别与标定方法 | |
CN104597052A (zh) | 基于多特征融合的马铃薯高速无损分级检测方法及系统 | |
CN112189877A (zh) | 用于烟草生产线烟丝杂质的在线检测方法 | |
CN112893159B (zh) | 一种基于图像识别的煤矸石分拣方法 | |
CN109886932A (zh) | 基于svm的轮速传感器齿圈表面缺陷检测方法 | |
CN111932639B (zh) | 一种基于卷积神经网络的不均衡缺陷样本的检测方法 | |
CN104952754B (zh) | 基于机器视觉的镀膜后硅片分选方法 | |
CN104048966B (zh) | 一种基于大律法的布面疵点检测及分类方法 | |
CN111940339A (zh) | 一种基于人工智能的红枣分拣系统 | |
CN114627116B (zh) | 一种基于人工智能的织物疵点识别方法及系统 | |
CN104899595A (zh) | 基于sift特征图像的蚕蛹雌雄分拣和计数装置 | |
CN110929787B (zh) | 一种基于图像的苹果客观定级系统 | |
CN111832569B (zh) | 基于高光谱分类与分割的壁画颜料层脱落病害标注方法 | |
CN201041547Y (zh) | 基于多光谱图像的纹理分析鉴别不同品种绿茶的装置 | |
CN111563536B (zh) | 一种基于机器学习的竹条颜色自适应分类方法 | |
CN113560214A (zh) | 一种用于珍珠的智能分拣系统及其使用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |