CN113743399A - 一种基于集成技术的烤烟烟叶等级识别方法 - Google Patents
一种基于集成技术的烤烟烟叶等级识别方法 Download PDFInfo
- Publication number
- CN113743399A CN113743399A CN202110809022.2A CN202110809022A CN113743399A CN 113743399 A CN113743399 A CN 113743399A CN 202110809022 A CN202110809022 A CN 202110809022A CN 113743399 A CN113743399 A CN 113743399A
- Authority
- CN
- China
- Prior art keywords
- features
- flue
- image
- cured tobacco
- tobacco leaf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000208125 Nicotiana Species 0.000 title claims abstract description 60
- 235000002637 Nicotiana tabacum Nutrition 0.000 title claims abstract description 60
- 230000010354 integration Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000005516 engineering process Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000003709 image segmentation Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000001788 irregular Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 7
- 238000013145 classification model Methods 0.000 abstract description 6
- 238000012216 screening Methods 0.000 abstract 1
- 238000012706 support-vector machine Methods 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 208000003464 asthenopia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Manufacture Of Tobacco Products (AREA)
Abstract
本发明公开了一种基于集成技术的烤烟烟叶智能化分级方法,包括:对获取的烤烟烟叶图像进行预处理,筛选得到合格的训练数据与测试数据;进行图像分割,利用灰度化与阈值化技术,找到最大的连通区域,得到目标区域图像与相应的二值化掩模图像;对目标区域图像进行处理,提取烤烟烟叶图像的传统表观特征、VGG16深度网络输出特征以及细粒度特征,将这些特征输入到基于Boosting框架的多支持向量机模型中进行训练,学习各分类模型的权重和参数;对集成结果进行投票,得到最终的等级识别结果。本发明能够利用专家知识提取的特征以及深度神经网络提取的深度特征,最后利用有效的集成技术使得烤烟烟叶分级结果具有较高的准确率以及鲁棒性。
Description
技术领域
本发明涉及图像处理技术领域,涉及图像分割、特征提取、深度学习、集成技术,具体涉及一种基于集成技术的烤烟烟叶等级识别技术。
背景技术
烟草作为一种重要的经济作物,在国民经济建设中占有非常重要的地位。为了加工生产不同层次的香烟,需要对原始的烤烟烟叶进行分级收购。对烤烟烟叶定级的标准包括:成熟度、叶片结构、身份、油分、颜色、长度、残伤度。人工分级只能靠视觉、触觉、味觉等多种感官的综合判断。在大规模的烟叶分级现场,工人往往会产生视觉疲劳,并且会有情绪波动,因此传统分级方法具有很强的主观性。正常的工人往往需要两年的实际分级训练,才能达到合格的分级准确率。所以烟叶分级具有重要的实际价值,并且具有很大的挑战性。
烤烟烟叶分级的常规视觉方法,即用传统的视觉处理技术,包括特征提取,分类器的训练,已经可以达到某种程度上的“智能”。由于特征需要自己设计,我们只能利用部分已知的专家知识,比如烟叶的长度,颜色等等。这是人工提取特征的优点。并且随着季节时间的变化,这些特征会出现一些变化,比如烟叶脱水颜色加深,发生卷曲长度变短等等。这是人工提取特征的缺点。因此,现有视觉处理技术中对烟叶分级的效果并不理想,分级准确度不高。
发明内容
本发明提供一种基于集成技术的烤烟烟叶等级识别方法,用三种不同的特征提取方法提取烤烟烟叶特征,然后分别利用这些特征以及相应的标签训练出不同的分类器,最后使用集成技术对这三个不同的分类器进行集成,使整体效果达到最优,能够获得较好的烤烟烟叶分级效果。
为了达到上述目的,本发明提供如下技术方案:
一种基于集成技术的烤烟烟叶等级识别方法,包括如下步骤:
步骤1:图像获取,利用可见光相机获得烤烟烟叶正面反射图,并将采集的数据分为训练集与测试集,利用分级专家将这些图片进行标注;
步骤2:图像预处理,剔除不规范的数据,利用灰度化与阈值化技术,找到最大的连通区域,得到目标区域与相应的二值化掩模;
步骤3:特征提取,提取烤烟烟叶图像的传统表观特征、VGG16深度网络输出特征以及细粒度特征;
步骤4:建立包含SVM的Boosting集成框架,学习各SVM的参数和权重。
进一步的,所述步骤2中,剔除不规范的数据采用如下步骤进行:
判断烟叶图像是否过横轴,并结合最大连通区域的个数,接着进行图像分割,首先对图像进行高斯光滑处理;然后通过灰度化,阈值化,找到面积最大的连通区域,将此区域视为关心的区域,最后在此区域内进行烤烟烟叶的特征提取。
进一步的,所述步骤3中,提取的特征包括3种,分别是:
1)表观特征,包括几何形状特征,颜色特征以及纹理特征;
几何形状特征包含7个,分别是周长、面积、破损率、圆形度、长轴长、短轴长、长宽比;
颜色特征包含267个,包括256维的HSV直方图颜色特征,11的维HSV三分量的均值及标准差,B、G颜色分量的均值以及B、G、R的标准差;
纹理特征有5个,包括熵,能量,对比度,一致性,自相关性;
2)卷积神经网络提取的特征
选用分类网络VGG16来提取图像特征,只保留VGG16最后一个池化层的输出结果作为最终的特征;
3)细粒度神经网络提取的特征
选择VGG16最后一层池化层之前的网络层作为将要处理的特征图,首先对这些特征图进行预处理,包括平方根正则化和二范数归一化;然后将归一化后的特征图两两内积,并采用核函数技巧,建立不同特征通道之间的非线性关系。
进一步的,几何形状特征通过以下方式获得:
根据roiMsk和fullMsk,通过fullMsk来遍历roiMsk,统计roiMsk的ROI区域内像素值为零的孔洞数目hole_area,以及非零像素个数contoure_area。这样就得到叶片总的外观面积:
area=hole_area+contoure_area
破损率的计算公式如下:
breakage=hole_area/leaf_area
周长的计算只需统计最大连通区域的轮廓的像素个数maxContoureNum:
perimeter=maxContoureNum
定义圆形度:
circularity=4π×area/perimeter2;
通过ROI区域的最小内接椭圆来求得长轴、短轴的长度,最小内接椭圆即用最大连通区域的轮廓点来拟合椭圆,得到椭圆的长轴长a与短轴长b,求得烟叶的长轴长,短轴长,以及二者之比:
axis_long=a
axis_short=b
l_over_s=a/b
进一步的,颜色特征通过以下方式获得:
首先将ROI图像的色彩空间由RGB转化为HSV,HSV各个分量的范围都是0~255;在ROI区域中逐像素进行颜色分量统计求和以及HSV颜色直方图的计算,公式如下:
h=hData[i]>>4
s=sData[i]>>6
v=vData[i]>>6
hsvHist[h][s][v]=hsvHist[h][s][v]+1
其中hData[i]、sData[i]以及vData[i]分别表示第i个像素的H、S、V颜色分量值;将它们分别右移4、6、6位,即将HSV量化到0~15,0~4,0~4的取值区间;逐像素统计结束后,对HSV颜色直方图进行归一化:
hsvHist[m][n][k]/=area,m∈[0,15],n,k∈[0,3]
对HSV三通道的颜色分量之和以及RGB两通道G、B颜色分量之和归一化,得到
rMean=vMean
其中area为烟叶面积,pixelNum为遍历的像素个数;得到256维的HSV颜色直方图特征,以及5维的颜色分量均值特征;再一次遍历ROI区域,得到每一个颜色分量的标准差:
得到6维的颜色分量标准差特征,加上256维直方图特征以及5维颜色分量均值特征,最后得到267维的颜色特征。
进一步的,纹理特征通过以下方式获得:
对于ROI图像,将其进行灰度化,然后计算水平,垂直,以及两个对角线方向的灰度特征矩阵,并求出每个方向的5个灰度特征;最后分别对这5维特征求平均值,得到最终的纹理特征,包括如下子步骤:
ii)灰度等级化;
ii)初始化共生矩阵;
iii)计算四个方向的灰度共生矩阵GLCM,分别是0°,45°,90°,135°方向。
iv)对灰度共生矩阵归一化,即
前四步可以求出共生矩阵的熵、能量、对比度、逆差距
其中GLCM_CLASS为灰度化等级;
v)根据归一化后的灰度共生矩阵,求得相关性中两个方向的的均值与方程μy,μy,σy,σy,计算如下:
计算出上面四个量之后,算出自相关性:
进一步的,所述步骤4中,对3个不同的SVM分类器进行集成,得到包含SVM的Boosting集成框架,包括如下步骤:
(1)初始化样本权重
(2)计算分布函数以及累计概率
(3)随机选择样本进行训练,得到分类器,根据对原始训练集的分类结果计算分类器的权重。
(4)根据分类器的权重更新样本权重
(5)通过3种不同的分类器以及相应的权重以及相应的投票规则进行投票,得到集成之后的分级结果。
与现有技术相比,本发明具有如下优点和有益效果:
能够利用专家经验提取特征,以及深度学习提取的深度特征,并且利用了更精细的细粒度的特征,能够显著增强烤烟烟叶分级的鲁棒性,结合集成技术,进一步提高了分级的准确率。
附图说明
图1为烤烟烟叶等级图;
图2为图像预处理过程图;
图3为VGG16提取烤烟烟叶特征的网络框架;
图4为基于VGG16网络框架的细粒度特征提取示意图;
图5为多SVM集成框架示意图(训练);
图6为多SVM集成框架示意图(测试);
表1为本发明实际应用的结果对比图;
表2为本发明集成分类的混淆矩阵;
表3为本发明后续研究的在集成分类基础上进行改进的混淆矩阵。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明实施提供了一种基于集成技术的烤烟烟叶等级识别方法,共分五个步骤,具体如下:
步骤1:图像获取,利用JaiLT-400-CL3CMOSRGB线性扫描相机获得烤烟烟叶正面反射图,分辨率为8000*4096,保存格式为IPEG;将采集的数据分为训练集与测试集,比例为7:3。本次实验的数据中,有831张图片用作训练集,355张用作测试集。如图1所示,总共有五个等级,分别是B2F,B3F,C2F,C3F,C4F。实验过程中将这些等级的标签标为1~5。
步骤2:图像预处理,首先剔除不规范的数据。过程如图2所示,对烤烟烟叶进行灰度化,然后选取阈值为30进行二值化,得到二值图。记二值图的连通区域的个数为contours_size,如果二值图全白,则contours_size=1,如果二值图全黑,则contours_size=0,然后遍历二值图的横轴,即从第4000行开始统计灰度值为255的个数intersectNum,根据以下规则判断此图像是否合格。
通过判断烟叶图像是否过横轴,并结合最大连通区域的个数去除大部分不合格图像,能够剔除烟叶只在上半部以及下半部以及出现全黑全白的情况。本实验经过此步骤的数据筛除,最终得到的训练集有814张,测试集有351张。
然后进行图像分割,具体分为如下步骤:
1)对原图像orgImage进行高斯平滑,去除部分噪声。
2)对1)进行灰度化处理。
3)对2)进行阈值为30的阈值化处理,得到二值掩模图mskImage,黑色的像素值为0,白色的像素值为255。
4)遍历每一个连通区域,找到最大面积的连通区域。
5)根据最大连通区域,求得此区域的最小外接矩形。
6)根据5)的最小外接矩形对orgImage和mskImage进行裁剪,保留与最小外接矩形对应的位置,得到roiImage与roiMsk。此时的roiMsk为最大连通区域的轮廓包围的二值掩模图,它的图像中心还包括孔洞,即像素值为0的点。我们设计一种具有相同轮廓的掩模图fullMsk,和roiMsk唯一的区别在于,fullMsk的内部全是像素值为125的点。将fullMsk与orgImage进行逐像素的逻辑与运算,此时将fullMsk像素值为125的像素转换为1,最终可以得到目标区域(ROI)图像,将此图像占据的区域称为ROI区域。
步骤3:特征提取,提取烤烟烟叶图像的传统表观特征、VGG16深度网络输出特征以及细粒度特征。具体的特征提取方式如下:
1)表观特征的提取
包括7维的几何形状特征,267维的颜色特征以及5维的纹理特征。
a)几何形状特征包括周长、面积、破损率、圆形度、长轴长、短轴长、长宽比(长轴长/短轴长)。
步骤3中,根据roiMsk和fullMsk,通过fullMsk来遍历roiMsk,统计roiMsk的ROI区域内像素值为零的孔洞数目hole_area,以及非零像素个数contoure_area。这样就得到叶片总的外观面积(不包含破损部分)。
area=hole_area+contoure_area
破损率的计算公式如下:
breakage=hole_area/leaf_area
周长的计算只需统计最大连通区域的轮廓的像素个数maxContoureNum即可:
perimeter=maxContoureNum
中部烟叶相对于上部烟叶比较圆润厚实,而上部烟叶则显得较为细长,我们可以定义圆形度:
circularity=4π×area/perimeter2;
我们通过ROI区域的最小内接椭圆来求得长轴、短轴的长度。最小内接椭圆即用最大连通区域的轮廓点来拟合椭圆,得到椭圆的长轴长a与短轴长b,这样我们可以求得烟叶的长轴长,短轴长,以及二者之比:
axis_long=a
axis_short=b
l_over_s=a/b
b)颜色特征包含267个,包括256维的HSV直方图颜色特征,11的维HSV三分量的均值及标准差,B、G颜色分量的均值以及B、G、R的标准差(R的均值与V的均值相同,故略去)。
首先将ROI图像的色彩空间由RGB转化为HSV,HSV各个分量的范围都是0~255。因为HSV色彩空间对于计算机来说更能够辨别出烟草颜色的差异性。然后在ROI区域中逐像素进行颜色分量统计求和以及HSV颜色直方图的计算,公式如下:
h=hData[i]>>4
s=sData[i]>>6
v=vData[i]>>6
hsvHist[h][s][v]=hsvHist[h][s][v]+1
其中hData[i]、sData[i]以及vData[i]分别表示第i个像素的H、S、V颜色分量值。将它们分别右移4、6、6位,即将HSV量化到0~15,0~4,0~4的取值区间。逐像素统计结束后,对HSV颜色直方图进行归一化:
hsvHist[m][n][k]/=area,m∈[0,15],n,k∈[0,3]
对HSV三通道的颜色分量之和以及RGB两通道G、B颜色分量之和归一化,得到
rMean=vMean
其中area为1)中求得的烟叶面积,pixelNum为遍历的像素个数。这样我们就得到了256(16×4×4)维的HSV颜色直方图特征。以及5维的颜色分量均值特征。再一次遍历ROI区域,得到每一个颜色分量的标准差:
我们得到了6维的颜色分量标准差特征,加上256维直方图特征以及5维颜色分量均值特征,因此最后我们可以得到267维的颜色特征。
c)纹理特征包括包括熵,能量,对比度,逆差距,自相关性。熵表示图像的信息量,反映了图像中纹理的非均匀程度或复杂程度。能量是灰度共生矩阵元素值的平方和,反映了图像灰度分布均匀程度和纹理粗细度。对比度反映了图像的清晰度和纹理沟纹深浅的程度。逆差距反映图像纹理的同质性,度量图像纹理局部变化的多少。而自相关性用来度量空间灰度共生矩阵元素在行或列方向上的相似程度。
对于ROI图像,我们将其进行灰度化,然后计算水平,垂直,以及两个对角线方向的灰度特征矩阵,并求出每个方向的5个灰度特征。最后分别对这5维特征求平均值,得到最终的纹理特征。
主要步骤如下:
i)灰度等级化,本实验等级为8。
ii)初始化共生矩阵,并且灰度共生矩阵的统计距离为2。
iii)计算四个方向的灰度共生矩阵GLCM,分别是0°,45°,90°,135°方向。
iv)对灰度共生矩阵归一化,即
前四步可以求出共生矩阵的熵、能量、对比度、逆差距
其中GLCM_CLASS为灰度化等级,本实验取8。
v)根据归一化后的灰度共生矩阵,求得相关性中两个方向的的均值与方程μy,μy,σy,σy,计算如下:
计算出上面四个量之后,我们可以算出自相关性:
分母中增加的小数是为了防止计算无效。
2)卷积神经网络(VGG16)提取的特征
卷积神经网络具有很强的特征提取能力,因此我们选用如图3所示的分类网络VGG16来提取图像特征,我们只保留VGG16最后一个池化层的输出结果,该层有512个特征图,每个特征图的维度为7*7,将特征矩阵进行扁平化拉伸,可以得到25088维的特征。本文用darknet深度学习框架来提取卷积神经网络特征。首先将8000*4096分辨率的原始烤烟烟叶图像缩放到256*256作为darknet框架的输入,然后再缩放到224*224作为VGG16网络的输入。
3)细粒度神经网络提取的特征
不同于粗粒度的分类任务,我们的烤烟烟叶分级任务是更为复杂的细粒度分类。同一部位相邻级别的叶片在全局特征上的差别非常细微,只是在叶尖、叶耳、叶梗和脉相上有细微差别,比如C2F和C3F,这两个等级的烤烟烟叶的全局颜色和形状特征非常接近,在部分区域的色度和叶尖角度上有些差异,这些重要的分类信息会被一般的深度神经网络的主要操作(如池化)所忽略,需要特别的提取策略来挖掘这些隐藏的细微信息。细粒度识别是分类的子任务,它能够根据局部细节特征的差异来区分同类物体,受到广泛研究和应用。因此,本发明也考虑利用细粒度特征提取方法来提取前述的相邻级别的烟叶间的细微差别特征。双线性细粒度特征提取方法,它以深度网络特征为基础,并不需要额外构建细粒度深度网络,本发明还是以VGG16为基础网络。并且可以把细粒度特征看成是传统视觉特征和一般深度特征的一个补充。
如图4所示,我们选择vgg16最后一层池化层之前的网络层作为我们将要处理的特征图。该层同样具有512个特征图,特征图的维度为14*14。令我们得到的特征图分别为X1,X2…X512,其中X∈R14×14。对于每一张特征图X,我们首先将其向量化得到Z,Z∈R196×1,然后对Z的每一个元素zi,i=1,2…196进行平方根正则化,也即其中sign(zi)为Z的元素zi的符号。为向量Z的模长。最后对更新后的Z进行二范数归一化,即zi=zi/||Z||。通过对更新后的特征图之间两两内积,得到最终的细粒度烤烟烟叶特征Y。由于矩阵Y是对称矩阵,因此我们只取上三角矩阵的元素作为最终特征,维度数目为131328。
步骤4:建立包含SVM的Boosting集成框架,学习各SVM的参数和权重。多SVM集成框架示意图如图5、6所示。
a)特征预处理
对三种特征进行最大最小归一化。归一化公式如下:
本实验的归一化区间为[-1,1],即ymax=1,ymin=-1。xmax和xmin为某一维特征的最大值,最小值。x为某一维的特征向量的元素,y为归一化后的元素。分别对F1,F2,F3进行归一化处理。并保留每种特征的所有维度的最小值以及最大值,用以对测试集数据进行归一化。
b)集成模型训练
SVM是简单有效的分类模型,最优模型的寻找相当于寻找最优的分割超平面。已知特征向量和标签,利用LIBSVM工具库,我们可以训练出三个不同的SVM分类模型。考虑到时间复杂度,我们采用的核函数为线性核,而没有采用RBF核。采用的五折交叉验证寻找最佳的分类模型。线性核寻优函数只需要不断调整C的值,即可找到规定范围内的局部最优解。
模型集成在实际问题中应用广泛。集成的主要思想是将多个弱分类器通过某种集成手段组合成一个强的分类器。在对弱分类器训练的时候,我们需要它达到一定的阶段才终止训练,比如满足一定的迭代次数,或者达到预设的准确率。然后才将这些弱分类器进行组合,得到我们最后想要的强分类器。我们可以把这个强分类器看成一个级联分类器,因为第一个分类器的结果影响第二个分类器,第二个分类器影响第三个。具体来说就是后阶段的分类器是前一个阶段分类器的困难样本分类器,它会着重关注那些分错的样本。本文利用上述三个不同的SVM模型进行集成,得到包含SVM的Boosting集成框架,提高分级准确率。分类器的训练以及权重计算方式如下:
1、初始化样本权重(即每个样本被选择的概率),pWeighti=1/N,i=0,1…N-1,N为训练样本数。
2、如果训练次数t小于CLASSIFIERNUM(t初始值为0,分类器的数目)
2.1构建新的分布函数
2.2累积概率公式如下:
2.3如果随机数randNum>accProbi,那么样本i加入训练集,重复N次。如果t=0,则将全部的814个样本加入训练。即第一次训练模型的时候样本没有重复。
2.4对样本的Ft+1特征进行SVM训练,得到分类模型CLASSIFIERt。
2.5利用2.4模型对814个样本的初始训练集进行测试。累加预测错误样本的权重如下:
2.6计算CLASSIFIERt权重CLASSIFIER_WEIGHTt:
CLASSIFIER_WEIGHTt=0.5×log(1-error/error)
2.7更新样本权重
c)模型集成与测试
在前面我们已经获得了进行预测的3种不同的特征向量。利用上述b)得到的分类模型,得到3种带有概率的预测结果resulti=(predictLabeli,p1,p2,p3,p4,p5),p1,p2,p3,p4,p5分别代表五个等级的预测概率,通过调整顺序可以使其代表预测B2F,B3F,C2F,C3F,C4F的预测概率。(因为SVM在训练的时候标签是按照顺序读取的,比如第一个样本的标签为2,第二个样本的标签为3,最后,p1代表预测标签为2的概率,p2代表预测标签为3的概率)。
对3种不同的预测概率进行加权求和:
对集成预测概率boosting_prob(bp1,bp2,bp3,bp4,bp5),找出最大概率bpmax以及次大概率bpmin,最终预测结果:
实验结果见表1和表2,可以看出,集成效果高于三个单独训练的结果。烤烟不同部位的区分比较明显,准确率有326/351=92.88%,其中C2F与C3F较难区分,C4F还有相当部分分到B2F,是因为C4F与B2F的部位相邻。我们也尝试对C2F与C3F进行单独的分类。如果分类结果为这两类,就进行LDA分类。综合的分类结果准确率有明显提升,达到70.66%,分类结果见表3。
表1集成效果对比表
特征类型 | 分类器权重或集成阈值 | 分类器预测概率 |
F1 | 0.844 | 64.96% |
F2 | 0.883 | 54.13% |
F3 | 0.873 | 52.99% |
Boosting | 1.4 | 68.09% |
表2集成结果混淆矩阵
表3在Boosting的基础上对C2F与C3F进行LDA分类结果
本发明所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种基于集成技术的烤烟烟叶等级识别方法,其特征在于,包括如下步骤:
步骤1:图像获取,利用可见光相机获得烤烟烟叶正面反射图,并将采集的数据分为训练集与测试集,利用分级专家将这些图片进行标注;
步骤2:图像预处理,剔除不规范的数据,利用灰度化与阈值化技术,找到最大的连通区域,得到目标区域与相应的二值化掩模;
步骤3:特征提取,提取烤烟烟叶图像的传统表观特征、VGG16深度网络输出特征以及细粒度特征;
步骤4:建立包含SVM的Boosting集成框架,学习各SVM的参数和权重。
2.根据权利要求1所述的基于集成技术的烤烟烟叶等级识别方法,其特征在于,所述步骤2中,剔除不规范的数据采用如下步骤进行:
判断烟叶图像是否过横轴,并结合最大连通区域的个数,接着进行图像分割,首先对图像进行高斯光滑处理;然后通过灰度化,阈值化,找到面积最大的连通区域,将此区域视为关心的区域,最后在此区域内进行烤烟烟叶的特征提取。
3.根据权利要求1所述的基于集成技术的烤烟烟叶等级识别方法,其特征在于,所述步骤3中,提取的特征包括3种,分别是:
1)表观特征,包括几何形状特征,颜色特征以及纹理特征;
几何形状特征包含7个,分别是周长、面积、破损率、圆形度、长轴长、短轴长、长宽比;
颜色特征包含267个,包括256维的HSV直方图颜色特征,11的维HSV三分量的均值及标准差,B、G颜色分量的均值以及B、G、R的标准差;
纹理特征有5个,包括熵,能量,对比度,一致性,自相关性;
2)卷积神经网络提取的特征
选用分类网络VGG16来提取图像特征,只保留VGG16最后一个池化层的输出结果作为最终的特征;
3)细粒度神经网络提取的特征
选择VGG16最后一层池化层之前的网络层作为将要处理的特征图,首先对这些特征图进行预处理,包括平方根正则化和二范数归一化;然后将归一化后的特征图两两内积,并采用核函数技巧,建立不同特征通道之间的非线性关系。
4.根据权利要求1所述的基于集成技术的烤烟烟叶等级识别方法,其特征在于,几何形状特征通过以下方式获得:
根据roiMsk和fullMsk,通过fullMsk来遍历roiMsk,统计roiMsk的ROI区域内像素值为零的孔洞数目hole_area,以及非零像素个数contoure_area;得到叶片总的外观面积:
area=hole_area+contoure_area
破损率的计算公式如下:
breakage=hole_area/leaf_area
周长的计算只需统计最大连通区域的轮廓的像素个数maxContoureNum:
perimeter=maxContoureNum
定义圆形度:
circularity=4π×area/perimeter2;
通过ROI区域的最小内接椭圆来求得长轴、短轴的长度,最小内接椭圆即用最大连通区域的轮廓点来拟合椭圆,得到椭圆的长轴长a与短轴长b,求得烟叶的长轴长,短轴长,以及二者之比:
axis_long=a
axis_short=b
l_over_s=a/b
5.根据权利要求1所述的基于集成技术的烤烟烟叶等级识别方法,其特征在于,颜色特征通过以下方式获得:
首先将ROI图像的色彩空间由RGB转化为HSV,HSV各个分量的范围都是0~255;在ROI区域中逐像素进行颜色分量统计求和以及HSV颜色直方图的计算,公式如下:
h=hData[i]>>4
s=sData[i]>>6
v=vData[i]>>6
hsvHist[h][s][v]=hsvHist[h][s][v]+1
其中hData[i]、sData[i]以及vData[i]分别表示第i个像素的H、S、V颜色分量值;将它们分别右移4、6、6位,即将HSV量化到0~15,0~4,0~4的取值区间;逐像素统计结束后,对HSV颜色直方图进行归一化:
hsvHist[m][n][k]/=area,m∈[0,15],n,k∈[0,3]
对HSV三通道的颜色分量之和以及RGB两通道G、B颜色分量之和归一化,得到
rMean=vMean
其中area为烟叶面积,pixelNum为遍历的像素个数;得到256维的HSV颜色直方图特征,以及5维的颜色分量均值特征;再一次遍历ROI区域,得到每一个颜色分量的标准差:
得到6维的颜色分量标准差特征,加上256维直方图特征以及5维颜色分量均值特征,最后得到267维的颜色特征。
6.根据权利要求1所述的基于集成技术的烤烟烟叶等级识别方法,其特征在于,纹理特征通过以下方式获得:
对于ROI图像,将其进行灰度化,然后计算水平,垂直,以及两个对角线方向的灰度特征矩阵,并求出每个方向的5个灰度特征;最后分别对这5维特征求平均值,得到最终的纹理特征,包括如下子步骤:
i)灰度等级化;
ii)初始化共生矩阵;
iii)计算四个方向的灰度共生矩阵GLCM,分别是0°,45°,90°,135°方向;
iv)对灰度共生矩阵归一化,即
前四步可以求出共生矩阵的熵、能量、对比度、逆差距
其中GLCM_CLASS为灰度化等级;
v)根据归一化后的灰度共生矩阵,求得相关性中两个方向的的均值与方程μy,μy,σy,σy,计算如下:
计算出上面四个量之后,算出自相关性:
7.根据权利要求1所述的基于集成技术的烤烟烟叶等级识别方法,其特征在于,所述步骤4中,对3个不同的SVM分类器进行集成,得到包含SVM的Boosting集成框架,包括如下步骤:
(1)初始化样本权重
(2)计算分布函数以及累计概率
(3)随机选择样本进行训练,得到分类器,根据对原始训练集的分类结果计算分类器的权重;
(4)根据分类器的权重更新样本权重;
(5)通过3种不同的分类器以及相应的权重以及相应的投票规则进行投票,得到集成之后的分级结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110809022.2A CN113743399A (zh) | 2021-07-16 | 2021-07-16 | 一种基于集成技术的烤烟烟叶等级识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110809022.2A CN113743399A (zh) | 2021-07-16 | 2021-07-16 | 一种基于集成技术的烤烟烟叶等级识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743399A true CN113743399A (zh) | 2021-12-03 |
Family
ID=78728733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110809022.2A Pending CN113743399A (zh) | 2021-07-16 | 2021-07-16 | 一种基于集成技术的烤烟烟叶等级识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743399A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958503A (zh) * | 2023-09-19 | 2023-10-27 | 广东新泰隆环保集团有限公司 | 一种基于图像处理的污泥干化等级识别方法及系统 |
-
2021
- 2021-07-16 CN CN202110809022.2A patent/CN113743399A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958503A (zh) * | 2023-09-19 | 2023-10-27 | 广东新泰隆环保集团有限公司 | 一种基于图像处理的污泥干化等级识别方法及系统 |
CN116958503B (zh) * | 2023-09-19 | 2024-03-12 | 广东新泰隆环保集团有限公司 | 一种基于图像处理的污泥干化等级识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609549B (zh) | 一种自然场景下证件图像的文本检测方法 | |
CN112464942B (zh) | 基于计算机视觉的重叠烟叶智能化分级方法 | |
Es-saady et al. | Automatic recognition of plant leaves diseases based on serial combination of two SVM classifiers | |
CN111340824B (zh) | 一种基于数据挖掘的图像特征分割方法 | |
CN108388896A (zh) | 一种基于动态时序卷积神经网络的车牌识别方法 | |
US20110081081A1 (en) | Method for recognizing objects in images | |
CN111967511B (zh) | 一种基于异构特征融合网络的地基云图分类方法 | |
CN110826408B (zh) | 一种分区域特征提取人脸识别方法 | |
Wang et al. | Color text image binarization based on binary texture analysis | |
Jana et al. | Handwritten document image binarization: An adaptive K-means based approach | |
CN116246174B (zh) | 基于图像处理的甘薯种类识别方法 | |
CN108664927B (zh) | 基于全自动支持向量机的武夷岩茶叶片图像分类方法 | |
CN115578603A (zh) | 基于多特征提取的人参属植株叶片识别方法 | |
CN111259893A (zh) | 一种基于深度学习的智能工具管理方法 | |
CN114863493A (zh) | 一种低质量指纹图像和非指纹图像的检测方法及检测装置 | |
CN113743421B (zh) | 一种水稻叶片花青素显色区域分割及定量分析的方法 | |
Sindhi et al. | Quality evaluation of apple fruit: A Survey | |
CN113743399A (zh) | 一种基于集成技术的烤烟烟叶等级识别方法 | |
CN112070116B (zh) | 一种基于支持向量机的艺术画作自动分类系统及方法 | |
Hollaus et al. | MultiSpectral image binarization using GMMs | |
CN110874835B (zh) | 作物叶部病害抗性鉴定方法、系统、电子设备及存储介质 | |
Soumya et al. | Recognition of ancient Kannada Epigraphs using fuzzy-based approach | |
Tavallali et al. | Robust skin detector based on AdaBoost and statistical luminance features | |
Abraham | Plasmodium detection using simple CNN and clustered GLCM features | |
Preethi et al. | Medicinal Herbs Identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |