CN114882291B

CN114882291B - 基于高光谱图像像素块机器学习的籽棉地膜识别分类方法

Info

Publication number: CN114882291B
Application number: CN202210607623.XA
Authority: CN
Inventors: 李振业; 程磊; 过奕任; 朱婷婷; 倪超; 殷子璇
Original assignee: Nanjing Forestry University
Current assignee: Nanjing Forestry University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-06-06
Anticipated expiration: 2042-05-31
Also published as: CN114882291A

Abstract

本发明公开一种基于高光谱图像像素块机器学习的籽棉地膜识别分类方法，利用高光谱成像设备获取杂质混合后的物料高光谱图像，将高光谱图像切割为与剔除要求对应的像素块，并提取空间纹理特征结合光谱特征作为像素块的特征，构建机器学习模型，构建杂质对接矩阵，提升对于连续像素块的识别精度，最终实现对像素块中物料进行在线分类识别。本发明利用极限梯度提升算法对原始光谱特征重要性进行排序，引入加权光谱特征值概念，构建随机森林分类器对籽棉与地膜进行在线分类识别；有效解决了地膜由于透光性产生异物同谱问题导致识别像素点过少、分类精度不高的问题。

Description

基于高光谱图像像素块机器学习的籽棉地膜识别分类方法

技术领域

本发明属于籽棉异物识别技术领域，具体涉及一种基于高光谱图像像素块机器学习的籽棉地膜识别分类方法。

背景技术

我国作为棉花生产大国，棉花加工与纺织在国民经济中有着重要的作用。目前我国的棉花种植普遍采用地膜覆盖技术以及机械化采摘技术，这些方法可以极大地提高棉花生产效率。农用地膜具有增温、保墒、灭草的功能，解决了我国干旱地区和冷凉地区农业生产能力弱的严重问题，是提高农田作物水分利用率、缓解水资源短缺、防止病虫害和促进植物生长的重要手段。然而在籽棉机械采摘过程中容易混杂大量地膜残片，这些地膜残片若没有处理干净则会随着加工环节进入皮棉，极大地影响纺织品质量。目前高光谱技术被应用于异物识别领域，但是由于地膜具有良好的透光率，其覆盖在籽棉表面，极易产生“异物同谱”现象，使得识别效果不理想，只有部分地膜像素点能够被识别，这些像素点分散零碎难以确定地膜坐标，使得在混杂地膜的籽棉中将其区分开来成为棉花行业的一个技术难题。

发明内容

本发明解决的技术问题：提供一种解决了地膜由于透光性产生异物同谱问题导致识别像素点过少、分类精度不高的问题的基于高光谱图像像素块机器学习的籽棉地膜识别分类方法。

技术方案：为了解决上述技术问题，本发明采用的技术方案如下：

一种基于高光谱图像像素块机器学习的籽棉地膜识别分类方法，利用高光谱成像设备获取混杂地膜的籽棉高光谱图像，将高光谱图像切割为像素块并提取空间纹理特征结合光谱特征作为像素块的特征，构建机器学习模型对像素块中籽棉与地膜进行在线分类识别，步骤如下：

步骤(1)：利用高光谱成像设备获取混杂地膜的籽棉高光谱图像共288维数据；

步骤(2)：利用极限梯度提升算法对采集光谱数据集中各像素点在1000nm～2500nm波段上的多个谱段进行分类计算并降维，获得原始光谱特征重要性并排序，选择重要性靠前的光谱特征作为像素块光谱维度特征；

对其288维数据进行Savitzky-Golay平滑滤波、多元散射校正，并进行针对波长的信噪比筛选，选取多个谱段作为处理后数据，筛选值的计算公式如下：

式中，w表示的是白板光谱，d表示的是黑场光谱图，n_s表示的是使用单行光谱像素点个数，r_s表示的是针对波长s的光谱信噪比，仅保留波长信噪比r_s≥2的波长；

步骤(3)：将高光谱图像通过20*20像素尺寸分割的方法获得像素块；

步骤(4)将获得的20*20的像素尺寸分割块进行二次分块，分别分割为4*4个5*5的小型像素级光谱特征块；

利用步骤(2)中极限梯度提升算法提取的光谱特征重要性作为权重得到像素块中每个像素点的加权光谱特征值。

加权光谱特征值的公式如下：

其中，ω_j表示第j个光谱特征的权重，x_j表示第j个光谱特征值，m_i表示像素块中第i个像素点，n表示选取的光谱特征数量；

计算特征光谱共生矩阵得到像素块之间的空间维度：角二阶矩、惯性矩、熵和相关性；

步骤(5)：计算小型像素块中每个像素点的加权光谱特征值，计算特征光谱共生矩阵得到像素块之间的空间维度特征；

根据5*5像素块中225个像素点的平均光谱值可以的到该像素块中10维平均光谱值，并融合20*20大范围光谱特征，其公式为：

其中，X_ni表示像素块S_i中光谱向量集合，m_i是像素块S_i的平均值光谱特征，n_i是像素块中像素个数，x_m是大像素块中的像素均值；

步骤(6)：利用小型像素块中每个像素点对应谱段光谱值的平均值得到像素块中10维光谱维度特征，并融合20*20大像素块的整体光谱特征值，减少光谱散射的同时增强光谱特性；

步骤(7)：利用像素块的空间维度和光谱维度特征构建随机森林分类器，实现高光谱图像像素块分类，识别籽棉与地膜杂质；

步骤(8)：使用识别结果构建4个方向上的杂质对接矩阵，获得相应区域的杂质出现概率；

步骤(9)：结合杂质对接矩阵结果，以及识别结果，进行小型像素块的结果修正，修正过程如下：

1)水平方向修正：相邻的小型像素块的左矩阵和右矩阵进行对接，对接修正的过程如下：

式中，C_l，i和C_r，i分别表示左矩阵和右矩阵当中的第i个元素，对于缺少相邻左矩阵或右矩阵的情况下则使用全0矩阵代替缺失的矩阵；

2)竖直方向修正，竖直方向的修正由于牵涉到多行的不同结果，因此每次只对上矩阵进行修正，而下矩阵则进行存储，实现对于下一行小型矩阵的结果的修正，从而实现在采集过程中的实时在线识别，上矩阵的对接过程如下：

式中，C_u，i和C_d，i分别表示上矩阵和下矩阵当中的第i个元素；

步骤(10)：利用小型像素块结果，构建提出对应区域的地膜识别结果，指导后续的地膜剔除过程。

进一步地，步骤(2)中，使用基于决策树的梯度提升算法降低树的复杂度，通过每个属性分割点改进性能度量的量来计算单个决策树的重要性，并由节点负责的观察数量加权。

其预测函数为：

其中，

表示回归树的空间，T表示树的叶子数，/>

表示第m个属性的数值空间，/>

表示什么表示叶子数为T时的权重数值空间，K表示属性决策树的总数量，m表示第m个属性，每个f_k(x)对应于树结构q和叶权重w，x_i代表第i个样本，y_i代表第i个类别标签。

其目标函数为：

其中，l代表

和y_i之间的误差，Ω是模型复杂性的惩罚函数，φ表示当前的模型参数。

进一步地，特征光谱共生矩阵计算0°、45°、90°、135°四个方向数值，通过角二阶矩、惯性矩、熵、相关性共4个统计属性定量描述空间纹理特征，共得到16维纹理特征；

角二阶矩为：

ASM＝∑_i∑_j glcm(i，j)²

惯性矩为：

CON＝∑_i∑_j(i-j)²glcm(i，j)

熵为：

ENT＝-∑_i∑_j glcm(i，j)ln glcm(i，j)

相关性：

式中，glcm(i，j)表示特征光谱共生矩阵i，j分别表示第i和第j个像素，μ_x和μ_y分别表示序列x序列和y序列的均值

和/>

分别表示x序列和y序列的方差。

进一步地，步骤(5)中x_m的计算方法如下：

式中，

表示大像素块s_m中的光谱向量几何，n_m是大像素块中像素个数，10个波段由步骤(2)中的极限梯度提升算法提取，即一个像素块的光谱特征由此平均值特征代替。

进一步地，步骤(7)中，在随机森林中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，再对该子集进行基于信息准则的划分、属性选择，最终输出各个小像素块属于杂质类别的概率。

进一步地，步骤(8)中，用识别结果构建4个方向上的杂质对接矩阵，获得相应区域的杂质出现概率；

构建像素块内4个方向上的对接矩阵，4个矩阵分别为上矩阵、下矩阵、左矩阵和右矩阵定义如下：

C_u＝[p_1，1，p_1，2，p_1，3，p_1，4]

C_d＝[p_4，1，p_4，2，p_4，3，p_4，4]

C_l＝[p_1，1，p_2，1，p_3，1，p_4，1]

C_r＝[p_1，4，p_2，4，p_3，4，p_4，4]

式中，C_u，C_d，C_l，C_r分别表示上矩阵、下矩阵、左矩阵和右矩阵，p_i，j表示步骤(7)中小像素块属于杂质类别的概率。

进一步地，步骤(9)中，经过修正后，小像素块内的概率大于0.5时则判定小像素块属于杂质，而大像素块属于杂质的类别概率则由块内的小像素块的识别结果属于杂质的数量决定，当小像素块数量杂质数量大于整体像素块数量的25％时，则大像素块判定为杂质。

进一步地，步骤(10)中，机器学习模型分类识别结果以像素块的形式代替像素点识别结果，将棉花的识别结果隐藏，只显示地膜像素块识别结果，并将其转换成二值图像，提取地膜像素块轮廓，计算地膜在识别结果中的坐标，方便后续剔除。

有益效果：与现有技术相比，本发明具有以下优点：

(1)本发明将高光谱技术应用于籽棉异物识别技术领域，利用极限梯度提升算法对原始光谱特征重要性进行排序，并选择重要性前十的光谱特征作为像素块光谱维度特征；

(2)引入加权光谱特征值概念，利用光谱特征重要性作为权重得到像素块中每个像素点的加权光谱特征值，并用于计算特征光谱共生矩阵得到像素块之间的空间维度特征，相比于传统的光谱特征，具有更强的可分类性，使得最终的光谱分类精度得到提高；

(3)利用高光谱图像像素块的空间维度特征和光谱维度特征构建随机森林分类器对籽棉与地膜进行在线分类识别，能够充分利用相邻像素点的高度相关性，捕获空间域中纹理结构的信息，融合光谱域与空间域特征，提高分类精度；

(4)有效解决了地膜由于透光性产生异物同谱问题导致识别像素点过少、分类精度不高的问题。

附图说明

图1是本发明分类方法结构示意图；

图2是本发明采集软件生成的原始伪彩色图和人工标记的籽棉和地膜标签图；

图3是本发明基于像素块分割后的效果图；

图4是本发明采用本发明的方法生成的棉籽分类效果图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

如图1所示，本发明的基于高光谱图像像素块机器学习的籽棉地膜识别分类方法，利用高光谱成像设备获取混杂地膜的籽棉高光谱图像，将高光谱图像切割为像素块并提取空间纹理特征结合光谱特征作为像素块的特征，构建机器学习模型对像素块中籽棉与地膜进行在线分类识别，步骤如下：

本实施例中，利用芬兰SPECIM公司的FX系列高光谱成像设备获取混杂地膜的籽棉高光谱图像1000nm～2500nm波段上共288维数据；

步骤(2)：利用极限梯度提升(XGBoost)算法对采集光谱数据集中各像素点在1000nm～2500nm波段上的80-190个谱段进行分类计算并降维，本实施例首选采用160个谱段进行分类计算并降维，获得原始光谱特征重要性并排序，选择重要性前10-50的光谱特征作为像素块光谱维度特征，本实施例首选采用重要性前40的光谱特征作为像素块特征维度；

高光谱成像设备获取混杂地膜在1000nm～2500nm的光谱图像，原始数据288个谱段，对其288维数据进行Savitzky-Golay平滑滤波、多元散射校正，并进行针对波长的信噪比筛选，选取80-190个(本实施例中选80个)谱段作为处理后数据。避免噪声对高光谱数据产生干扰、避免不同角度光谱值散射所导致的误差后，

筛选值的计算公式如下：

式中，w表示的是白板光谱，d表示的是黑场光谱图，n_s表示的是使用单行光谱像素点个数，r_s表示的是针对波长s的光谱信噪比，仅保留波长信噪比r_s≥2的波长。

极限梯度提升(XGBoost)算法通过正则化来降低树的复杂度，从而获得更好的模型性能。使用基于决策树的梯度提升算法的好处是，可以根据提升之后的树获取每个特征的重要性，从而有效地进行特征的筛选。

一般来说，特征的重要性表示这个特征在构建提升树的作用。如果一个特征在所有树中作为划分属性的次数越多，那么该特征就越重要。通过每个属性分割点改进性能度量的量来计算单个决策树的重要性，并由节点负责的观察数量加权。

其预测函数为：

/>

其中，

表示回归树的窨，T表示树的叶子数，/>

表示第m个属性的数值空间，/>

其目标函数为：

其中，l代表

步骤(4)：将获得多个的20*20的像素尺寸分割块进行二次分块，分别分割为4*4个(每行4个，每列4个)5*5的小型像素级光谱特征块；

利用步骤(2)中XGBoost提取的光谱特征重要性作为权重得到像素块中每个像素点的加权光谱特征值。

加权光谱特征值，其公式如下：

其中，ω_j表示第j个光谱特征的权重，x_j表示第j个光谱特征值，m_i表示像素块中第i个像素点，n表示选取的光谱特征数量。

计算特征光谱共生矩阵得到像素块之间的空间维度：角二阶矩、惯性矩、熵、相关性。

本实施例中，特征光谱共生矩阵计算0°、45°、90°、135°四个方向数值，通过角二阶矩、惯性矩、熵、相关性共4个统计属性定量描述空间纹理特征，共得到16维纹理特征。

角二阶矩为：

ASM＝∑_i∑_j glcm(i，j)²

惯性矩为：

CON＝∑_i∑_j(i-j)²glcm(i，j)

熵为：

ENT＝∑_i∑_j glcm(i，j)ln glcm(i，j)

相关性：

式中，，glcm(i，j)表示特征光谱共生矩阵i，j分别表示第i和第j个像素，μ_x和μ_y分别表示序列x序列和y序列的均值

和/>

分别表示x序列和y序列的方差。

其中X_ni表示像素块S_i中光谱向量集合，m_i是像素块S_i的平均值光谱特征，n_i是像素块中像素个数。x_m是大像素块中的像素均值，x_m的计算方法如下：

式中，

表示大像素块s_m中的光谱向量几何，n_m是大像素块中像素个数。10个波段由步骤(2)中的极限梯度提升算法XGBOOST提取，即一个像素块的光谱特征由此平均值特征代替。

采取随机森林作为机器学习分类模型，随机森林(Random Forest)是Bagging的一个扩展变体。其在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择，即：传统决策树在选择划分属性时是在当前结点的属性集合中(假设共有d个结点)基于信息纯度准则等选择一个最优属性，而在随机森林中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，再对该子集进行基于信息准则的划分、属性选择，最终输出各个小像素块属于杂质类别的概率。

C_u＝[p_1，1，p_1，2，p_1，3，p_1，4]

C_d＝[p_4，1，p_4，2，p_4，3，p_4，4]

C_l＝[p_1，1，p_2，1，p_3，1，p_4，1]

C_r＝[p_1，4，p_2，4，p_3，4，p_4，4]

步骤(9)：结合杂质对接矩阵结果，以及识别结果，进行小型像素块的结果修正。

修正过程如下：

(1)水平方向修正：相邻的小型像素块的左矩阵和右矩阵进行对接，对接修正的过程如下：

/>

式中，C_l，i，C_r，i分别表示左矩阵和右矩阵当中的第i个元素。对于缺少相邻左矩阵或右矩阵的情况下则使用全0矩阵代替缺失的矩阵。

(2)竖直方向修正，竖直方向的修正由于牵涉到多行的不同结果，因此每次只对上矩阵进行修正，而下矩阵则进行存储，实现对于下一行小型矩阵的结果的修正，从而实现在采集过程中的实时在线识别，上矩阵的对接过程如下：

式中，C_u，i和C_d，i分别表示上矩阵和下矩阵当中的第i个元素。

经过修正后，小像素块内的概率大于0.5时则判定小像素块属于杂质。而大像素块属于杂质的类别概率则由块内的小像素块的识别结果属于杂质的数量决定，当小像素块数量杂质数量大于整体像素块数量的25％时，则大像素块判定为杂质。

机器学习模型分类识别结果以像素块的形式代替像素点识别结果，将棉花的识别结果隐藏，只显示地膜像素块识别结果，并将其转换成二值图像，提取地膜像素块轮廓，计算地膜在识别结果中的坐标，方便后续剔除。

本发明的基于高光谱图像像素块机器学习的籽棉地膜识别分类方法，利用极限梯度提升算法对原始光谱特征重要性进行排序，并选择重要性前10的光谱特征作为像素块光谱维度特征；引入加权光谱特征值概念，利用光谱特征重要性作为权重得到像素块中每个像素点的加权光谱特征值，并用于计算特征光谱共生矩阵得到像素块之间的空间维度特征，光谱信息作为光谱特征。利用高光谱图像像素块的空间维度特征和光谱维度特征构建随机森林分类器，对籽棉与地膜进行在线分类识别，并计算图像块的杂质对接矩阵，进行杂质的判别。能够充分利用相邻像素点的高度相关性，捕获空间域中纹理结构的信息，融合光谱域与空间域特征，提高分类精度，有效解决了地膜由于透光性产生异物同谱问题导致识别像素点过少、分类精度不高的问题。

利用本发明的基于高光谱图像像素块机器学习的籽棉地膜识别分类算法进行实验，实验效果如图2、图3和图4所示，下面结合仿真实验对本发明的效果做进一步说明。

1.仿真实验条件：

本文使用python进行图像处理及机器学习模型搭建及训练；程序运行的软件是PyCharm，使用了numpy、opencv、sklearn等python库，运行机器学习模型的计算机CPU为intel i7芯片，主频2.6GHz，内存8G，GPU为Nvidia GTX3060显卡。

2.仿真实验内容：

使用高光谱成像设备获取籽棉地膜的光谱数据，比较并选择合适的像素块大小分割图像，利用本发明提出的算法建立机器学习模型，对混杂地膜的籽棉图像进行分类识别，定位地膜坐标。

如图2所示，是采集软件生成的原始伪彩色图和人工标记的籽棉和地膜标签图；图3为将高光谱图像进行20*20pixel像素块分割的效果图；图4为本发明生成的分类效果图，可以发现基于像素点的分割方法识别结果分散，不易后续确定坐标，而基于像素块的识别结果整体性高，易于确定坐标。实验显示，该方法能对地膜的识别率达到了97.4％，超过基于像素点识别率的94.8％，因此可以得出结论，本发明可以有效地识别棉籽中的地膜，同时具有结果完整性好，便于确定坐标等优势，为后续除杂装置的定位提供便利。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。