CN113569967B

CN113569967B - 一种基于监督机器学习的茶叶杂质数据标注方法

Info

Publication number: CN113569967B
Application number: CN202110870540.5A
Authority: CN
Inventors: 何俊; 张彩庆; 邓飞; 余靖; 景铭
Original assignee: Kunming University
Current assignee: Kunming University
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-01-10
Anticipated expiration: 2041-07-30
Also published as: US20230030210A1; CN113569967A

Abstract

本发明公开了一种基于监督机器学习的茶叶杂质数据标注方法，首先，采用传统的图像处理方法，提取茶叶和杂质的特征向量；其次，给特征向量中的每个元素添加相应的标注位；再次，采用人工判别方法，划分得到测试集及训练集；第四，对测试集中的每个特征元素进行数据标注，采用人工和监督机器学习方法相结合，提高了准确性，确保了工作效率。

Description

一种基于监督机器学习的茶叶杂质数据标注方法

技术领域

本发明涉及机器学习、图像处理领域，特别涉及一种基于监督机器学习的茶叶杂质数据标注方法。

背景技术

在茶叶加工过程中，往往会掺杂着杂质，如何正确识别茶叶剔除杂质是一个关键的工序。目前，在利用图像处理方法来自动识别茶叶和杂质的过程中，往往会针对图像特征进行数据标注，传统的数据标注方法主要依靠纯人工或随机分配。依靠纯人工来进行数据标注时，效率低下，人力成本高；依靠随机分配来进行数据标注时，会导致数据标注的准确性不高，从而影响着最终的识别效果。针对以上存在的问题，提出了一种基于监督机器学习的茶叶杂质数据标注方法。

发明内容

本发明所要解决的技术问题是提供一种基于监督机器学习的茶叶杂质数据标注方法，以解决现有技术中导致的上述多项缺陷。

为实现上述目的，本发明提供以下的技术方案：一种基于监督机器学习的茶叶杂质数据标注方法，包括如下步骤：

步骤1)采用传统的图像处理方法，提取茶叶和杂质的特征向量；

步骤2)给特征向量中的每个元素添加相应的标注位；

步骤3)用人工判别方法，划分得到测试集及训练集；

步骤4)采用监督机器学习得方式，利用训练集来对测试集进行数据标注。

优选的，所述步骤1)中，提取颜色、纹理、形状等几种特征向量，最后把几种特征向量合并，达到最终的特征向量X，其中，X为n*m的多维矩阵：

优选的，所述步骤2)中，特征向量X中的每个元素x_ij都对应一个唯一标志位b_ij，把特征向量X转化为：

优选的，所述步骤4)中，针对测试集中的待标注特征，遍历训练集中所有的元素，计算与其待标注特征的距离，并把距离保存在数组D中；

对数组D进行排序，取最小的k个值，放入X₃中，分别统计X₃中标注位为1或0的个数；

对数组D进行排序，是为了减少计算工作量；k值取奇数，是为了保证X₃中标注位为1的个数和标注位为0的个数不相等；

待标注特征的标注位的值，就是X₃中统计数最多的所对应的标注位的值。

优选的，所述步骤4)中，包括以下步骤，

计算距离：针对X₂中的每一个待标记的特征值x_2j，j＝1，…,p，遍历X₁中所有的特征值x_1i，i＝1，…，q，计算X₁中每个特征与该待标记的特征值的距离L_i＝Length(x_2j,x_1i)，并把距离L_i保存在D数组中；

排序：对D数组进行排序，取距离最近的k个特征(k取奇数)，记为X₃＝[L₃₁,…,L_3k]；

统计标注位个数：在X₃中统计每个标注位为1或0的个数，即标记为1在X₃中的特征值数量为n₁，标记为0在X₃中的特征值数量为n₂；

标注：当n₁＞n₂时，x_2j的标注位b_2j＝1；当n₁＜n₂时,x_2j的标注位b_2j＝0。

以此类推，j＝j+1，遍历完X₂中的所有待标记的特征值x_2j，重复以上步骤，直到j＝q时，就完成X₂中所有特征值的数据标注。采用以上技术方案的有益效果是：本发明对异常值和噪声有较高的容忍度；相比传统K-近邻算法的随机分配训练集和测试集原则，采用人工确定训练集和测试集，确保了训练集的数据标注准确率达到100％；采用人工和监督机器学习方法相结合，提高了准确性，确保了工作效率。

说明书附图

图1为本发明基于监督机器学习的茶叶杂质数据标注方法的框图。

具体实施方式

下面根据图1详细说明本发明的优选实施方式。

一种基于监督机器学习的茶叶杂质数据标注方法，首先，采用传统的图像处理方法，提取茶叶和杂质的特征向量；其次，给特征向量中的每个元素添加相应的标注位；再次，采用人工判别方法，划分得到测试集及训练集；第四，对测试集中的每个特征元素进行数据标注。

提取特征向量：

针对茶叶与杂质的实物，通过拍照的方式把实物转换为图像，采用RGB彩色图像模型、中值滤波法、图像分割等方法来对图像进行预处理，再利用颜色直方图方法、边缘方向直方图方法、Hu矩阵方法等来提取颜色、纹理、形状等几种特征向量，最后把几种特征向量合并，达到最终的特征向量X。

其中，X为n*m的多维矩阵。

添加标注位：

针对特征向量X，给X中的每个元素x_ij添加标志位b_ij，把特征向量X转化为：

划分测试集和训练集：

采用人工判别方法，选取特征最明显的一小块茶叶和杂质图像区域，把其特征值对应的标志位分别记为1或0(1表示该特征值对应的为茶叶，0表示该特征值对应的为杂质)，形成训练集X₁＝[x₁₁,…x_1p]，X₁的特征值个数为p。采用人工判别方法来标注X₁，是为了确保X₁的标注准确性达到100％。

然后，把剩下的大块图像区域对应的特征值归入测试集X₂＝[x₂₁,…,x_2q]，X₂的特征值个数为q。

训练集X₁和测试集X₂的元素之和p+q＝m*n。

数据标注：

以此类推，j＝j+1，遍历完X₂中的所有待标记的特征值x_2j，重复以上步骤，直到j＝q时，就完成X₂中所有特征值的数据标注。

下面对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

第一，对茶叶和杂质实物提取特征向量X；第二，给X中的每个元素x_ij添加标志位b_ij；第三，人工划分训练集X₁和测试集X₂，确保训练集X₁的标注准确率达到100％(选取特征最明显的一小块茶叶和杂质图像区域，把其特征值对应的标志位分别记为1或0(1表示该特征值对应的为茶叶，0表示该特征值对应的为杂质)，形成训练集X₁；剩下的大块图像区域对应的特征值归入测试集X₂)；第四，计算X₁中每个特征与X₂中的每一个待标记的特征值x_2j(j＝1)的距离L_i＝Length(x_2j,x_1i)；第五，把距离L_i保存在D数组中；第六，对D数组进行排序，取k个距离最小特征X₃＝[L₃₁,…,L_3k]；第七，统计X₃中每个标注位为1或0的个数，即标记为1的特征值数量为n₁，标记为0特征值数量为n₂；第八，当n₁＞n₂时，标注位b_2j＝1；当n₁＜n₂时,标注位b_2j＝0；第九，当j<p时，j＝j+1，返回第四步继续进行；当j＝p时，数据标注结束。

本发明对异常值和噪声有较高的容忍度；相比传统K-近邻算法的随机分配训练集和测试集原则，采用人工确定训练集和测试集，确保了训练集的数据标注准确率达到100％；采用人工和监督机器学习方法相结合，提高了准确性，确保了工作效率。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于监督机器学习的茶叶杂质数据标注方法，其特征在于，包括如下步骤：

步骤1)采用传统的图像处理方法，提取茶叶和杂质的特征向量；提取颜色、纹理、形状等几种特征向量，最后把几种特征向量合并，达到最终的特征向量X，其中，X为n*m的多维矩阵：

步骤2)给特征向量中的每个元素添加相应的标注位；

步骤3)用人工判别方法，划分得到测试集及训练集选取特征最明显的一小块茶叶和杂质图像区域，把其特征值对应的标志位分别记为1或0，其中1表示该特征值对应的为茶叶，0表示该特征值对应的为杂质，形成训练集X₁＝[x₁₁,…x_1p]，X₁的特征值个数为p；采用人工判别方法来标注X₁，是为了确保X₁的标注准确性达到100％；然后，把剩下的大块图像区域对应的特征值归入测试集X₂＝[x₂₁,…,x_2q]，X₂的特征值个数为q；训练集X₁和测试集X₂的元素之和p+q＝m*n；

2.根据权利要求1所述的基于监督机器学习的茶叶杂质数据标注方法，其特征在于，所述步骤2)中，特征向量X中的每个元素x_ij都对应一个唯一标志位b_ij，把特征向量X转化为：

3.根据权利要求1所述的基于监督机器学习的茶叶杂质数据标注方法，其特征在于，所述步骤4)中，针对测试集中的待标注特征，遍历训练集中所有的元素，计算与其待标注特征的距离，并把距离保存在数组D中；

4.根据权利要求3所述的基于监督机器学习的茶叶杂质数据标注方法，其特征在于，所述步骤4)中，包括以下步骤，

排序：对D数组进行排序，取距离最近的k个特征，k取奇数，记为X₃＝[L₃₁,…,L_3k]；

标注：当n₁＞n₂时，x_2j的标注位b_2j＝1；当n₁＜n₂时,x_2j的标注位b_2j＝0；