CN113569967B - 一种基于监督机器学习的茶叶杂质数据标注方法 - Google Patents

一种基于监督机器学习的茶叶杂质数据标注方法 Download PDF

Info

Publication number
CN113569967B
CN113569967B CN202110870540.5A CN202110870540A CN113569967B CN 113569967 B CN113569967 B CN 113569967B CN 202110870540 A CN202110870540 A CN 202110870540A CN 113569967 B CN113569967 B CN 113569967B
Authority
CN
China
Prior art keywords
bit
machine learning
characteristic values
supervised machine
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110870540.5A
Other languages
English (en)
Other versions
CN113569967A (zh
Inventor
何俊
张彩庆
邓飞
余靖
景铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University
Original Assignee
Kunming University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University filed Critical Kunming University
Priority to CN202110870540.5A priority Critical patent/CN113569967B/zh
Publication of CN113569967A publication Critical patent/CN113569967A/zh
Priority to US17/546,085 priority patent/US20230030210A1/en
Application granted granted Critical
Publication of CN113569967B publication Critical patent/CN113569967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于监督机器学习的茶叶杂质数据标注方法,首先,采用传统的图像处理方法,提取茶叶和杂质的特征向量;其次,给特征向量中的每个元素添加相应的标注位;再次,采用人工判别方法,划分得到测试集及训练集;第四,对测试集中的每个特征元素进行数据标注,采用人工和监督机器学习方法相结合,提高了准确性,确保了工作效率。

Description

一种基于监督机器学习的茶叶杂质数据标注方法
技术领域
本发明涉及机器学习、图像处理领域,特别涉及一种基于监督机器学习的茶叶杂质数据标注方法。
背景技术
在茶叶加工过程中,往往会掺杂着杂质,如何正确识别茶叶剔除杂质是一个关键的工序。目前,在利用图像处理方法来自动识别茶叶和杂质的过程中,往往会针对图像特征进行数据标注,传统的数据标注方法主要依靠纯人工或随机分配。依靠纯人工来进行数据标注时,效率低下,人力成本高;依靠随机分配来进行数据标注时,会导致数据标注的准确性不高,从而影响着最终的识别效果。针对以上存在的问题,提出了一种基于监督机器学习的茶叶杂质数据标注方法。
发明内容
本发明所要解决的技术问题是提供一种基于监督机器学习的茶叶杂质数据标注方法,以解决现有技术中导致的上述多项缺陷。
为实现上述目的,本发明提供以下的技术方案:一种基于监督机器学习的茶叶杂质数据标注方法,包括如下步骤:
步骤1)采用传统的图像处理方法,提取茶叶和杂质的特征向量;
步骤2)给特征向量中的每个元素添加相应的标注位;
步骤3)用人工判别方法,划分得到测试集及训练集;
步骤4)采用监督机器学习得方式,利用训练集来对测试集进行数据标注。
优选的,所述步骤1)中,提取颜色、纹理、形状等几种特征向量,最后把几种特征向量合并,达到最终的特征向量X,其中,X为n*m的多维矩阵:
Figure GDA0003844120030000021
优选的,所述步骤2)中,特征向量X中的每个元素xij都对应一个唯一标志位bij,把特征向量X转化为:
Figure GDA0003844120030000022
优选的,所述步骤4)中,针对测试集中的待标注特征,遍历训练集中所有的元素,计算与其待标注特征的距离,并把距离保存在数组D中;
对数组D进行排序,取最小的k个值,放入X3中,分别统计X3中标注位为1或0的个数;
对数组D进行排序,是为了减少计算工作量;k值取奇数,是为了保证X3中标注位为1的个数和标注位为0的个数不相等;
待标注特征的标注位的值,就是X3中统计数最多的所对应的标注位的值。
优选的,所述步骤4)中,包括以下步骤,
计算距离:针对X2中的每一个待标记的特征值x2j,j=1,…,p,遍历X1中所有的特征值x1i,i=1,…,q,计算X1中每个特征与该待标记的特征值的距离Li=Length(x2j,x1i),并把距离Li保存在D数组中;
排序:对D数组进行排序,取距离最近的k个特征(k取奇数),记为X3=[L31,…,L3k];
统计标注位个数:在X3中统计每个标注位为1或0的个数,即标记为1在X3中的特征值数量为n1,标记为0在X3中的特征值数量为n2
标注:当n1>n2时,x2j的标注位b2j=1;当n1<n2时,x2j的标注位b2j=0。
以此类推,j=j+1,遍历完X2中的所有待标记的特征值x2j,重复以上步骤,直到j=q时,就完成X2中所有特征值的数据标注。采用以上技术方案的有益效果是:本发明对异常值和噪声有较高的容忍度;相比传统K-近邻算法的随机分配训练集和测试集原则,采用人工确定训练集和测试集,确保了训练集的数据标注准确率达到100%;采用人工和监督机器学习方法相结合,提高了准确性,确保了工作效率。
说明书附图
图1为本发明基于监督机器学习的茶叶杂质数据标注方法的框图。
具体实施方式
下面根据图1详细说明本发明的优选实施方式。
一种基于监督机器学习的茶叶杂质数据标注方法,首先,采用传统的图像处理方法,提取茶叶和杂质的特征向量;其次,给特征向量中的每个元素添加相应的标注位;再次,采用人工判别方法,划分得到测试集及训练集;第四,对测试集中的每个特征元素进行数据标注。
提取特征向量:
针对茶叶与杂质的实物,通过拍照的方式把实物转换为图像,采用RGB彩色图像模型、中值滤波法、图像分割等方法来对图像进行预处理,再利用颜色直方图方法、边缘方向直方图方法、Hu矩阵方法等来提取颜色、纹理、形状等几种特征向量,最后把几种特征向量合并,达到最终的特征向量X。
Figure GDA0003844120030000041
其中,X为n*m的多维矩阵。
添加标注位:
针对特征向量X,给X中的每个元素xij添加标志位bij,把特征向量X转化为:
Figure GDA0003844120030000042
划分测试集和训练集:
采用人工判别方法,选取特征最明显的一小块茶叶和杂质图像区域,把其特征值对应的标志位分别记为1或0(1表示该特征值对应的为茶叶,0表示该特征值对应的为杂质),形成训练集X1=[x11,…x1p],X1的特征值个数为p。采用人工判别方法来标注X1,是为了确保X1的标注准确性达到100%。
然后,把剩下的大块图像区域对应的特征值归入测试集X2=[x21,…,x2q],X2的特征值个数为q。
训练集X1和测试集X2的元素之和p+q=m*n。
数据标注:
计算距离:针对X2中的每一个待标记的特征值x2j,j=1,…,p,遍历X1中所有的特征值x1i,i=1,…,q,计算X1中每个特征与该待标记的特征值的距离Li=Length(x2j,x1i),并把距离Li保存在D数组中;
排序:对D数组进行排序,取距离最近的k个特征(k取奇数),记为X3=[L31,…,L3k];
统计标注位个数:在X3中统计每个标注位为1或0的个数,即标记为1在X3中的特征值数量为n1,标记为0在X3中的特征值数量为n2
标注:当n1>n2时,x2j的标注位b2j=1;当n1<n2时,x2j的标注位b2j=0。
以此类推,j=j+1,遍历完X2中的所有待标记的特征值x2j,重复以上步骤,直到j=q时,就完成X2中所有特征值的数据标注。
下面对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
第一,对茶叶和杂质实物提取特征向量X;第二,给X中的每个元素xij添加标志位bij;第三,人工划分训练集X1和测试集X2,确保训练集X1的标注准确率达到100%(选取特征最明显的一小块茶叶和杂质图像区域,把其特征值对应的标志位分别记为1或0(1表示该特征值对应的为茶叶,0表示该特征值对应的为杂质),形成训练集X1;剩下的大块图像区域对应的特征值归入测试集X2);第四,计算X1中每个特征与X2中的每一个待标记的特征值x2j(j=1)的距离Li=Length(x2j,x1i);第五,把距离Li保存在D数组中;第六,对D数组进行排序,取k个距离最小特征X3=[L31,…,L3k];第七,统计X3中每个标注位为1或0的个数,即标记为1的特征值数量为n1,标记为0特征值数量为n2;第八,当n1>n2时,标注位b2j=1;当n1<n2时,标注位b2j=0;第九,当j<p时,j=j+1,返回第四步继续进行;当j=p时,数据标注结束。
本发明对异常值和噪声有较高的容忍度;相比传统K-近邻算法的随机分配训练集和测试集原则,采用人工确定训练集和测试集,确保了训练集的数据标注准确率达到100%;采用人工和监督机器学习方法相结合,提高了准确性,确保了工作效率。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (4)

1.一种基于监督机器学习的茶叶杂质数据标注方法,其特征在于,包括如下步骤:
步骤1)采用传统的图像处理方法,提取茶叶和杂质的特征向量;提取颜色、纹理、形状等几种特征向量,最后把几种特征向量合并,达到最终的特征向量X,其中,X为n*m的多维矩阵:
Figure FDA0003844120020000011
步骤2)给特征向量中的每个元素添加相应的标注位;
步骤3)用人工判别方法,划分得到测试集及训练集选取特征最明显的一小块茶叶和杂质图像区域,把其特征值对应的标志位分别记为1或0,其中1表示该特征值对应的为茶叶,0表示该特征值对应的为杂质,形成训练集X1=[x11,…x1p],X1的特征值个数为p;采用人工判别方法来标注X1,是为了确保X1的标注准确性达到100%;然后,把剩下的大块图像区域对应的特征值归入测试集X2=[x21,…,x2q],X2的特征值个数为q;训练集X1和测试集X2的元素之和p+q=m*n;
步骤4)采用监督机器学习得方式,利用训练集来对测试集进行数据标注。
2.根据权利要求1所述的基于监督机器学习的茶叶杂质数据标注方法,其特征在于,所述步骤2)中,特征向量X中的每个元素xij都对应一个唯一标志位bij,把特征向量X转化为:
Figure FDA0003844120020000021
3.根据权利要求1所述的基于监督机器学习的茶叶杂质数据标注方法,其特征在于,所述步骤4)中,针对测试集中的待标注特征,遍历训练集中所有的元素,计算与其待标注特征的距离,并把距离保存在数组D中;
对数组D进行排序,取最小的k个值,放入X3中,分别统计X3中标注位为1或0的个数;
对数组D进行排序,是为了减少计算工作量;k值取奇数,是为了保证X3中标注位为1的个数和标注位为0的个数不相等;
待标注特征的标注位的值,就是X3中统计数最多的所对应的标注位的值。
4.根据权利要求3所述的基于监督机器学习的茶叶杂质数据标注方法,其特征在于,所述步骤4)中,包括以下步骤,
计算距离:针对X2中的每一个待标记的特征值x2j,j=1,…,p,遍历X1中所有的特征值x1i,i=1,…,q,计算X1中每个特征与该待标记的特征值的距离Li=Length(x2j,x1i),并把距离Li保存在D数组中;
排序:对D数组进行排序,取距离最近的k个特征,k取奇数,记为X3=[L31,…,L3k];
统计标注位个数:在X3中统计每个标注位为1或0的个数,即标记为1在X3中的特征值数量为n1,标记为0在X3中的特征值数量为n2
标注:当n1>n2时,x2j的标注位b2j=1;当n1<n2时,x2j的标注位b2j=0;
以此类推,j=j+1,遍历完X2中的所有待标记的特征值x2j,重复以上步骤,直到j=q时,就完成X2中所有特征值的数据标注。
CN202110870540.5A 2021-07-30 2021-07-30 一种基于监督机器学习的茶叶杂质数据标注方法 Active CN113569967B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110870540.5A CN113569967B (zh) 2021-07-30 2021-07-30 一种基于监督机器学习的茶叶杂质数据标注方法
US17/546,085 US20230030210A1 (en) 2021-07-30 2021-12-09 Tea impurity data annotation method based on supervised machine learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110870540.5A CN113569967B (zh) 2021-07-30 2021-07-30 一种基于监督机器学习的茶叶杂质数据标注方法

Publications (2)

Publication Number Publication Date
CN113569967A CN113569967A (zh) 2021-10-29
CN113569967B true CN113569967B (zh) 2023-01-10

Family

ID=78169391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110870540.5A Active CN113569967B (zh) 2021-07-30 2021-07-30 一种基于监督机器学习的茶叶杂质数据标注方法

Country Status (2)

Country Link
US (1) US20230030210A1 (zh)
CN (1) CN113569967B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935235B (zh) * 2023-09-19 2024-04-05 深圳市索威尔科技开发有限公司 基于采茶无人机的新鲜茶叶识别方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793702A (zh) * 2014-02-28 2014-05-14 武汉大学 基于协同尺度学习的行人重识别方法
CN106203525A (zh) * 2016-07-18 2016-12-07 戎巍 电子设备及其应用的图像处理方法及系统
CN109919235A (zh) * 2019-03-13 2019-06-21 北京邮电大学 一种基于人工干预样本集权重的深度学习图像分类模型训练方法
WO2021022571A1 (zh) * 2019-08-05 2021-02-11 南京智谷人工智能研究院有限公司 一种基于交互建模的多标记距离度量学习方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11669724B2 (en) * 2018-05-17 2023-06-06 Raytheon Company Machine learning using informed pseudolabels
FR3123748A1 (fr) * 2021-06-04 2022-12-09 Commissariat A L'energie Atomique Et Aux Energies Alternatives Apprentissage automatique sans annotation ameliore par regroupements adaptatifs en ensemble ouvert de classes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793702A (zh) * 2014-02-28 2014-05-14 武汉大学 基于协同尺度学习的行人重识别方法
CN106203525A (zh) * 2016-07-18 2016-12-07 戎巍 电子设备及其应用的图像处理方法及系统
CN109919235A (zh) * 2019-03-13 2019-06-21 北京邮电大学 一种基于人工干预样本集权重的深度学习图像分类模型训练方法
WO2021022571A1 (zh) * 2019-08-05 2021-02-11 南京智谷人工智能研究院有限公司 一种基于交互建模的多标记距离度量学习方法

Also Published As

Publication number Publication date
US20230030210A1 (en) 2023-02-02
CN113569967A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
Shen et al. Rf-net: An end-to-end image matching network based on receptive field
CN111814584B (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
Gao et al. Automatic change detection in synthetic aperture radar images based on PCANet
CN107330397B (zh) 一种基于大间隔相对距离度量学习的行人重识别方法
CN102750541B (zh) 一种文档图像分类识别方法及装置
CN110321830B (zh) 一种基于神经网络的中文字符串图片ocr识别方法
CN110443128B (zh) 一种基于surf特征点精确匹配的指静脉识别方法
CN104112018B (zh) 一种大规模图像检索方法
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
CN106202329A (zh) 样本数据处理、数据识别方法和装置、计算机设备
CN112200121B (zh) 基于evm和深度学习的高光谱未知目标检测方法
CN113569967B (zh) 一种基于监督机器学习的茶叶杂质数据标注方法
CN112800876A (zh) 一种用于重识别的超球面特征嵌入方法及系统
CN106203373B (zh) 一种基于深度视觉词袋模型的人脸活体检测方法
CN112417931A (zh) 一种基于视觉显著性的水面物体检测和分类的方法
CN116543269B (zh) 基于自监督的跨域小样本细粒度图像识别方法及其模型
CN116912184B (zh) 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及系统
CN109948577B (zh) 一种布料识别方法、装置及存储介质
CN111127407A (zh) 一种基于傅里叶变换的风格迁移伪造图像检测装置及方法
CN108171270A (zh) 一种基于哈希学习的高光谱图像分类方法
CN110060243B (zh) 一种大坝表面裂缝骨架提取方法
CN110175559B (zh) 一种用于智能识别的视频帧的独立判断方法
Xompero et al. MORB: a multi-scale binary descriptor
CN112837334A (zh) 一种汉简图像的自动缀合方法
CN110991449B (zh) 一种面向字轮字符的全字半字识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant