CN113569967B - 一种基于监督机器学习的茶叶杂质数据标注方法 - Google Patents
一种基于监督机器学习的茶叶杂质数据标注方法 Download PDFInfo
- Publication number
- CN113569967B CN113569967B CN202110870540.5A CN202110870540A CN113569967B CN 113569967 B CN113569967 B CN 113569967B CN 202110870540 A CN202110870540 A CN 202110870540A CN 113569967 B CN113569967 B CN 113569967B
- Authority
- CN
- China
- Prior art keywords
- bit
- machine learning
- characteristic values
- supervised machine
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000012535 impurity Substances 0.000 title claims abstract description 30
- 238000002372 labelling Methods 0.000 title claims abstract description 29
- 238000010801 machine learning Methods 0.000 title claims abstract description 16
- 241001122767 Theaceae Species 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000012850 discrimination method Methods 0.000 claims abstract description 5
- 238000003672 processing method Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 2
- 238000013106 supervised machine learning method Methods 0.000 abstract description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于监督机器学习的茶叶杂质数据标注方法,首先,采用传统的图像处理方法,提取茶叶和杂质的特征向量;其次,给特征向量中的每个元素添加相应的标注位;再次,采用人工判别方法,划分得到测试集及训练集;第四,对测试集中的每个特征元素进行数据标注,采用人工和监督机器学习方法相结合,提高了准确性,确保了工作效率。
Description
技术领域
本发明涉及机器学习、图像处理领域,特别涉及一种基于监督机器学习的茶叶杂质数据标注方法。
背景技术
在茶叶加工过程中,往往会掺杂着杂质,如何正确识别茶叶剔除杂质是一个关键的工序。目前,在利用图像处理方法来自动识别茶叶和杂质的过程中,往往会针对图像特征进行数据标注,传统的数据标注方法主要依靠纯人工或随机分配。依靠纯人工来进行数据标注时,效率低下,人力成本高;依靠随机分配来进行数据标注时,会导致数据标注的准确性不高,从而影响着最终的识别效果。针对以上存在的问题,提出了一种基于监督机器学习的茶叶杂质数据标注方法。
发明内容
本发明所要解决的技术问题是提供一种基于监督机器学习的茶叶杂质数据标注方法,以解决现有技术中导致的上述多项缺陷。
为实现上述目的,本发明提供以下的技术方案:一种基于监督机器学习的茶叶杂质数据标注方法,包括如下步骤:
步骤1)采用传统的图像处理方法,提取茶叶和杂质的特征向量;
步骤2)给特征向量中的每个元素添加相应的标注位;
步骤3)用人工判别方法,划分得到测试集及训练集;
步骤4)采用监督机器学习得方式,利用训练集来对测试集进行数据标注。
优选的,所述步骤1)中,提取颜色、纹理、形状等几种特征向量,最后把几种特征向量合并,达到最终的特征向量X,其中,X为n*m的多维矩阵:
优选的,所述步骤2)中,特征向量X中的每个元素xij都对应一个唯一标志位bij,把特征向量X转化为:
优选的,所述步骤4)中,针对测试集中的待标注特征,遍历训练集中所有的元素,计算与其待标注特征的距离,并把距离保存在数组D中;
对数组D进行排序,取最小的k个值,放入X3中,分别统计X3中标注位为1或0的个数;
对数组D进行排序,是为了减少计算工作量;k值取奇数,是为了保证X3中标注位为1的个数和标注位为0的个数不相等;
待标注特征的标注位的值,就是X3中统计数最多的所对应的标注位的值。
优选的,所述步骤4)中,包括以下步骤,
计算距离:针对X2中的每一个待标记的特征值x2j,j=1,…,p,遍历X1中所有的特征值x1i,i=1,…,q,计算X1中每个特征与该待标记的特征值的距离Li=Length(x2j,x1i),并把距离Li保存在D数组中;
排序:对D数组进行排序,取距离最近的k个特征(k取奇数),记为X3=[L31,…,L3k];
统计标注位个数:在X3中统计每个标注位为1或0的个数,即标记为1在X3中的特征值数量为n1,标记为0在X3中的特征值数量为n2;
标注:当n1>n2时,x2j的标注位b2j=1;当n1<n2时,x2j的标注位b2j=0。
以此类推,j=j+1,遍历完X2中的所有待标记的特征值x2j,重复以上步骤,直到j=q时,就完成X2中所有特征值的数据标注。采用以上技术方案的有益效果是:本发明对异常值和噪声有较高的容忍度;相比传统K-近邻算法的随机分配训练集和测试集原则,采用人工确定训练集和测试集,确保了训练集的数据标注准确率达到100%;采用人工和监督机器学习方法相结合,提高了准确性,确保了工作效率。
说明书附图
图1为本发明基于监督机器学习的茶叶杂质数据标注方法的框图。
具体实施方式
下面根据图1详细说明本发明的优选实施方式。
一种基于监督机器学习的茶叶杂质数据标注方法,首先,采用传统的图像处理方法,提取茶叶和杂质的特征向量;其次,给特征向量中的每个元素添加相应的标注位;再次,采用人工判别方法,划分得到测试集及训练集;第四,对测试集中的每个特征元素进行数据标注。
提取特征向量:
针对茶叶与杂质的实物,通过拍照的方式把实物转换为图像,采用RGB彩色图像模型、中值滤波法、图像分割等方法来对图像进行预处理,再利用颜色直方图方法、边缘方向直方图方法、Hu矩阵方法等来提取颜色、纹理、形状等几种特征向量,最后把几种特征向量合并,达到最终的特征向量X。
其中,X为n*m的多维矩阵。
添加标注位:
针对特征向量X,给X中的每个元素xij添加标志位bij,把特征向量X转化为:
划分测试集和训练集:
采用人工判别方法,选取特征最明显的一小块茶叶和杂质图像区域,把其特征值对应的标志位分别记为1或0(1表示该特征值对应的为茶叶,0表示该特征值对应的为杂质),形成训练集X1=[x11,…x1p],X1的特征值个数为p。采用人工判别方法来标注X1,是为了确保X1的标注准确性达到100%。
然后,把剩下的大块图像区域对应的特征值归入测试集X2=[x21,…,x2q],X2的特征值个数为q。
训练集X1和测试集X2的元素之和p+q=m*n。
数据标注:
计算距离:针对X2中的每一个待标记的特征值x2j,j=1,…,p,遍历X1中所有的特征值x1i,i=1,…,q,计算X1中每个特征与该待标记的特征值的距离Li=Length(x2j,x1i),并把距离Li保存在D数组中;
排序:对D数组进行排序,取距离最近的k个特征(k取奇数),记为X3=[L31,…,L3k];
统计标注位个数:在X3中统计每个标注位为1或0的个数,即标记为1在X3中的特征值数量为n1,标记为0在X3中的特征值数量为n2;
标注:当n1>n2时,x2j的标注位b2j=1;当n1<n2时,x2j的标注位b2j=0。
以此类推,j=j+1,遍历完X2中的所有待标记的特征值x2j,重复以上步骤,直到j=q时,就完成X2中所有特征值的数据标注。
下面对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
第一,对茶叶和杂质实物提取特征向量X;第二,给X中的每个元素xij添加标志位bij;第三,人工划分训练集X1和测试集X2,确保训练集X1的标注准确率达到100%(选取特征最明显的一小块茶叶和杂质图像区域,把其特征值对应的标志位分别记为1或0(1表示该特征值对应的为茶叶,0表示该特征值对应的为杂质),形成训练集X1;剩下的大块图像区域对应的特征值归入测试集X2);第四,计算X1中每个特征与X2中的每一个待标记的特征值x2j(j=1)的距离Li=Length(x2j,x1i);第五,把距离Li保存在D数组中;第六,对D数组进行排序,取k个距离最小特征X3=[L31,…,L3k];第七,统计X3中每个标注位为1或0的个数,即标记为1的特征值数量为n1,标记为0特征值数量为n2;第八,当n1>n2时,标注位b2j=1;当n1<n2时,标注位b2j=0;第九,当j<p时,j=j+1,返回第四步继续进行;当j=p时,数据标注结束。
本发明对异常值和噪声有较高的容忍度;相比传统K-近邻算法的随机分配训练集和测试集原则,采用人工确定训练集和测试集,确保了训练集的数据标注准确率达到100%;采用人工和监督机器学习方法相结合,提高了准确性,确保了工作效率。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (4)
1.一种基于监督机器学习的茶叶杂质数据标注方法,其特征在于,包括如下步骤:
步骤1)采用传统的图像处理方法,提取茶叶和杂质的特征向量;提取颜色、纹理、形状等几种特征向量,最后把几种特征向量合并,达到最终的特征向量X,其中,X为n*m的多维矩阵:
步骤2)给特征向量中的每个元素添加相应的标注位;
步骤3)用人工判别方法,划分得到测试集及训练集选取特征最明显的一小块茶叶和杂质图像区域,把其特征值对应的标志位分别记为1或0,其中1表示该特征值对应的为茶叶,0表示该特征值对应的为杂质,形成训练集X1=[x11,…x1p],X1的特征值个数为p;采用人工判别方法来标注X1,是为了确保X1的标注准确性达到100%;然后,把剩下的大块图像区域对应的特征值归入测试集X2=[x21,…,x2q],X2的特征值个数为q;训练集X1和测试集X2的元素之和p+q=m*n;
步骤4)采用监督机器学习得方式,利用训练集来对测试集进行数据标注。
3.根据权利要求1所述的基于监督机器学习的茶叶杂质数据标注方法,其特征在于,所述步骤4)中,针对测试集中的待标注特征,遍历训练集中所有的元素,计算与其待标注特征的距离,并把距离保存在数组D中;
对数组D进行排序,取最小的k个值,放入X3中,分别统计X3中标注位为1或0的个数;
对数组D进行排序,是为了减少计算工作量;k值取奇数,是为了保证X3中标注位为1的个数和标注位为0的个数不相等;
待标注特征的标注位的值,就是X3中统计数最多的所对应的标注位的值。
4.根据权利要求3所述的基于监督机器学习的茶叶杂质数据标注方法,其特征在于,所述步骤4)中,包括以下步骤,
计算距离:针对X2中的每一个待标记的特征值x2j,j=1,…,p,遍历X1中所有的特征值x1i,i=1,…,q,计算X1中每个特征与该待标记的特征值的距离Li=Length(x2j,x1i),并把距离Li保存在D数组中;
排序:对D数组进行排序,取距离最近的k个特征,k取奇数,记为X3=[L31,…,L3k];
统计标注位个数:在X3中统计每个标注位为1或0的个数,即标记为1在X3中的特征值数量为n1,标记为0在X3中的特征值数量为n2;
标注:当n1>n2时,x2j的标注位b2j=1;当n1<n2时,x2j的标注位b2j=0;
以此类推,j=j+1,遍历完X2中的所有待标记的特征值x2j,重复以上步骤,直到j=q时,就完成X2中所有特征值的数据标注。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110870540.5A CN113569967B (zh) | 2021-07-30 | 2021-07-30 | 一种基于监督机器学习的茶叶杂质数据标注方法 |
US17/546,085 US20230030210A1 (en) | 2021-07-30 | 2021-12-09 | Tea impurity data annotation method based on supervised machine learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110870540.5A CN113569967B (zh) | 2021-07-30 | 2021-07-30 | 一种基于监督机器学习的茶叶杂质数据标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569967A CN113569967A (zh) | 2021-10-29 |
CN113569967B true CN113569967B (zh) | 2023-01-10 |
Family
ID=78169391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110870540.5A Active CN113569967B (zh) | 2021-07-30 | 2021-07-30 | 一种基于监督机器学习的茶叶杂质数据标注方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230030210A1 (zh) |
CN (1) | CN113569967B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935235B (zh) * | 2023-09-19 | 2024-04-05 | 深圳市索威尔科技开发有限公司 | 基于采茶无人机的新鲜茶叶识别方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793702A (zh) * | 2014-02-28 | 2014-05-14 | 武汉大学 | 基于协同尺度学习的行人重识别方法 |
CN106203525A (zh) * | 2016-07-18 | 2016-12-07 | 戎巍 | 电子设备及其应用的图像处理方法及系统 |
CN109919235A (zh) * | 2019-03-13 | 2019-06-21 | 北京邮电大学 | 一种基于人工干预样本集权重的深度学习图像分类模型训练方法 |
WO2021022571A1 (zh) * | 2019-08-05 | 2021-02-11 | 南京智谷人工智能研究院有限公司 | 一种基于交互建模的多标记距离度量学习方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11669724B2 (en) * | 2018-05-17 | 2023-06-06 | Raytheon Company | Machine learning using informed pseudolabels |
FR3123748A1 (fr) * | 2021-06-04 | 2022-12-09 | Commissariat A L'energie Atomique Et Aux Energies Alternatives | Apprentissage automatique sans annotation ameliore par regroupements adaptatifs en ensemble ouvert de classes |
-
2021
- 2021-07-30 CN CN202110870540.5A patent/CN113569967B/zh active Active
- 2021-12-09 US US17/546,085 patent/US20230030210A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793702A (zh) * | 2014-02-28 | 2014-05-14 | 武汉大学 | 基于协同尺度学习的行人重识别方法 |
CN106203525A (zh) * | 2016-07-18 | 2016-12-07 | 戎巍 | 电子设备及其应用的图像处理方法及系统 |
CN109919235A (zh) * | 2019-03-13 | 2019-06-21 | 北京邮电大学 | 一种基于人工干预样本集权重的深度学习图像分类模型训练方法 |
WO2021022571A1 (zh) * | 2019-08-05 | 2021-02-11 | 南京智谷人工智能研究院有限公司 | 一种基于交互建模的多标记距离度量学习方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230030210A1 (en) | 2023-02-02 |
CN113569967A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Rf-net: An end-to-end image matching network based on receptive field | |
CN111814584B (zh) | 基于多中心度量损失的多视角环境下车辆重识别方法 | |
Gao et al. | Automatic change detection in synthetic aperture radar images based on PCANet | |
CN107330397B (zh) | 一种基于大间隔相对距离度量学习的行人重识别方法 | |
CN102750541B (zh) | 一种文档图像分类识别方法及装置 | |
CN110321830B (zh) | 一种基于神经网络的中文字符串图片ocr识别方法 | |
CN110443128B (zh) | 一种基于surf特征点精确匹配的指静脉识别方法 | |
CN104112018B (zh) | 一种大规模图像检索方法 | |
CN107424161B (zh) | 一种由粗至精的室内场景图像布局估计方法 | |
CN106202329A (zh) | 样本数据处理、数据识别方法和装置、计算机设备 | |
CN112200121B (zh) | 基于evm和深度学习的高光谱未知目标检测方法 | |
CN113569967B (zh) | 一种基于监督机器学习的茶叶杂质数据标注方法 | |
CN112800876A (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN106203373B (zh) | 一种基于深度视觉词袋模型的人脸活体检测方法 | |
CN112417931A (zh) | 一种基于视觉显著性的水面物体检测和分类的方法 | |
CN116543269B (zh) | 基于自监督的跨域小样本细粒度图像识别方法及其模型 | |
CN116912184B (zh) | 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及系统 | |
CN109948577B (zh) | 一种布料识别方法、装置及存储介质 | |
CN111127407A (zh) | 一种基于傅里叶变换的风格迁移伪造图像检测装置及方法 | |
CN108171270A (zh) | 一种基于哈希学习的高光谱图像分类方法 | |
CN110060243B (zh) | 一种大坝表面裂缝骨架提取方法 | |
CN110175559B (zh) | 一种用于智能识别的视频帧的独立判断方法 | |
Xompero et al. | MORB: a multi-scale binary descriptor | |
CN112837334A (zh) | 一种汉简图像的自动缀合方法 | |
CN110991449B (zh) | 一种面向字轮字符的全字半字识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |