CN112884050B - 一种基于无监督主动学习的品质检测方法 - Google Patents
一种基于无监督主动学习的品质检测方法 Download PDFInfo
- Publication number
- CN112884050B CN112884050B CN202110213004.8A CN202110213004A CN112884050B CN 112884050 B CN112884050 B CN 112884050B CN 202110213004 A CN202110213004 A CN 202110213004A CN 112884050 B CN112884050 B CN 112884050B
- Authority
- CN
- China
- Prior art keywords
- sample
- cluster
- initial
- elements
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 238000007621 cluster analysis Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 46
- 230000003595 spectral effect Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000002860 competitive effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 235000012571 Ficus glomerata Nutrition 0.000 claims 1
- 244000153665 Ficus glomerata Species 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000001066 destructive effect Effects 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract description 2
- 239000012535 impurity Substances 0.000 description 4
- 238000002329 infrared spectrum Methods 0.000 description 4
- 229910052721 tungsten Inorganic materials 0.000 description 4
- 239000007787 solid Substances 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 229910052736 halogen Inorganic materials 0.000 description 2
- 208000032544 Cicatrix Diseases 0.000 description 1
- 206010039509 Scab Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000003640 drug residue Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000003760 hair shine Effects 0.000 description 1
- 150000002367 halogens Chemical class 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000005416 organic matter Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000010453 quartz Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 231100000241 scar Toxicity 0.000 description 1
- 230000037387 scars Effects 0.000 description 1
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N silicon dioxide Inorganic materials O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 1
- 239000010937 tungsten Substances 0.000 description 1
- -1 tungsten halogen Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于无监督主动学习的品质检测方法,涉及光谱技术领域,该方法对光谱特征进行聚类分析实现多样性划分得到多个样本簇,从每个样本簇中利用局部线性重建算法选出特征集合元素,从而选出了具有代表性的特征样本产品,然后再给特征样本产品打上品质参数标签,从而可以减少有标记样本的数量,减少破坏性理化实验,同时融合了样本多样性和代表性的选择标准,可以有效地提高品质预测模型的精度,可以减少建模难度,提高建模效率和精度,有利于优化品质检测结果。
Description
技术领域
本发明涉及光谱技术领域,尤其是一种基于无监督主动学习的品质检测方法。
背景技术
目前在各行各业,为了保证产品的质量,通常需要对产品进行品质检测,利用光谱检测技术不仅可以实现对产品的无损检测,而且检测方式较为简单,因此是目前对农产品和食品的品质检测的常用方法。利用光谱检测技术进行品质检测的核心是构建品质预测模型,因此寻求快速构建性能优异的品质预测模型的方法有利于提高产品品质检测的准确度和效率。
发明内容
本发明人针对上述问题及技术需求,提出了一种基于无监督主动学习的品质检测方法,本发明的技术方案如下:
一种基于无监督主动学习的品质检测方法,该方法包括:
分别采集各个样本产品的光谱数据并提取光谱特征,基于各个样本产品的光谱特征构建得到无标记初始样本集,无标记初始样本集中的每个初始集合元素包括对应的样本产品的光谱特征;
对无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇,每个样本簇包括无标记初始样本集中的若干个初始集合元素;
分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素;
将从所有样本簇中筛选出的每个特征集合元素对应的样本产品作为特征样本产品,通过理化分析确定每个特征样本产品的品质参数标签,基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集;
利用训练样本集训练得到品质检测模型,并基于品质检测模型对待检测产品进行品质检测。
其进一步的技术方案为,基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集,包括:
利用竞争性自适应重加权采样算法选取特征波段,基于各个特征样本产品在特征波段下的光谱特征和品质参数标签构建得到训练样本集。
其进一步的技术方案为,对无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇,包括:
利用层次凝聚聚类算法对无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图;
基于层次聚类树状图将簇间距离大于预定簇间距离阈值的两个簇进行划分得到不同的样本簇。
其进一步的技术方案为,利用层次凝聚聚类算法对无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图,包括:
将无标记初始样本集中的每个初始集合元素分别作为一个簇得到第一个簇集合,将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合,两个簇的簇间距离越小则相似度越大,p的初始值为1;
令p=p+1并再次执行将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合的步骤,直至第p+1个簇集合中仅有一个簇时得到层次聚类树状图。
其进一步的技术方案为,将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合,包括:
对于第p个簇集合中的任意两个簇,计算两个簇所包含的任意两个初始集合元素之间的相似度值,并根据计算得到的所有相似度值得到两个簇的簇间距离,将簇间距离最小的两个簇进行合并得到第p+1个簇集合。
其进一步的技术方案为,分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素,包括在从包含m个初始集合元素的样本簇中筛选出k个特征集合元素时:
求解得到表示系数矩阵,i、j均为参数,xi表示样本簇中的第i个初始集合元素,xj表示样本簇中的第j个初始集合元素,Wij是表示系数矩阵中的第i行、第j列的元素且表示第j个初始集合元素用于拟合形成第i个初始集合元素时的系数,Np(xi)表示xi的目标局部邻域范围内初始集合元素构成的集合;
构建损失化函数,损失化函数包括第一重建误差和基于表示系数矩阵构建的重建结果的邻域关系表示误差,第一重建误差反应k个特征集合元素及各自对应的重建结果之间的误差之和,重建结果的邻域关系表示误差反应在利用每个重建样本点的目标局部邻域范围内其他重建样本点拟合重建样本点时的误差之和,m个重建样本点分别是m个初始集合元素对应的重建结果;
构建第二重建误差,第二重建误差反应m个初始集合元素及各自对应的重建结果之间的误差之和;
最小化损失化函数和第二重建误差,从m个初始集合元素中筛选得到k个特征集合元素。
其进一步的技术方案为,构建得到的损失化函数为:其中,/>为第一重建误差,qs是第s个特征集合元素ts对应的重建结果;μ是惩罚系数;/>是重建结果的邻域关系表示误差,qi表示第i个重建样本点且是样本簇中的xi的重建结果,qj表示第j个重建样本点且是样本簇中的xj的重建结果。
其进一步的技术方案为,构建第二重建误差,包括:
将样本簇中的m个初始集合元素各自对应的重建结果构成的矩阵Q表示为Q=(μW0+Λ)-1ΛX,构建得到第二重建误差为
其中,μ是惩罚系数,矩阵W0=(I-W)T(I-W),矩阵I为单位矩阵对角阵,矩阵W是表示系数矩阵;矩阵X是样本簇中的m个初始集合元素构成的矩阵;Λ是m×m的对角矩阵,当第u个初始集合元素xu是特征集合元素时Λuu=1,否则Λuu=0。
其进一步的技术方案为,从每个样本簇中筛选出的特征集合元素的数量与样本簇包含的初始集合元素的总数量相关,不同样本簇中筛选出的特征集合元素的数量相同或不同。
其进一步的技术方案为,从包含m个初始集合元素的样本簇中筛选出的特征集合元素的数量为其中,M是无标记初始样本集中包含的初始集合元素的总数量,K是期望从所有样本簇中筛选出的特征集合元素的总数量。
本发明的有益技术效果是:
本申请公开了一种基于无监督主动学习的品质检测方法,该方法基于主动学习实现,首先选择最具典型的特征样本产品,然后再给特征样本产品打上品质参数标签,从而可以减少有标记样本的数量,减少破坏性理化实验,同时融合了样本多样性和代表性的选择标准,可以有效地提高品质预测模型的精度,可以减少建模难度,提高建模效率和精度,有利于优化品质检测结果。
附图说明
图1是本申请公开的品质检测方法的方法流程图。
图2是本申请采集光谱数据使用的近红外光谱采集系统的系统结构图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
本申请公开了一种基于无监督主动学习的品质检测方法,该方法包括如下步骤,请参考图1所示的流程图:
步骤1,分别采集各个样本产品的光谱数据并提取光谱特征,基于各个样本产品的光谱特征构建得到无标记初始样本集,无标记初始样本集中包括M个初始集合元素,每个初始集合元素对应一个样本产品,因此M同时也是样本产品的数量,每个初始集合元素包括对应的样本产品的光谱特征。在这一步中,每个样本产品尚未添加品质参数标签,因此称为无标记初始样本集。
本申请基于近红外光谱采集系统采集各个样本产品的近红外光谱数据,近红外光谱采集系统的结构请参考图2,样本产品1放置在样品架2上,光源3连接环形光导4,环形光导4套设在样品架2的外部均匀照射样本产品1,镜头组件5通过光纤6连接光谱仪7,样本产品1、样品架2、环形光导4和镜头组件5均置于暗箱8内,镜头组件5正对样本产品1,使得光谱仪7采集到样本产品1的光谱数据,光谱仪7连接计算机9将样本产品1的光谱数据传输给计算机9,实际该系统还包括给各部分供电的电源,本申请不再赘述,图上也未示出。在本申请中,光谱仪7采用Vis-SWNIR光谱仪,光谱范围为460-1100nm,光谱分辨率为1nm,每个光谱样本有641个变量。光源3采用石英钨卤素灯,其直接电源由强度控制器调节,通过直径为26mm的环形光导4将光引导到样本产品1,卤素灯电源设置为100W,光谱仪积分时间设置为100ms,目的是让所有被测苹果样本获得良好的光谱信号,同时避免过度曝光导致光饱和。在采集得到光谱数据后,通过数据处理方法即能提取得到光谱特征。
步骤2,对无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇,每个样本簇包括无标记初始样本集中的若干个初始集合元素。
本申请利用层次凝聚聚类算法来得到不同的样本簇,包括如下两个子步骤:
(1)利用层次凝聚聚类算法对无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图。具体的,将步骤1构建得到的无标记初始样本集中的每个初始集合元素分别作为一个簇得到第一个簇集合,将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合,两个簇的簇间距离越小则相似度越大,p为参数且p的初始值为1。令p=p+1并再次执行将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合的步骤,直至第p+1个簇集合中仅有一个簇时得到层次聚类树状图。
在计算任意两个簇的簇间距离时,若这两个簇均只包含一个初始集合元素,则直接计算这两个初始集合元素之间的相似度值,并将计算得到的相似度值作为两个簇的簇间距离;若存在至少一个簇包含至少两个初始集合元素,则计算两个簇所包含的任意两个初始集合元素之间的相似度值,并根据计算得到的所有相似度值得到两个簇的簇间距离,本申请将所有相似度值平均值作为两个簇的簇间距离。本申请使用未加权平均距离法进行簇间聚合。
(2)基于层次聚类树状图将簇间距离大于预定簇间距离阈值的两个簇进行划分得到不同的样本簇。预定簇间距离阈值根据实际需要确定,比如本申请可以设定为0.8。
步骤3,分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素,从所有样本簇中共筛选出K个特征集合元素。
在本申请中,从每个样本簇中筛选出的特征集合元素的数量与该样本簇包含的初始集合元素的总数量相关,因此不同样本簇中筛选出的特征集合元素的数量相同或不同。具体的,从包含m个初始集合元素的样本簇中筛选出的特征集合元素的数量为其中,M是无标记初始样本集中包含的初始集合元素的总数量,K是期望从所有样本簇中筛选出的特征集合元素的总数量。
为了方便说明,本申请定义包含m个初始集合元素的样本簇中的m个初始集合元素构成的矩阵X表示为X={x1,x2…xm},该矩阵是高维数据集,对于任意的i∈[1,m],xi表示该样本簇中的第i个初始集合元素。假设需要从该样本簇中筛选出的k个特征集合元素构成的矩阵表示为{t1,t2…tk},且对于任意的s∈[1,k],第s个特征集合元素ts∈X,也即任意一个特征集合元素都是该样本簇中的一个初始集合元素。假设对该样本簇中的m个初始集合元素进行重建后得到的m个重建样本点构成的矩阵Q表示为Q={q1,q2…qm},且矩阵Q中的重建样本点是矩阵X中对应位置初始集合元素的重建结果,也即对于任意的i∈[1,m],矩阵Q中的第i个重建样本点qi是矩阵X中的第i个初始集合元素xi的重建结果,且可知重建结果构建的矩阵Q与矩阵X同维且具有相同的邻域表示关系。则在从包含m个初始集合元素的样本簇中筛选出k个特征集合元素时的具体做法如下:
(1)求解得到表示系数矩阵W,i、j均为参数,xi表示样本簇中的第i个初始集合元素,xj表示样本簇中的第j个初始集合元素,Wij是表示系数矩阵W中的第i行、第j列的元素且表示第j个初始集合元素用于拟合形成第i个初始集合元素时的系数,Np(xi)表示xi的目标局部邻域范围内初始集合元素构成的集合。
(2)构建损失化函数,损失化函数包括第一重建误差和基于表示系数矩阵构建的重建结果的邻域关系表示误差,第一重建误差反应k个特征集合元素及各自对应的重建结果之间的误差之和,重建结果的邻域关系表示误差反应在利用每个重建样本点的目标局部邻域范围内其他重建样本点拟合重建样本点时的误差之和,m个重建样本点分别是m个初始集合元素对应的重建结果。
构建得到的损失化函数为:其中,/>为第一重建误差,qs是第s个特征集合元素ts对应的重建结果。μ是惩罚系数,本申请设定为0.1。/>是重建结果的邻域关系表示误差,qi表示第i个重建样本点且是样本簇中的xi的重建结果,qj表示第j个重建样本点且是样本簇中的xj的重建结果,表示系数矩阵W中的第i行、第j列的元素Wij同时也是第j个重建样本点qj用于拟合形成第i个重建样本点qi时的系数。
(3)构建第二重建误差,第二重建误差反应m个初始集合元素及各自对应的重建结果之间的误差之和。
将样本簇中的m个初始集合元素各自对应的重建结果构成的矩阵Q表示为Q=(μW0+Λ)-1ΛX,构建得到第二重建误差为
其中,μ是惩罚系数,矩阵W0=(I-W)T(I-W),矩阵I为单位矩阵对角阵,矩阵W是表示系数矩阵。矩阵X是样本簇中的m个初始集合元素构成的矩阵。Λ是m×m的对角矩阵,当第u个初始集合元素xu是特征集合元素时Λuu=1,否则Λuu=0。
(4)最小化损失化函数和第二重建误差,即可从m个初始集合元素中筛选得到k个特征集合元素,筛选出的k个特征集合元素即为m个初始集合元素中最具代表性的一些集合元素,可以准确的重建出原始数据集。
具体的,通过最小化损失函数,可以求出与k个特征集合元素相关的重建结果矩阵Q,然后最小化第二重建误差即能得到k个特征集合元素。
步骤4,将从所有样本簇中筛选出的每个特征集合元素对应的样本产品作为特征样本产品,通过理化分析确定每个特征样本产品的品质参数标签,基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集。
在本申请中,特征样本产品的品质参数标签反应该样本产品在目标品质类型下的品质特征,目标品质类型是用户在对产品进行品质检测时感兴趣的特征,目标品质类型属于产品的缺陷、成分含量和杂质情况中的至少一种品质大类。比如用于反映产品的缺陷的目标品质类型包括产品外部/内部的腐烂、疤痕、疮痂、凹陷、病变等;用于反映产品的成分含量的目标品质类型包括产品的浓度、含糖量、药物残留量、有机物含量等;用于反映产品杂质情况的目标品质类型包括产品的杂质含量或杂质浓度等。比如目标品质类型是产品的含糖量,则可以通过对每个样本产品进行理化分析确定每个样本产品的可溶性固形物含量,从而根据可溶性固形物含量确定对应的品质参数标签。在现有的方法中,为了获得具有较好泛化性能的模型,通常需要大量的训练样本,然而获取训练样本的光谱信息容易、但给每个训练样本标注品质参数标签往往涉及大量的时间和经济成本,且具有较大的破坏性,本申请只需对少量典型的特征样本产品标注品质参数标签,减少了工作量和破坏性。
可选的,本申请还利用竞争性自适应重加权采样算法选取特征波段,基于各个特征样本产品在特征波段下的光谱特征和品质参数标签构建得到训练样本集,进一步对原始的光谱特征进行筛选提取。
步骤5,利用训练样本集训练得到品质检测模型,并基于品质检测模型对待检测产品进行品质检测,也即利用训练得到的品质检测模型对待检测产品的目标品质类型进行检测,比如在上述举例中,可以利用品质检测模型确定得到待检测产品的可溶性固形物含量,从而确定产品的含糖量。
以上所述的仅是本申请的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。
Claims (9)
1.一种基于无监督主动学习的品质检测方法,其特征在于,所述方法包括:
分别采集各个样本产品的光谱数据并提取光谱特征,基于各个样本产品的光谱特征构建得到无标记初始样本集,所述无标记初始样本集中的每个初始集合元素包括对应的样本产品的光谱特征;
对所述无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇,每个样本簇包括所述无标记初始样本集中的若干个初始集合元素;
分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素;
将从所有样本簇中筛选出的每个特征集合元素对应的样本产品作为特征样本产品,通过理化分析确定每个特征样本产品的品质参数标签,基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集;
利用所述训练样本集训练得到品质检测模型,并基于所述品质检测模型对待检测产品进行品质检测;
所述分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素,包括在从包含个初始集合元素的样本簇中筛选出/>个特征集合元素时:
求解得到表示系数矩阵,/>均为参数,表示所述样本簇中的第/>个初始集合元素,/>表示所述样本簇中的第/>个初始集合元素,是所述表示系数矩阵中的第/>行、第/>列的元素且表示第/>个初始集合元素用于拟合形成第/>个初始集合元素时的系数,/>表示/>的目标局部邻域范围内初始集合元素构成的集合;
构建损失化函数,所述损失化函数包括第一重建误差和基于所述表示系数矩阵构建的重建结果的邻域关系表示误差,所述第一重建误差反应个特征集合元素及各自对应的重建结果之间的误差之和,所述重建结果的邻域关系表示误差反应在利用每个重建样本点的所述目标局部邻域范围内其他重建样本点拟合所述重建样本点时的误差之和,/>个重建样本点分别是/>个初始集合元素对应的重建结果;
构建第二重建误差,所述第二重建误差反应个初始集合元素及各自对应的重建结果之间的误差之和;
最小化所述损失化函数和所述第二重建误差,从个初始集合元素中筛选得到/>个特征集合元素。
2.根据权利要求1所述的方法,其特征在于,所述基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集,包括:
利用竞争性自适应重加权采样算法选取特征波段,基于各个特征样本产品在所述特征波段下的光谱特征和品质参数标签构建得到所述训练样本集。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇,包括:
利用层次凝聚聚类算法对所述无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图;
基于所述层次聚类树状图将簇间距离大于预定簇间距离阈值的两个簇进行划分得到不同的样本簇。
4.根据权利要求3所述的方法,其特征在于,所述利用层次凝聚聚类算法对所述无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图,包括:
将所述无标记初始样本集中的每个初始集合元素分别作为一个簇得到第一个簇集合,将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合,两个簇的簇间距离越小则相似度越大,p的初始值为1;
令p=p+1并再次执行所述将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合的步骤,直至所述第p+1个簇集合中仅有一个簇时得到所述层次聚类树状图。
5.根据权利要求4所述的方法,其特征在于,所述将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合,包括:
对于所述第p个簇集合中的任意两个簇,计算所述两个簇所包含的任意两个初始集合元素之间的相似度值,并根据计算得到的所有相似度值得到两个簇的簇间距离,将簇间距离最小的两个簇进行合并得到所述第p+1个簇集合。
6.根据权利要求1所述的方法,其特征在于,构建得到的所述损失化函数为:,其中,/>为所述第一重建误差,/>是第/>个特征集合元素/>对应的重建结果;/>是惩罚系数;/>是所述重建结果的邻域关系表示误差,/>表示第/>个重建样本点且是所述样本簇中的/>的重建结果,/>表示第/>个重建样本点且是所述样本簇中的/>的重建结果。
7.根据权利要求1所述的方法,其特征在于,所述构建所述第二重建误差,包括:
将所述样本簇中的个初始集合元素各自对应的重建结果构成的矩阵/>表示为,构建得到所述第二重建误差为/>;
其中,是惩罚系数,矩阵/>,矩阵/>为单位矩阵对角阵,矩阵/>是所述表示系数矩阵;矩阵/>是所述样本簇中的/>个初始集合元素构成的矩阵;/>是/>的对角矩阵,当第/>个初始集合元素/>是特征集合元素时/>,否则/>。
8.根据权利要求1或2所述的方法,其特征在于,从每个样本簇中筛选出的特征集合元素的数量与所述样本簇包含的初始集合元素的总数量相关,不同样本簇中筛选出的特征集合元素的数量相同或不同。
9.根据权利要求1或2所述的方法,其特征在于,从包含个初始集合元素的样本簇中筛选出的特征集合元素的数量为/>,其中,/>是所述无标记初始样本集中包含的初始集合元素的总数量,/>是期望从所有样本簇中筛选出的特征集合元素的总数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213004.8A CN112884050B (zh) | 2021-02-26 | 2021-02-26 | 一种基于无监督主动学习的品质检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213004.8A CN112884050B (zh) | 2021-02-26 | 2021-02-26 | 一种基于无监督主动学习的品质检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112884050A CN112884050A (zh) | 2021-06-01 |
CN112884050B true CN112884050B (zh) | 2024-04-12 |
Family
ID=76054510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110213004.8A Active CN112884050B (zh) | 2021-02-26 | 2021-02-26 | 一种基于无监督主动学习的品质检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112884050B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203523A (zh) * | 2016-07-17 | 2016-12-07 | 西安电子科技大学 | 基于梯度提升决策树半监督算法融合的高光谱图像分类 |
CN108507972A (zh) * | 2018-04-11 | 2018-09-07 | 江南大学 | 一种基于距离度量和半监督学习的近红外光谱跨年份苹果糖度预测方法 |
CN110243805A (zh) * | 2019-07-30 | 2019-09-17 | 江南大学 | 基于拉曼高光谱成像技术的鱼刺检测方法 |
CN111192260A (zh) * | 2020-01-03 | 2020-05-22 | 天津大学 | 一种基于高光谱图像深度特征融合的甜瓜品质检测方法 |
CN111242153A (zh) * | 2019-02-21 | 2020-06-05 | 惠州市微米立科技有限公司 | 一种基于无监督深度学习的水果分级筛选方法 |
CN111639561A (zh) * | 2020-05-17 | 2020-09-08 | 西北工业大学 | 基于类别自适应聚类的无监督行人重识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019213860A1 (en) * | 2018-05-09 | 2019-11-14 | Jiangnan University | Advanced ensemble learning strategy based semi-supervised soft sensing method |
-
2021
- 2021-02-26 CN CN202110213004.8A patent/CN112884050B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203523A (zh) * | 2016-07-17 | 2016-12-07 | 西安电子科技大学 | 基于梯度提升决策树半监督算法融合的高光谱图像分类 |
CN108507972A (zh) * | 2018-04-11 | 2018-09-07 | 江南大学 | 一种基于距离度量和半监督学习的近红外光谱跨年份苹果糖度预测方法 |
CN111242153A (zh) * | 2019-02-21 | 2020-06-05 | 惠州市微米立科技有限公司 | 一种基于无监督深度学习的水果分级筛选方法 |
CN110243805A (zh) * | 2019-07-30 | 2019-09-17 | 江南大学 | 基于拉曼高光谱成像技术的鱼刺检测方法 |
CN111192260A (zh) * | 2020-01-03 | 2020-05-22 | 天津大学 | 一种基于高光谱图像深度特征融合的甜瓜品质检测方法 |
CN111639561A (zh) * | 2020-05-17 | 2020-09-08 | 西北工业大学 | 基于类别自适应聚类的无监督行人重识别方法 |
Non-Patent Citations (2)
Title |
---|
水泥熟料质量等级的半监督模糊聚类建模方法;王杰;杨振良;朱晓东;魏义敏;;计算机测量与控制;20111025(第10期);全文 * |
高光谱图像在农畜产品品质与安全性检测中的研究现状与展望;刘木华, 赵杰文, 江水泉;粮食与食品工业;20040615(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112884050A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weng et al. | Hyperspectral imaging for accurate determination of rice variety using a deep learning network with multi-feature fusion | |
Xu et al. | Towards interpreting multi-temporal deep learning models in crop mapping | |
Ma et al. | Rapid and non-destructive seed viability prediction using near-infrared hyperspectral imaging coupled with a deep learning approach | |
Conrad et al. | Machine learning-based presymptomatic detection of rice sheath blight using spectral profiles | |
Gage et al. | In‐field whole‐plant maize architecture characterized by subcanopy rovers and latent space phenotyping | |
Xiang et al. | Deep learning and hyperspectral images based tomato soluble solids content and firmness estimation | |
Lu et al. | Nondestructive testing of pear based on Fourier near-infrared spectroscopy | |
Dhaulaniya et al. | Qualitative and quantitative evaluation of corn syrup as a potential added sweetener in apple fruit juices using mid-infrared spectroscopy assisted chemometric modeling | |
Paymode et al. | Tomato leaf disease detection and classification using convolution neural network | |
Zhang et al. | Vis-NIR hyperspectral imaging combined with incremental learning for open world maize seed varieties identification | |
Sun et al. | A method of information fusion for identification of rice seed varieties based on hyperspectral imaging technology | |
Martins et al. | Estimation of soluble solids content and fruit temperature in'Rocha'pear using Vis-NIR spectroscopy and the SpectraNet–32 deep learning architecture | |
Sonobe et al. | Hyperspectral wavelength selection for estimating chlorophyll content of muskmelon leaves | |
Zhao et al. | Determination of quality and maturity of processing tomatoes using near-infrared hyperspectral imaging with interpretable machine learning methods | |
Que et al. | Identification of wheat kernel varieties based on hyperspectral imaging technology and grouped convolutional neural network with feature intervals | |
Han et al. | Predicting the ripening time of ‘Hass’ and ‘Shepard’avocado fruit by hyperspectral imaging | |
Fan et al. | Non-destructive detection of single-seed viability in maize using hyperspectral imaging technology and multi-scale 3D convolutional neural network | |
Li et al. | The prediction model of nitrogen nutrition in cotton canopy leaves based on hyperspectral visible‐near infrared band feature fusion | |
Qi et al. | Rapid and non-destructive determination of soluble solid content of crown pear by visible/near-infrared spectroscopy with deep learning regression | |
Wang et al. | An efficient method for the rapid detection of industrial paraffin contamination levels in rice based on hyperspectral imaging | |
Zhang et al. | A hyperspectral band selection method based on sparse band attention network for maize seed variety identification | |
Ravichandran et al. | Estimation of grain quality parameters in rice for high‐throughput screening with near‐infrared spectroscopy and deep learning | |
CN112884050B (zh) | 一种基于无监督主动学习的品质检测方法 | |
Zhang et al. | Machine learning applications for multi-source data of edible crops: A review of current trends and future prospects | |
Wang et al. | A multi-kernel channel attention combined with convolutional neural network to identify spectral information for tracing the origins of rice samples |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |