CN112884050B

CN112884050B - 一种基于无监督主动学习的品质检测方法

Info

Publication number: CN112884050B
Application number: CN202110213004.8A
Authority: CN
Inventors: 朱启兵; 赵小康; 赵鑫; 黄敏
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2024-04-12
Anticipated expiration: 2041-02-26
Also published as: CN112884050A

Abstract

本发明公开了一种基于无监督主动学习的品质检测方法，涉及光谱技术领域，该方法对光谱特征进行聚类分析实现多样性划分得到多个样本簇，从每个样本簇中利用局部线性重建算法选出特征集合元素，从而选出了具有代表性的特征样本产品，然后再给特征样本产品打上品质参数标签，从而可以减少有标记样本的数量，减少破坏性理化实验，同时融合了样本多样性和代表性的选择标准，可以有效地提高品质预测模型的精度，可以减少建模难度，提高建模效率和精度，有利于优化品质检测结果。

Description

一种基于无监督主动学习的品质检测方法

技术领域

本发明涉及光谱技术领域，尤其是一种基于无监督主动学习的品质检测方法。

背景技术

目前在各行各业，为了保证产品的质量，通常需要对产品进行品质检测，利用光谱检测技术不仅可以实现对产品的无损检测，而且检测方式较为简单，因此是目前对农产品和食品的品质检测的常用方法。利用光谱检测技术进行品质检测的核心是构建品质预测模型，因此寻求快速构建性能优异的品质预测模型的方法有利于提高产品品质检测的准确度和效率。

发明内容

本发明人针对上述问题及技术需求，提出了一种基于无监督主动学习的品质检测方法，本发明的技术方案如下：

一种基于无监督主动学习的品质检测方法，该方法包括：

分别采集各个样本产品的光谱数据并提取光谱特征，基于各个样本产品的光谱特征构建得到无标记初始样本集，无标记初始样本集中的每个初始集合元素包括对应的样本产品的光谱特征；

对无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇，每个样本簇包括无标记初始样本集中的若干个初始集合元素；

分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素；

将从所有样本簇中筛选出的每个特征集合元素对应的样本产品作为特征样本产品，通过理化分析确定每个特征样本产品的品质参数标签，基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集；

利用训练样本集训练得到品质检测模型，并基于品质检测模型对待检测产品进行品质检测。

其进一步的技术方案为，基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集，包括：

利用竞争性自适应重加权采样算法选取特征波段，基于各个特征样本产品在特征波段下的光谱特征和品质参数标签构建得到训练样本集。

其进一步的技术方案为，对无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇，包括：

利用层次凝聚聚类算法对无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图；

基于层次聚类树状图将簇间距离大于预定簇间距离阈值的两个簇进行划分得到不同的样本簇。

其进一步的技术方案为，利用层次凝聚聚类算法对无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图，包括：

将无标记初始样本集中的每个初始集合元素分别作为一个簇得到第一个簇集合，将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合，两个簇的簇间距离越小则相似度越大，p的初始值为1；

令p＝p+1并再次执行将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合的步骤，直至第p+1个簇集合中仅有一个簇时得到层次聚类树状图。

其进一步的技术方案为，将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合，包括：

对于第p个簇集合中的任意两个簇，计算两个簇所包含的任意两个初始集合元素之间的相似度值，并根据计算得到的所有相似度值得到两个簇的簇间距离，将簇间距离最小的两个簇进行合并得到第p+1个簇集合。

其进一步的技术方案为，分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素，包括在从包含m个初始集合元素的样本簇中筛选出k个特征集合元素时：

求解得到表示系数矩阵，i、j均为参数，x_i表示样本簇中的第i个初始集合元素，x_j表示样本簇中的第j个初始集合元素，W_ij是表示系数矩阵中的第i行、第j列的元素且表示第j个初始集合元素用于拟合形成第i个初始集合元素时的系数，N_p(x_i)表示x_i的目标局部邻域范围内初始集合元素构成的集合；

构建损失化函数，损失化函数包括第一重建误差和基于表示系数矩阵构建的重建结果的邻域关系表示误差，第一重建误差反应k个特征集合元素及各自对应的重建结果之间的误差之和，重建结果的邻域关系表示误差反应在利用每个重建样本点的目标局部邻域范围内其他重建样本点拟合重建样本点时的误差之和，m个重建样本点分别是m个初始集合元素对应的重建结果；

构建第二重建误差，第二重建误差反应m个初始集合元素及各自对应的重建结果之间的误差之和；

最小化损失化函数和第二重建误差，从m个初始集合元素中筛选得到k个特征集合元素。

其进一步的技术方案为，构建得到的损失化函数为：其中，/>为第一重建误差，q_s是第s个特征集合元素t_s对应的重建结果；μ是惩罚系数；/>是重建结果的邻域关系表示误差，q_i表示第i个重建样本点且是样本簇中的x_i的重建结果，q_j表示第j个重建样本点且是样本簇中的x_j的重建结果。

其进一步的技术方案为，构建第二重建误差，包括：

将样本簇中的m个初始集合元素各自对应的重建结果构成的矩阵Q表示为Q＝(μW₀+Λ)^-1ΛX，构建得到第二重建误差为

其中，μ是惩罚系数，矩阵W₀＝(I-W)^T(I-W)，矩阵I为单位矩阵对角阵，矩阵W是表示系数矩阵；矩阵X是样本簇中的m个初始集合元素构成的矩阵；Λ是m×m的对角矩阵，当第u个初始集合元素x_u是特征集合元素时Λ_uu＝1，否则Λ_uu＝0。

其进一步的技术方案为，从每个样本簇中筛选出的特征集合元素的数量与样本簇包含的初始集合元素的总数量相关，不同样本簇中筛选出的特征集合元素的数量相同或不同。

其进一步的技术方案为，从包含m个初始集合元素的样本簇中筛选出的特征集合元素的数量为其中，M是无标记初始样本集中包含的初始集合元素的总数量，K是期望从所有样本簇中筛选出的特征集合元素的总数量。

本发明的有益技术效果是：

本申请公开了一种基于无监督主动学习的品质检测方法，该方法基于主动学习实现，首先选择最具典型的特征样本产品，然后再给特征样本产品打上品质参数标签，从而可以减少有标记样本的数量，减少破坏性理化实验，同时融合了样本多样性和代表性的选择标准，可以有效地提高品质预测模型的精度，可以减少建模难度，提高建模效率和精度，有利于优化品质检测结果。

附图说明

图1是本申请公开的品质检测方法的方法流程图。

图2是本申请采集光谱数据使用的近红外光谱采集系统的系统结构图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

本申请公开了一种基于无监督主动学习的品质检测方法，该方法包括如下步骤，请参考图1所示的流程图：

步骤1，分别采集各个样本产品的光谱数据并提取光谱特征，基于各个样本产品的光谱特征构建得到无标记初始样本集，无标记初始样本集中包括M个初始集合元素，每个初始集合元素对应一个样本产品，因此M同时也是样本产品的数量，每个初始集合元素包括对应的样本产品的光谱特征。在这一步中，每个样本产品尚未添加品质参数标签，因此称为无标记初始样本集。

本申请基于近红外光谱采集系统采集各个样本产品的近红外光谱数据，近红外光谱采集系统的结构请参考图2，样本产品1放置在样品架2上，光源3连接环形光导4，环形光导4套设在样品架2的外部均匀照射样本产品1，镜头组件5通过光纤6连接光谱仪7，样本产品1、样品架2、环形光导4和镜头组件5均置于暗箱8内，镜头组件5正对样本产品1，使得光谱仪7采集到样本产品1的光谱数据，光谱仪7连接计算机9将样本产品1的光谱数据传输给计算机9，实际该系统还包括给各部分供电的电源，本申请不再赘述，图上也未示出。在本申请中，光谱仪7采用Vis-SWNIR光谱仪，光谱范围为460-1100nm，光谱分辨率为1nm，每个光谱样本有641个变量。光源3采用石英钨卤素灯，其直接电源由强度控制器调节，通过直径为26mm的环形光导4将光引导到样本产品1，卤素灯电源设置为100W，光谱仪积分时间设置为100ms，目的是让所有被测苹果样本获得良好的光谱信号，同时避免过度曝光导致光饱和。在采集得到光谱数据后，通过数据处理方法即能提取得到光谱特征。

步骤2，对无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇，每个样本簇包括无标记初始样本集中的若干个初始集合元素。

本申请利用层次凝聚聚类算法来得到不同的样本簇，包括如下两个子步骤：

(1)利用层次凝聚聚类算法对无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图。具体的，将步骤1构建得到的无标记初始样本集中的每个初始集合元素分别作为一个簇得到第一个簇集合，将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合，两个簇的簇间距离越小则相似度越大，p为参数且p的初始值为1。令p＝p+1并再次执行将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合的步骤，直至第p+1个簇集合中仅有一个簇时得到层次聚类树状图。

在计算任意两个簇的簇间距离时，若这两个簇均只包含一个初始集合元素，则直接计算这两个初始集合元素之间的相似度值，并将计算得到的相似度值作为两个簇的簇间距离；若存在至少一个簇包含至少两个初始集合元素，则计算两个簇所包含的任意两个初始集合元素之间的相似度值，并根据计算得到的所有相似度值得到两个簇的簇间距离，本申请将所有相似度值平均值作为两个簇的簇间距离。本申请使用未加权平均距离法进行簇间聚合。

(2)基于层次聚类树状图将簇间距离大于预定簇间距离阈值的两个簇进行划分得到不同的样本簇。预定簇间距离阈值根据实际需要确定，比如本申请可以设定为0.8。

步骤3，分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素，从所有样本簇中共筛选出K个特征集合元素。

在本申请中，从每个样本簇中筛选出的特征集合元素的数量与该样本簇包含的初始集合元素的总数量相关，因此不同样本簇中筛选出的特征集合元素的数量相同或不同。具体的，从包含m个初始集合元素的样本簇中筛选出的特征集合元素的数量为其中，M是无标记初始样本集中包含的初始集合元素的总数量，K是期望从所有样本簇中筛选出的特征集合元素的总数量。

为了方便说明，本申请定义包含m个初始集合元素的样本簇中的m个初始集合元素构成的矩阵X表示为X＝{x₁,x₂…x_m}，该矩阵是高维数据集，对于任意的i∈[1,m]，x_i表示该样本簇中的第i个初始集合元素。假设需要从该样本簇中筛选出的k个特征集合元素构成的矩阵表示为{t₁,t₂…t_k}，且对于任意的s∈[1,k]，第s个特征集合元素t_s∈X，也即任意一个特征集合元素都是该样本簇中的一个初始集合元素。假设对该样本簇中的m个初始集合元素进行重建后得到的m个重建样本点构成的矩阵Q表示为Q＝{q₁,q₂…q_m}，且矩阵Q中的重建样本点是矩阵X中对应位置初始集合元素的重建结果，也即对于任意的i∈[1,m]，矩阵Q中的第i个重建样本点q_i是矩阵X中的第i个初始集合元素x_i的重建结果，且可知重建结果构建的矩阵Q与矩阵X同维且具有相同的邻域表示关系。则在从包含m个初始集合元素的样本簇中筛选出k个特征集合元素时的具体做法如下：

(1)求解得到表示系数矩阵W，i、j均为参数，x_i表示样本簇中的第i个初始集合元素，x_j表示样本簇中的第j个初始集合元素，W_ij是表示系数矩阵W中的第i行、第j列的元素且表示第j个初始集合元素用于拟合形成第i个初始集合元素时的系数，N_p(x_i)表示x_i的目标局部邻域范围内初始集合元素构成的集合。

(2)构建损失化函数，损失化函数包括第一重建误差和基于表示系数矩阵构建的重建结果的邻域关系表示误差，第一重建误差反应k个特征集合元素及各自对应的重建结果之间的误差之和，重建结果的邻域关系表示误差反应在利用每个重建样本点的目标局部邻域范围内其他重建样本点拟合重建样本点时的误差之和，m个重建样本点分别是m个初始集合元素对应的重建结果。

构建得到的损失化函数为：其中，/>为第一重建误差，q_s是第s个特征集合元素t_s对应的重建结果。μ是惩罚系数，本申请设定为0.1。/>是重建结果的邻域关系表示误差，q_i表示第i个重建样本点且是样本簇中的x_i的重建结果，q_j表示第j个重建样本点且是样本簇中的x_j的重建结果，表示系数矩阵W中的第i行、第j列的元素W_ij同时也是第j个重建样本点q_j用于拟合形成第i个重建样本点q_i时的系数。

(3)构建第二重建误差，第二重建误差反应m个初始集合元素及各自对应的重建结果之间的误差之和。

其中，μ是惩罚系数，矩阵W₀＝(I-W)^T(I-W)，矩阵I为单位矩阵对角阵，矩阵W是表示系数矩阵。矩阵X是样本簇中的m个初始集合元素构成的矩阵。Λ是m×m的对角矩阵，当第u个初始集合元素x_u是特征集合元素时Λ_uu＝1，否则Λ_uu＝0。

(4)最小化损失化函数和第二重建误差，即可从m个初始集合元素中筛选得到k个特征集合元素，筛选出的k个特征集合元素即为m个初始集合元素中最具代表性的一些集合元素，可以准确的重建出原始数据集。

具体的，通过最小化损失函数，可以求出与k个特征集合元素相关的重建结果矩阵Q，然后最小化第二重建误差即能得到k个特征集合元素。

步骤4，将从所有样本簇中筛选出的每个特征集合元素对应的样本产品作为特征样本产品，通过理化分析确定每个特征样本产品的品质参数标签，基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集。

在本申请中，特征样本产品的品质参数标签反应该样本产品在目标品质类型下的品质特征，目标品质类型是用户在对产品进行品质检测时感兴趣的特征，目标品质类型属于产品的缺陷、成分含量和杂质情况中的至少一种品质大类。比如用于反映产品的缺陷的目标品质类型包括产品外部/内部的腐烂、疤痕、疮痂、凹陷、病变等；用于反映产品的成分含量的目标品质类型包括产品的浓度、含糖量、药物残留量、有机物含量等；用于反映产品杂质情况的目标品质类型包括产品的杂质含量或杂质浓度等。比如目标品质类型是产品的含糖量，则可以通过对每个样本产品进行理化分析确定每个样本产品的可溶性固形物含量，从而根据可溶性固形物含量确定对应的品质参数标签。在现有的方法中，为了获得具有较好泛化性能的模型，通常需要大量的训练样本，然而获取训练样本的光谱信息容易、但给每个训练样本标注品质参数标签往往涉及大量的时间和经济成本，且具有较大的破坏性，本申请只需对少量典型的特征样本产品标注品质参数标签，减少了工作量和破坏性。

可选的，本申请还利用竞争性自适应重加权采样算法选取特征波段，基于各个特征样本产品在特征波段下的光谱特征和品质参数标签构建得到训练样本集，进一步对原始的光谱特征进行筛选提取。

步骤5，利用训练样本集训练得到品质检测模型，并基于品质检测模型对待检测产品进行品质检测，也即利用训练得到的品质检测模型对待检测产品的目标品质类型进行检测，比如在上述举例中，可以利用品质检测模型确定得到待检测产品的可溶性固形物含量，从而确定产品的含糖量。

以上所述的仅是本申请的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种基于无监督主动学习的品质检测方法，其特征在于，所述方法包括：

分别采集各个样本产品的光谱数据并提取光谱特征，基于各个样本产品的光谱特征构建得到无标记初始样本集，所述无标记初始样本集中的每个初始集合元素包括对应的样本产品的光谱特征；

对所述无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇，每个样本簇包括所述无标记初始样本集中的若干个初始集合元素；

利用所述训练样本集训练得到品质检测模型，并基于所述品质检测模型对待检测产品进行品质检测；

所述分别通过局部线性重建算法从各个样本簇中筛选出预定数量的初始集合元素作为特征集合元素，包括在从包含个初始集合元素的样本簇中筛选出/>个特征集合元素时：

求解得到表示系数矩阵，/>均为参数，表示所述样本簇中的第/>个初始集合元素，/>表示所述样本簇中的第/>个初始集合元素，是所述表示系数矩阵中的第/>行、第/>列的元素且表示第/>个初始集合元素用于拟合形成第/>个初始集合元素时的系数，/>表示/>的目标局部邻域范围内初始集合元素构成的集合；

构建损失化函数，所述损失化函数包括第一重建误差和基于所述表示系数矩阵构建的重建结果的邻域关系表示误差，所述第一重建误差反应个特征集合元素及各自对应的重建结果之间的误差之和，所述重建结果的邻域关系表示误差反应在利用每个重建样本点的所述目标局部邻域范围内其他重建样本点拟合所述重建样本点时的误差之和，/>个重建样本点分别是/>个初始集合元素对应的重建结果；

构建第二重建误差，所述第二重建误差反应个初始集合元素及各自对应的重建结果之间的误差之和；

最小化所述损失化函数和所述第二重建误差，从个初始集合元素中筛选得到/>个特征集合元素。

2.根据权利要求1所述的方法，其特征在于，所述基于各个特征样本产品的光谱特征和品质参数标签构建得到训练样本集，包括：

利用竞争性自适应重加权采样算法选取特征波段，基于各个特征样本产品在所述特征波段下的光谱特征和品质参数标签构建得到所述训练样本集。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述无标记初始样本集中的初始集合元素进行聚类分析得到若干个样本簇，包括：

利用层次凝聚聚类算法对所述无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图；

基于所述层次聚类树状图将簇间距离大于预定簇间距离阈值的两个簇进行划分得到不同的样本簇。

4.根据权利要求3所述的方法，其特征在于，所述利用层次凝聚聚类算法对所述无标记初始样本集中的初始集合元素进行聚类分析得到层次聚类树状图，包括：

将所述无标记初始样本集中的每个初始集合元素分别作为一个簇得到第一个簇集合，将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合，两个簇的簇间距离越小则相似度越大，p的初始值为1；

令p=p+1并再次执行所述将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合的步骤，直至所述第p+1个簇集合中仅有一个簇时得到所述层次聚类树状图。

5.根据权利要求4所述的方法，其特征在于，所述将第p个簇集合中簇间距离最小的两个簇进行合并得到第p+1个簇集合，包括：

对于所述第p个簇集合中的任意两个簇，计算所述两个簇所包含的任意两个初始集合元素之间的相似度值，并根据计算得到的所有相似度值得到两个簇的簇间距离，将簇间距离最小的两个簇进行合并得到所述第p+1个簇集合。

6.根据权利要求1所述的方法，其特征在于，构建得到的所述损失化函数为：，其中，/>为所述第一重建误差，/>是第/>个特征集合元素/>对应的重建结果；/>是惩罚系数；/>是所述重建结果的邻域关系表示误差，/>表示第/>个重建样本点且是所述样本簇中的/>的重建结果，/>表示第/>个重建样本点且是所述样本簇中的/>的重建结果。

7.根据权利要求1所述的方法，其特征在于，所述构建所述第二重建误差，包括：

将所述样本簇中的个初始集合元素各自对应的重建结果构成的矩阵/>表示为，构建得到所述第二重建误差为/>；

其中，是惩罚系数，矩阵/>，矩阵/>为单位矩阵对角阵，矩阵/>是所述表示系数矩阵；矩阵/>是所述样本簇中的/>个初始集合元素构成的矩阵；/>是/>的对角矩阵，当第/>个初始集合元素/>是特征集合元素时/>，否则/>。

8.根据权利要求1或2所述的方法，其特征在于，从每个样本簇中筛选出的特征集合元素的数量与所述样本簇包含的初始集合元素的总数量相关，不同样本簇中筛选出的特征集合元素的数量相同或不同。

9.根据权利要求1或2所述的方法，其特征在于，从包含个初始集合元素的样本簇中筛选出的特征集合元素的数量为/>，其中，/>是所述无标记初始样本集中包含的初始集合元素的总数量，/>是期望从所有样本簇中筛选出的特征集合元素的总数量。