CN108376261B

CN108376261B - 一种基于密度和在线半监督学习烟草分类方法

Info

Publication number: CN108376261B
Application number: CN201810119422.9A
Authority: CN
Inventors: 夏旻; 王杰
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2022-03-15
Anticipated expiration: 2038-02-06
Also published as: CN108376261A

Abstract

本发明涉及一种基于密度和在线半监督学习烟草分类方法，首先利用少量有标签的烟草样本进行初始训练，然后利用一批数量上大于有标签样本数的无标签样本，基于密度和距离筛选有用样本，进行在线学习，因此不断筛选更新，并获得最终的学习模型，最后的模型就可以应用于烟草的分类。本发明相比一般的半监督学习，通过密度和距离的算法增加了一个机选样本的过程，提高了模型的训练效率，运用在线学习提高模型的训练速度和适用性。

Description

一种基于密度和在线半监督学习烟草分类方法

技术领域

本发明属于机器学习领域，是一种基于密度和在线半监督学习，用于烟叶级别的自动分类。

背景技术

烟叶是卷烟的基础材料，烟叶的质量等级直接决定卷烟的品质。而对烟叶进行科学的自动分级一直是烟草研究领域的重点问题之一。国内对烟叶的分级主要还是人工操作，要求繁多，例如挑选人员要求、挑选工艺要求、挑后烟叶标识、存放要求等，其中既有客观要求，又有主观因素。研制出一套完善可用的烟叶等级的自动识别系统将能有效解决这一问题。而鉴别一个烟叶的特征有许多，如图1，例如脉相(主脉、支脉、叶柄)，叶形(叶尖、形状)，身份(密度、厚度)，叶片(叶面、叶片结构、质地)、叶色(浓度、一致性、色域)。

传统的监督学习用大量的有标签样本进行学习训练模型，然后用训练好的模型对无标记样本预测，若任务是分类，那么预测的是类别；如果是回归，预测的就是实数输出。随着数据收集和存储能力的提升，数据采集变得越来越容易，但是这些数据中，仅有极少部分是有标签的样本，其余都是无标签的。若只使用无标记样本，则浪费了有标记样本的有用信息；反之，只使用极少量的有标记样本训练模型，得到的模型很难具有较好的泛化性。获取已标记样本成本昂贵，这致使半监督学习成为近十几年来学者们研究的一个重要话题。

发明内容

本发明为了解决现有技术中存在的问题，提供一种可降低人工操作的主观因素，提高烟叶分级的准确度和效率的基于密度和在线半监督学习算法，实现烟叶的自动分级。

为了达到上述目的，本发明提出的技术方案为：一种基于密度和在线半监督学习烟草分类方法，包括如下步骤：

步骤1、对于一个标准的烟叶数据库U，将其中有标签数据样本记作x，无标签数据样本记作X；并对数据进行预处理；

步骤2、设置网络模型，设有N个有标签数据样本，(x_j,t_j)表示第j个数据样本的属性和标签，n、L、m分别是网络的输入层节点数、隐层节点数和输出层节点个数，输入层与隐层之间的权重和偏置都随机给定，其中

T是矩阵转置符号，R表示实数矩阵；

那么网络模型为

其中，G(x)是激活函数，

是输入层节点与第i个隐层节点之间的输入权重，b_i是第i个隐层节点的偏置，

是第i个隐层节点与输出层之间的输出权重，o_j是网络的输出值；

上述网络模型的损失函数可表示如下

目标函数为：

上式用矩阵表示为

H·β＝T

其中H是样本数据对应于隐层节点的输出，β是输出权重，T是样本的期望输出，H、β、T分别定义如下

步骤3、以每个有标签样本x_i为一个类中心，在烟草数据库U中筛选出与x_i属于一类的点，不断更新H和β；

步骤4、将未分类的样本的数据输入训练好的网络模型，得到的输出即为烟草的级别，从而完成烟草分级。

步骤1中数据预处理的步骤为：

步骤1.1、进行数据归一化，消除数值数量级上的差距；

步骤1.2、将数据库中每个样本数据看作一个点，然后计算任意两点间距离，形成距离矩阵，并确定截断距离d_c；

步骤1.3、计算样本密度ρ和每个点的相对距离δ；

其中，d_ij是样本x_i和样本x_j之间的距离,

为待分类数据集，I_S＝{1,2,…,N}为指标集，

表示

的一个降序排列的下标，即满足：

步骤1.4、选定聚类中心。

步骤3数据库U寻找和x_i同一类的点的方法为：计算所有点与x_i的距离，并升序排列，记 dist_sort是升序的距离矩阵，orddist是对应点的原始序号，对dist_sort从小到大寻点，对应的点orddist和点x_i进行密度对比，找到密度大于x_i的点则为和x_i同一类的点。

步骤3数据库U寻找和x_i同一类的点的方法为：通过对每个点的密度进行降序排列，记 rho_sort为排列后的距离矩阵，ordrho是对应原始序号，然后对所有点进行循环，找到与当前点距离最小的点，若该距离最小的点为x_i点，则当前点为和x_i同一类的点。

本发明的有益效果为：

本发明技术方案中训练好的模型可以有效的对烟叶进行分级，方便进一步的精细化加工，从而提高烟叶的等级纯度和使用价值，为卷烟生产提供优质原料，有利于贯彻以质论价，优质优价的价格政策。

本发明的技术方案利用少量人工标记的样本，大量无标记的辅助样本，训练高质量的模型，可以减少人工成本和避免人工操作的失误，增加分级的质量，提高工作的效率。

附图说明

图1为本发明方法流程图。

具体实施方式

下面结合附图以及具体实施例对本发明进行详细说明。

实施例

如图1所示，本实施例的烟草分级方法的具体流程为：

对于一个标准的烟叶的数据库U(若干标准特征)，其中有标签样本记作x，无标签样本记作X。

步骤1、对烟叶数据库进行预处理；

步骤1.1、若各个样本数值在数量级上有差距，则需要数据归一化，预先进行归一化有助于提高计算速度和学习精度；

步骤1.2、把每个数据看作一个点，然后计算各点间距离矩阵，进而求出局部密度ρ和每个点的相对距离δ，公式如下：

局部密度ρ_i：

其中d_ij是样本x_i和样本x_j之间的距离(一般使用欧氏距离),待分类数据集

指标集I_S＝{1,2,…,N}，参数d_c是截断距离，取值太大太小都不行，太大会使得每个数据点的密度都很大致使区分度不高，极端情况就是所有数据点都是同一个类别；如果取得太小，同一个类别可能被分为多个，极端情况就是没一个数据点都单独成为一个类别。如果直接去取值，会很依赖具体问题，所以通过一个比例t来确定截断距离的值，降低该参数对具体问题的依赖性。t的范围锁定在1％-2％内，提高了算法的鲁棒性。满足使得每个数据点的平均邻居数约为总数据个数的1％-2％，邻居是指在截断距离范围内的样本。本实施例中将t设定一个2％的比例，对所有两点间距离进行从小到大排序，通过这个比例确定截断距离d_c

本方法使用高斯核的方法获得的ρ_i是连续值，避免了出现密度值重复的可能，并且距离小于d_c的点越多，ρ_i值越大，越符合要求。

相对距离δ_i:

设

表示

的一个降序排列的下标，即满足：

那么

则上式的定义是，计算该点到局部密度比该点大的所有点的最小距离，如果该点已经是局部密度最大点，那么δ_i就取到所有点的最大距离，相对距离δ是用来衡量样本间的相似性。

步骤1.3、选定聚类中心，确定聚类中心目的是根据数据集的类别个数，将数据集分成几类；密度聚类的核心思想就是聚类中心的选择，通过密度ρ为横坐标，距离δ为纵坐标画出决策图，同时具有高ρ和高δ的点才可能是类中心作为聚类中心，且需要满足两个条件：1.自身的局部密度大于周围每个点的密度。2.努力离密度比自己大的点远一点。

步骤2、构建网络结构；初始化网络，设置网络输入层与隐层的输入权值，隐层的偏置权重，隐层节点数，计算隐层和输出层之间的输出权重。

设有N个有标签数据样本，(x_j,t_j)表示第j个数据样本的属性和标签，n、L、m分别是输入节点数、隐层节点数和输出层节点个数，输入层与隐藏层之间的权重和偏置都随机给定，其中

T是矩阵转置符号，R表示实数矩阵。

那么网络模型的输出是

其中，G(x)是激活函数，一般用Sigmoid函数，

是输入层节点与第i 个隐层节点之间的输入权重，b_i是第i个隐层节点的偏置，

是第i个隐层节点与输出层之间的输出权重，o_j是网络的输出值。

损失函数可表示如下

目标就是找到最优的β，使得网络的输出值与实际输出值误差最小，也就是存在a_i，b_i，β_i，使得E＝0，即

将上式用矩阵表示为

H·β＝T (6)

其中H是样本对应于隐层节点的输出，β是输出权重，T是样本的期望输出，H、β、 T分别定义如下

由于输入层与隐藏层之间的权重和偏置都是随机给定的，所以隐层输出矩阵H也就确定了，那么就是求解一个线性模型。

其中，

是隐藏层输出矩阵H的摩尔彭罗斯广义逆。

步骤3、以每个有标签样本x_i为类中心，在烟草数据库U中筛选出属于一类的点，不断更新在线模型。

找出所有x_j和X_j中可能和x_i同一类的点，记retrain。寻找和x_i同一类的点，本实施例中可通过两种方法寻找。

其一，就是寻找密度比x_i大且距离最近的点，即寻找x_i周围一片范围内的中心点。通过计算其他所有点与其的距离，并升序排列，记dist_sort是升序的距离矩阵，orddist是对应点的原始序号，dist_sort从小到大寻点，对应的点orddist和点x_i进行密度对比，找到密度大于x_i就停止，并存入retrain中。

其二，寻找那些密度比自己大且最近的点恰是x_i的点，即以x_i为类中心的点。通过对密度进行降序排列，记rho_sort为排列后的距离矩阵，ordrho是对应原始序号。然后对所有点进行循环，因为密度是降序排列，所以会先从密度比自己大的点开始判断，然后找到最小距离的点，并判断是否是x_i点，如果是就加入retrain中。最后删除retrain中的类中心点和使用过的点，去除这些点可以提高学习速度。

用上一步获得的模型对retrain进行标签。并更新网络模型，跟新网络模型的具体操作为：

设隐层节点输出权重矩阵的秩与隐层节点数L相等，那么式(9)中的广义逆矩阵

可变换为

其中

其中I_L是单位矩阵，如果

是奇异矩阵，那么通过增加在线学习样本或者减少隐层节点数两种方法，使

变成非奇异矩阵。根据式(9)和式(10)可得到输出权值矩阵

其中T泛指样本的期望输出，也就是实际的样本类别、级别。

假设初始化时，存在N₀个训练样本X₀，表示为

为了使得网络的输出值与实际值的误差最小，应对||H₀β-T₀||进行最小化，其中

其中T₀是初始的样本标签矩阵。

通过下式可计算出||H₀β-T₀||的最小化解：

当新样本

进入模型时，N₁表示新样本的个数，这时公式就转化成求解最小化解：

其中

其中T₁是第一批加入的新样本的标签矩阵。

对两组训练样本X₀和X₁进行综合考虑，此时的输出权值β的表达式为

其中

为了满足在线学习要求，需要将β⁽¹⁾的表达变换关于β⁽⁰⁾、K₁、H₁和T₁的表达式，上标(1)表示在线学习阶段学习的次数，其中

因此，式(19)可以进一步写成：

其中，

综合上述分析，当新样本到达时，对最小二乘解的更新类似于一般的递归。假设第K+1 组的样本到达，该数据可表示为

其中，N_k+1表示第K+1组新样本的个数。式(23)的输出权值的表达式变为

其中

式(26)中T_k+1是k+1次加入的样本的标签矩阵，式(25)中，

并不是由β^(k)计算β^(k+1)的K_k+1，利用Woodbury公式可以得到

的更新式：

令

则可得β^(k+1)的更新式：

当有新样本进入模型时，根据式(27)和式(30)更新在线模型。

利用上述训练好的模型可以直接将未分类的样本的数据即特征，当作输入，输入上述模型中，模型的网络的输入层节点数、隐层节点数和输出层节点个数已知，输入层与隐层之间的权重和偏置都随机给定，输出权重为上述方法中更新好的，得到的输出就是烟草的级别，这样既可有效的对烟叶进行分级。

本发明的技术方案不局限于上述各实施例，凡采用等同替换方式得到的技术方案均落在本发明要求保护的范围内。

Claims

1.一种基于密度和在线半监督学习烟草分类方法，其特征在于，包括如下步骤：

步骤1.1、进行数据归一化，消除数值数量级上的差距；

步骤1.3、计算样本密度ρ和每个点的相对距离δ；

其中，d_ij是样本x_i和样本x_j之间的距离,

为待分类数据集，I_S＝{1,2,…,N}为指标集，

表示

的一个降序排列的下标，即满足：

步骤1.4、选定聚类中心；

T是矩阵转置符号，R表示实数矩阵；

那么网络模型为

其中，G(x)是激活函数，

上述网络模型的损失函数可表示如下

目标函数为：

上式用矩阵表示为

H·β＝T

2.根据权利要求1所述一种基于密度和在线半监督学习烟草分类方法，其特征在于，步骤3数据库U寻找和x_i同一类的点的方法为：计算所有点与x_i的距离，并升序排列，记dist_sort是升序的距离矩阵，orddist是对应点的原始序号，对dist_sort从小到大寻点，对应的点orddist和点x_i进行密度对比，找到密度大于x_i的点则为和x_i同一类的点。

3.根据权利要求1所述一种基于密度和在线半监督学习烟草分类方法，其特征在于，步骤3数据库U寻找和x_i同一类的点的方法为：通过对每个点的密度进行降序排列，记rho_sort为排列后的距离矩阵，ordrho是对应原始序号，然后对所有点进行循环，找到与当前点距离最小的点，若该距离最小的点为x_i点，则当前点为和x_i同一类的点。