CN111797935B

CN111797935B - 基于群体智能的半监督深度网络图片分类方法

Info

Publication number: CN111797935B
Application number: CN202010667741.0A
Authority: CN
Inventors: 徐晓华; 仁祥; 何萍; 方威; 姜玉麟; 葛方毅
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2023-10-31
Anticipated expiration: 2040-07-13
Also published as: CN111797935A

Abstract

本发明公开了一种基于群体智能的半监督深度网络图片分类方法，包括以下步骤：1）对数字图片的训练数据集和测试数据集进行预处理，包括归一化和中心化处理；2）使用训练数据集计算网络损失，包括；2‑1）对于有标记数据，计算网络的预测值和真实标签值之间的混合KL散度损失；2‑2）对于无标记数据，计算多个网络模型预测值之间的群体一致性损失；3）使用有标记数据的混合KL散度损失和无标记数据的群体一致性损失通过反向传播算法优化深度网络的权重参数；4）应用训练好的深度网络对测试数据集进行分类，本发明可实现图片高效且准确的分类。

Description

基于群体智能的半监督深度网络图片分类方法

技术领域

本发明涉及一种图片分类方法，特别涉及一种半监督深度网络图片分类方法。

背景技术

目前图像处理数字识别中，全监督的深度神经网络表现优异，但是训练一个较好的深度网络所需的标记数据也是庞大且代价高昂的，而半监督算法克服了上述缺点，所需的标记数据相对于全监督方法大大减少，以有标记数据为指导来探究无标记数据之间的联系，从而提高分类的准确率。

半监督分类算法的核心难点在于如何有效地使用无标记数据。现在结合深度网络的半监督分类算法大致可以分为两类：伪标记做法和一致性原则做法。“伪标记”顾名思义就是给无标记数据找到一个合适的标签，然后用处理真实标记数据的办法处理伪标记数据。这种做法的性能好坏完全取决于伪标签的好坏，不同算法之间的差异天差地别，且难以移植到不同的数据集，对于现实世界中的图片处理效果较差。而一致性做法可以看作是一种正则化方法，该方法要求模型对噪声有一定的鲁棒性，在处理现实世界的图片数据时相较于伪标记做法有一定的优势。一致性做法具体来说也可以分为两类：一类是给输入添加噪声。对于同一个输入，添加不同的噪声后，模型对于输入数据的预测应该相近或相同，因此根据不同添加噪声的方法，会产生不同的模型。另一类是对模型添加噪声，更具体一点就是相同的网络结构，不同的网络参数。这一类中的代表就是Mean-Teacher算法。Mean-Teacher算法维持两个相同的网络结构，其中受监管网络模型的参数更新是使用随机梯度下降优化算法，监管网络模型的参数更新是受监管网络模型的移动均值。

在本发明作出之前，目前半监督神经网络做数字图像识别都是采用一个受监管模型和一个监管模型，而本身深度神经网络就容易陷入局部最优解，当受监管模型陷入局部最优解时，由于监管模型仅搜集到一个受监管模型的信息，无法从全局的高度出发对受监管模型进行有效地反馈。

发明内容

本发明的目的是提供一种基于群体智能的半监督深度网络图片分类方法，实现图片高效且准确的分类。

本发明的目的是这样实现的：一种基于群体智能的半监督深度网络图片分类方法，包括以下步骤：

步骤1)对数字图片的训练数据集和测试数据集进行预处理，包括归一化和中心化处理；

步骤2)使用训练数据集计算网络损失，包括；

步骤2-1)对于有标记数据，计算网络的预测值和真实标签值之间的混合KL散度损失；

步骤2-2)对于无标记数据，计算多个网络模型预测值之间的群体一致性损失；

步骤3)使用有标记数据的混合KL散度损失和无标记数据的群体一致性损失通过反向传播算法优化深度网络的权重参数；

步骤4)应用训练好的深度网络对测试数据集进行分类。

作为本发明的进一步限定，步骤2-1)有标记数据的处理方法采用的函数是KL散度函数和平方欧式距离函数的线性组合，使用多个受监管网络模型和一个监管网络模型全部对有标记数据进行预测，然后累加各自的预测值和真实标签之间的误差，最后取平均作为该有标记数据的误差。

作为本发明的进一步限定，对于有标记数据的处理方法具体为：

对于有标记信息的输入图片，为该图片添加噪声，然后将添加了噪声的图片数据输入到受监管网络模型和监管网络模型中，得到各自的预测值，计算预测值和真实标签值之间误差作为该输入图片的有标记误差；有标记误差可以描述如下：

其中，代表有标记输入图片x_i(i∈1，...，l)在第t次训练时，第k个网络模型下的有标记误差；/>代表在噪声η^k的干扰下，第k个网络模型在网络参数/>的作用下对于输入数据的预测值，y_i即为输入数据x_i的真实标签值；KL(·)代表衡量差异大小的Kullback-Leibler Divergence函数，具体如下：

KL(p||q)＝E[log p(x)-log q(x)]。

作为本发明的进一步限定，步骤2-2)无标记数据的处理方法，具体为：采用多个受监管网络模型和一个监管网络模型，配合扰动噪声计算每个受监管网络模型和监管网络模型之间的预测误差，累加全体预测误差得到无标记数据的一致性误差损失。

作为本发明的进一步限定，对于无标记数据的处理方法具体为：

对于单个无标记的输入图片，给其添加一个噪声，然后将添加噪声后的图片数据通过一个受监管网络模型进行训练得到预测值，然后同样对于该无标记输入图片，添加一个不同的新噪声，将添加了新噪声的图片数据通过另一个受监管网络模型进行训练得到预测值；重复上述步骤直到所有的受监管网络模型和监管网络模型都对该无标记输入图片进行了预测为止；然后分别计算每个受监管网络模型的预测值和监管网络模型的预测值之间的误差损失，取其均值作为该无标记输入图片的一致性误差，无标记误差可以描述如下：

其中，代表对于输入的无标记数据x_j(j∈l+1，...，n)，在第t次训练时第k个受监管网络模型和监管网络模型之间的预测误差；/>代表第k个受监管网络模型对于输入数据x_j在噪声干扰η^k以及网络参数/>的共同作用下的预测值，f(x_j；η′，θ′_t)代表监管网络模型对于输入数据x_j在噪声干扰η′以及网络参数θ′_t的共同作用下的预测值。

作为本发明的进一步限定，步骤3的参数更新方法，具体为：根据有标记数据和无标记数据误差值总和，利用反向传播优化中随机梯度下降算法来更新受监管模型的网络参数，监管模型的网络参数更新是由受监管网络模型的参数和上一批次中监管网络模型的参数共同作用，可以描述如下：

其中，θ′_t是第t次更新时监管网络模型的参数，θ′_t-1是第t-1次更新时监管网络模型的参数值，是第t次更新时第k个受监管网络模型采用随机梯度下降算法更新得到的网络的参数，w^k(t)是衡量每个受监管网络模型性能优异的决策函数，描述如下：

其中表示在第t次更新时，有标记数据和第k个受监管网络模型预测值之间的差异，用来衡量受监管模型参数值的好坏，描述如下：

其中代表第t次训练时，第k个受监管网络模型对于输入数据x_i在噪声干扰η^k以及网络参数/>共同作用下的预测值，y_i是有标记数据x_i的真实标记值；KL(·)代表衡量差异大小的Kullback-Leibler Divergence函数。

与现有技术相比，本发明的有益效果在于：

本发明采用多个受监管模型，监管模型的参数更新不仅仅受限于一个受监管模型的参数影响，而是多个被监管模型参数的共同作用，当某个受监管模型陷入局部最优解时，监管模型能真正的起到管理作用，可以通过和受监管模型的群体一致性损失误差来引导陷入局部最优的模型回归到正确的方向，对真实世界的图片实现高效且准确的分类，具体表现为：

1)将有标记数据和无标记数据分开讨论，在模型参数不准确的前期，主要由标记数据作指导引导模型前进方向，避免模型陷入局部最优无法跳出，加速网络模型的收敛速度，减少计算时间和计算资源的消耗；

2)对无标记数据，计算每个受监管模型和监管模型之间的群体一致性损失，多次计算避免偶然情况，损失函数设计为F-范数的平方，更加简洁直观的反应每个受监管模型的准确性；

3)在监管模型的参数更新上，除了受上一批次的监管模型参数影响外，还会综合当前批次所有的受监管模型的参数，以权衡评价因子w^k(t)为指导计算每个受监管模型的贡献比例，避免单个模型易于陷入局部最优的缺陷，同时多个模型共同作用加速整体的收敛速度，节约计算资源；

4)每个受监管模型的噪声影响都不相同，模拟了显示世界中不同的种类和原因的情况，更加贴合与现实世界的图片分类情形，且易于移植到不同的数据集，对噪声的鲁棒性较强。

本发明采用群体优化策略，将标记数据和无标记数据分开讨论，对于无标记数据的处理采用多次加不同噪声训练模型一致化输出结果，增强模型的鲁棒性；本发明在参数优化方面结合群体优化和时序优化的思想，同时采用上一批次的参数和本次受监管群组的参数，共同作用；同时进一步加强监管模型对受监管模型的反馈能力，增强整体模型的鲁棒性和准确率。

附图说明

图1为本发明基于群体智能的半监督深度网络图片分类方法的流程图。

图2为本发明基于群体智能的半监督深度网络图片分类方法的核心算法的结构示意图。

图3为本发明基于群体智能的半监督深度网络图片分类方法的监管网络模型和受监管网络模型的网络结构。

具体实施方式

下面结合具体实施方式对本发明做进一步说明。

本发明采用半监督深度神经网络分类方法和群体优化粒子群优化算法对数字图片数据进行识别和分类；克服了全监督方法需求标记信息较多，物资耗费庞大的缺陷，同时也克服了一般半监督方法对无标记数据无较好反馈导致分类准确率较低的缺陷；本发明采用群体优化中粒子群优化算法，采用多个受监管模型进行不同的初始化和添加噪声，充分探究数据之间的相关性，提高算法的准确性；本发明中间过程的图像化更有助于深度学习工作者的理解和分析；同时本发明的参数优化过程采用时序相关算法，保留了每个时期数据的关系，有助于进一步探究数据之间的深层联系，进一步提高分类准确率。

如图1-3所示的一种基于群体智能的半监督深度网络图片分类方法，包括以下步骤。

步骤1)对数字图片数据集进行处理，这个步骤包括两个阶段。

1-1)将数据集划分成两个互不相交的子集，训练集和测试集，其中训练集中包含有标记数据和无标记数据，测试集仅包含无标记数据。

1-2)对训练和测试数据进行处理，包括归一化和中心化。

步骤2)使用训练数据计算预测误差，这个步骤包括两个部分。

2-1)对于有标记信息的数据来说，计算每个受监管模型的预测值和真实标签值之间混合KL散度误差；具体为：

KL(p||q)＝E[log p(x)-log q(x)]。

区别于传统方法仅使用平方欧式距离函数这种“硬”基准或仅使用Kullback-Leibler Divergence函数这种“软”基准，混合了两种方法得到了一个较为“中和”的基准，该基准使得模型的参数优化在整个训练过程中趋于平缓，波动较小，易于收敛。

2-2)对于无标记信息的数据来说，首先计算每个受监管模型的预测值然后计算监管模型关于同一个数据的预测值f(x_j；η′，θ′_t)，将每个受监管模型的预测值和监管模型的预测值进行对比计算误差，然后累加这些误差作为无标记信息数据的群体一致性误差；具体为：

相较于传统方法中仅使用一个受监管模型使得最终结果会收敛到局部最优点，我们使用多个受监管模型，然后将每个模型看作是一个个智能群体，群体之间相互竞争、相互进化，使得最终结果收敛到全局最优点，进一步精进模型的分类准确性。

步骤3)使用误差值更新网络参数。

对于网络参数的更新分为两个方面：受监管模型的参数更新和监管模型的参数更新。

受监管模型参数的更新和普通网络的更新方式相同，计算每个批次数据的误差总和，利用反向传播优化中随机梯度下降算法来更新；

监管模型的网络参数更新是由受监管网络模型的参数和上一批次中监管网络模型的参数共同作用，可以描述如下：

步骤4)应用训练好的监管模型对测试数据进行分类。

在测试阶段，我们使用监管模型预测测试集数据的类别，具体来说：通过最后一层的SoftMax分类器将经过监管网络模型计算得到的向量归一到0～9十类,取该向量中最大分量值所在的列标作为该图片的类别标签。SoftMax分类器对输入向量a的操作可以用如下公式描述：

其中，a_i为向量a的第i个分量。

最后对比该输入图片数据的预测标签和真实标签值是否一致，计数不一致图片的数量除以测试数据总数得到最终的测试数据的错误率。

下面结合具体实例对本发明效果做进一步验证。

如表1所示，表中展示了本发明(英文缩写为PSO-MT)在街道门牌号码数字图片数据集(英文缩写为SVHN)上，按照不同标记率的分类效果。表格上面5种算法数据来自于相关作者文章，表格下面的算法数据来自于我们的实现。GAN算法是采用未标记的做法，π-model、Temporal Ensemble、VAT以及MT算法都是采用一致性做法。同时MT算法是采用教师-学生模型得到的，由此我们可以看出监管模型的好处。但是该算法只有一个受监管模型和一个监管模型，难以实现两者之间的信息环流。从表格数据可以看出无论标签数据的多少，本发明的效果都是最好的，由此可以看出本发明对图片分类任务的有效性。

表1:6种算法在街道门牌号码数字图片数据集上的分类效果

本发明并不局限于上述实施例，在本发明公开的技术方案的基础上，本领域的技术人员根据所公开的技术内容，不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形，这些替换和变形均在本发明的保护范围内。

Claims

1.一种基于群体智能的半监督深度网络图片分类方法，其特征在于，包括以下步骤：

步骤2)使用训练数据集计算网络损失，包括；

步骤2-1)对于有标记数据，计算网络的预测值和真实标签值之间的混合KL散度损失，步骤2-1)有标记数据的处理方法采用的函数是KL散度函数和平方欧式距离函数的线性组合，使用多个受监管网络模型和一个监管网络模型全部对有标记数据进行预测，然后累加各自的预测值和真实标签之间的误差，最后取平均作为该有标记数据的误差，对于有标记数据的处理方法具体为：

对于有标记信息的输入图片，为该图片添加噪声，然后将添加了噪声的图片数据输入到受监管网络模型和监管网络模型中，得到各自的预测值，计算预测值和真实标签值之间误差作为该输入图片的有标记误差；有标记误差描述如下：

其中，代表有标记输入图片x_i，i∈1,…,l，在第t次训练时，第k个网络模型下的有标记误差；/>代表在噪声η^k的干扰下，第k个网络模型在网络参数/>的作用下对于输入数据的预测值，y_i即为输入数据x_i的真实标签值；KL(·)代表衡量差异大小的Kullback-Leibler Divergence函数，具体如下：

KL(p||q)＝E[logp(x)-logq(x)]；

步骤2-2)对于无标记数据，计算多个网络模型预测值之间的群体一致性损失，步骤2-2)无标记数据的处理方法，具体为：采用多个受监管网络模型和一个监管网络模型，配合扰动噪声计算每个受监管网络模型和监管网络模型之间的预测误差，累加全体预测误差得到无标记数据的一致性误差损失，对于无标记数据的处理方法具体为：

对于单个无标记的输入图片，给其添加一个噪声，然后将添加噪声后的图片数据通过一个受监管网络模型进行训练得到预测值，然后同样对于该无标记输入图片，添加一个不同的新噪声，将添加了新噪声的图片数据通过另一个受监管网络模型进行训练得到预测值；重复上述步骤直到所有的受监管网络模型和监管网络模型都对该无标记输入图片进行了预测为止；然后分别计算每个受监管网络模型的预测值和监管网络模型的预测值之间的误差损失，取其均值作为该无标记输入图片的一致性误差，无标记误差描述如下：

其中，代表对于输入的无标记数据x_j，j∈l+1,…,n,在第t次训练时第k个受监管网络模型和监管网络模型之间的预测误差；/>代表第k个受监管网络模型对于输入数据x_j在噪声干扰η^k以及网络参数/>的共同作用下的预测值，f(x_j；η',θ'_t)代表监管网络模型对于输入数据x_j在噪声干扰η'以及网络参数θ'_t的共同作用下的预测值；

步骤4)应用训练好的深度网络对测试数据集进行分类。

2.根据权利要求1所述的一种基于群体智能的半监督深度网络图片分类方法，其特征在于，步骤3的参数更新方法，具体为：根据有标记数据和无标记数据误差值总和，利用反向传播优化中随机梯度下降算法来更新受监管模型的网络参数，监管模型的网络参数更新是由受监管网络模型的参数和上一批次中监管网络模型的参数共同作用，描述如下：

其中，θ'_t是第t次更新时监管网络模型的参数，θ'_t-1是第t-1次更新时监管网络模型的参数值，是第t次更新时第k个受监管网络模型采用随机梯度下降算法更新得到的网络的参数，w^k(t)是衡量每个受监管网络模型性能优异的决策函数，描述如下：