CN113743474B

CN113743474B - 基于协同半监督卷积神经网络的数字图片分类方法与系统

Info

Publication number: CN113743474B
Application number: CN202110911462.9A
Authority: CN
Inventors: 徐晓华; 李好; 何萍; 仁祥
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-09-26
Anticipated expiration: 2041-08-10
Also published as: CN113743474A

Abstract

本发明公开了一种基于协同半监督卷积神经网络的数字图片分类方法与系统，首先将原始的数字图片数据集分为有标记数据和无标记数据，然后来训练模型的网络参数，并通过在学生‑教师模型的基础上添加一个独立的学生模型来参与教师模型的参数更新过程以弱化单个学生和教师的强耦合性，将数据输入到两个学生模型中根据不同的类别输出标签，构造损失函数，然后通过学生网络参数更新计算教师模型的网络参数，增加学生和教师模型的一致性损失，来更新学生模型的权重，并引入评价标准来调整两个学生模型对教师模型参数的贡献比重。本发明可解决数字图像数据进行图片分类时因为数据耦合性高的原因而影响最后准确性的问题，提高数字图像数据分类的准确性。

Description

基于协同半监督卷积神经网络的数字图片分类方法与系统

技术领域

本发明属于应用在图像处理中的对于数字图片数据集的分类分析，特别涉及一种基于协同的半监督卷积神经网络的分类方法与系统。

背景技术

数字图片分类问题一直是研究的热点和难点，现在也有一些传统的方法如非负矩阵分解等，但都在小数据集上表现良好，在大数据集上表现差强人意，其原因是由于图片数据维度的提升是的传统方法难以有效的提取相关特征，直到卷积神经的出现，其独特的卷积操作可以有效的提取图像数据的空间结构信息，目前图像处理数字识别中，全监督的深度神经网络表现优异，但是训练一个较好的深度网络所需的标记数据也是庞大且代价高昂的，而半监督算法克服了上述缺点，所需的标记数据相对于全监督方法大大减少，以有标记数据为指导来探究无标记数据之间的联系，从而提高分类的准确率。

半监督分类算法的核心难点在于如何有效地使用无标记数据。现在结合卷积神经网络的半监督分类算法大致可以分为两类：伪标记做法和一致性原则做法。一致性做法具体来说也可以分为两类：一类是给输入添加噪声。对于同一个输入，添加不同的噪声后，模型对于输入数据的预测应该相近或相同，因此根据不同添加噪声的方法，会产生不同的模型。另一类是对模型添加噪声，更具体一点就是相同的网络结构，不同的网络参数。这一类中的代表就是均值教师算法。均值教师算法存在一定的缺陷，随机权重方法在反向传播完成后，再对参数进行随机平均，使得网络参数和原始不同，进而使得神经网络对于图片的输出分类概率有所变化，模糊了输出分类的结果。

在本发明作出之前，目前半监督神经网络做数字图片识别都是采用一个无噪声干扰的数据，而且依赖的基本假设没有充分考虑噪声干扰下无标签数据分布的不确定性以及复杂性，在实际的应用中通常难以得到无噪声的数据，训练数据是随机选取的，即有类的标签样例和无类标签的样例独立分布，无类标签的样例可能来自于有类标签的样例分布不同情景，并且带有噪声，对于数据的准确性计算不能很好地把握。

发明内容

发明目的：本发明的目的在于克服上述缺陷，设计一种基于协同半监督卷积神经网络的数字图片分类方法与系统，以解决数字图像数据进行图片分类时因为数据耦合性高的原因而影响最后准确性的问题，提高数字图像数据分类的准确性。

技术方案：基于协同半监督卷积神经网络的数字图片分类方法，包括如下步骤：

(1)将原始的数字图片数据集进行部分标记，分有标记数据和无标记数据，然后选取一部分作为训练数据集，另一部分作为测试数据集，并对数字图片数据集进行预处理，包括数据增强和归一化处理；

(2)构建包括第一学生网络模型s1、第二学生网络模型s2和教师网络模型t的半监督图片分类框架，三个模型具有相同的卷积神经网络结构，三个模型所对应的网络参数分别记为θ_t和θ_s1、θ_s2；

(3)使用训练数据集计算网络在传播过程中的损失：

(3-1)对于有标记数据，把数据导入到第一学生网络模型s1、第二学生网络模型s2中进行训练，计算学生网络模型对于图像数据的预测输出和其真实标签之间的平方欧氏误差；

(3-2)对于无标记数据，将教师网络模型对于无标记数据预测标签作为其标签，计算第一学生网络模型s1、第二学生网络模型2对无标记数据在不同噪声作用下的KL散度损失；其中教师网络模型的参数θ_t由两个学生网络模型的参数θ_s1、θ_s2及各自对标记数据的分类损失确定；

(4)使用有标记的数据的欧氏误差、无标记数据的混合KL散度损失和数据一致性损失的总和来通过反向传播算法优化学生网络模型的权重参数；

(5)使用两个学生模型的参数值来更新教师模型，使用教师模型对数字图片进行分类，获得分类结果。

进一步地，步骤(1)中对原始数字图片的训练数据集和测试数据集进行预处理，包括数据增强和归一化处理，对训练数据集中图片进行翻转、旋转一定的角度、随机白化操作扩充训练数据集。

进一步第，步骤(3-1)中有标记数据的处理方法采用的是计算学生网络模型对于图像数据的预测输出和其真实标签之间的平方欧氏误差，描述如下：

其中分别代表两个学生网络模型对标记数据的分类损失，f(x_i；θ_s1,ξ_s1,i)代表标记数据x_i在噪声ξ_s1,i的作用下经过第一学生网络模型参数θ_s1之后的预测向量，f(x_i；θ_s2，ξ_s2，i)代表标记数据x_i在噪声ξ_s2，i的作用下经过第二学生网络模型参数θ_s2之后的预测向量，y_i则是数据x_i的真实标签，取p等于2，l₂等于1时就是平方欧氏误差。

进一步地，步骤(3-2)无标记数据的处理方法，具体为：采用均值教师算法的思想，将教师模型对于无标记数据的预测标签作为其标签，然后采用和标记数据一样的做法计算KL散度，描述如下：

其中分别代表着两个学生网络模型在无标记数据x_j的一致性损失，f(x_j；θ_s1，ξ_s1，j)为无标记数据x_j在噪声ξ_s1,j的作用下，经过第一学生网络模型s1计算后的预测向量分布，f(x_j；θ_s2,ξ_s2,j)为无标记数据x_j在噪声ξ_s2,j的作用下，经过第二学生网络模型s2计算后的预测向量分布；f(x_j；θ_t,ξ_t,j)为无标记数据x_j在噪声ξ_t,j的作用下，经过教师网络模型计算后的预测向量分布。

同时为了减少过拟合现象，在总损失上添加了L₁正则化项，描述如下：

对于第一学生网络模型s1来说，总的损失函数为

对于第二学生网络模型s2来说，总的损失函数为

其中β_s1、β_s2为正则化系数；λ(h)为和训练次数h相关的参数，用于控制一致性损失在总损失中的比重，λ(h)是参数随着训练批次h的变化的，其中λ(h)＝η×w(h)，其中w(h)是随训练次数变化的一致性权重。随着训练的进行，一致性权重w(h)也在逐步加重，前期一致性权重较小，分类损失的比重较大，有助于网络模型收敛，随着训练加深，一致性权重逐步加重，使得两个模型之间的区别不至于太大，有助于模型的稳定。η表示对算法准确率影响的参数。

进一步地，步骤(4)的参数更新方法，具体为：均值教师算法的核心在于使用教师模型对于无标记数据的预测值作为其真实标签指导模型的训练方向，基于协同双重学生算法通过在学生-教师模型的基础上添加一个独立的学生模型s2能在一定程度上减少教师模型和学生模型之间的耦合性，同时使用两个学生模型参数值来更新教师模型的网络参数，训练过程是变化的，教师模型的参数更新描述如下：

其中α是调节教师模型参数中上一批次的数贡献和当前批次中学生模型参数贡献的比重，ω_s1和ω_s2用于权衡两个模型参数贡献的占比，h是表示训练批次数。ω_s1和ω_s2用于权衡两个模型参数贡献的占比，计算方法描述如下：

使用标记数据的预测误差而不使用预测准确率或者总损失作为标准是因为对于预测准确率来说，两个模型之间的差异不稳定，有时两者之间差距很大，有时两者之间差距很小，使得模型难以收敛。不使用总损失作为权重ω_s1和ω_s2的指标是因为总损失中包含无标记数据的一致性误差，这个误差并不能用来衡量模型参数的优劣，使用标记数据的预测误差作为权重的衡量是最佳的选择。

进一步地，两个学生网络模型对于图像数据的处理方式是相同的，由于初始时，随机初始化两个模型使得两个参数θ_s1和θ_s2并不相同，从而导致总损失也不相同，保证了两个模型之间的独立性。

基于相同的发明构思，本发明提供的一种基于协同半监督卷积神经网络的数字图片分类系统，包括：

预处理模块，用于将原始的数字图片数据集进行部分标记，分有标记数据和无标记数据，然后选取一部分作为训练数据集，另一部分作为测试数据集，并对数字图片数据集进行预处理，包括数据增强和归一化处理；

网络模型构建模块，用于构建包括第一学生网络模型s1、第二学生网络模型s2和教师网络模型t的半监督图片分类框架，三个模型具有相同的卷积神经网络结构，三个模型所对应的网络参数分别记为θ_t和θ_s1、θ_s2；

损失计算模块，用于使用训练数据集计算网络在传播过程中的损失：对于有标记数据，把数据导入到第一学生网络模型s1、第二学生网络模型s2中进行训练，计算学生网络模型对于图像数据的预测输出和其真实标签之间的平方欧氏误差；对于无标记数据，将教师网络模型对于无标记数据预测标签作为其标签，计算第一学生网络模型s1、第二学生网络模型2对无标记数据在不同噪声作用下的KL散度损失；其中教师网络模型的参数θ_t由两个学生网络模型的参数θ_s1、θ_s2及各自对标记数据的分类损失确定；

权重优化模块，用于使用有标记的数据的欧氏误差、无标记数据的混合KL散度损失和数据一致性损失的总和来通过反向传播算法优化学生网络模型的权重参数；

以及分类模块，用于使用两个学生网络模型的参数值来更新教师网络模型，使用教师模型对数字图片进行分类，获得分类结果。

基于相同的发明构思，本发明提供的一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于协同半监督卷积神经网络的数字图片分类方法。

有益效果：本发明的优点和效果在于克服耦合性较高的缺陷，基于参数的双重学生模型算法添加一个新的超参数来调节对于教师参数的贡献，基于协同的双重学生算法使用两个独立的神经网络，采用独立的误差反向传播来更新各自的参数，对真实世界的图片实现高效且准确的分类，具体表现为：

(1)将有标记数据和无标记数据分开讨论，在模型参数不准确的前期，主要由标记数据作指导引导模型前进方向，计算学生网络模型对于图像数据的预测输出和其真实标签之间的平方欧式误差，对于不同的网络模型设置不同的参数，这样可以使得在训练前期的一致性误差较小，有利于模型的快速收敛。

(2)对无标记数据，计算学生模型和教师模型的一致性损失，多次将教师模型的预测值作为其标签，然后计算模型的KL散度，更加简洁直观的反应每个模型的准确性。

本发明采用基于协同半监督卷积神经网络算法，将标记数据和无标记数据分开讨论，对于无标记数据的处理采用多次加不同噪声训练模型一致化输出结果，增强模型的鲁棒性。本发明在图像分类采用半监督和神经网络结合的方法，同时添加一个独立的、新的学生模型，并将其参数添加到教师模型中来改善原始均值教师算法因耦合程度高而导致的问题，采用衡量两个模型参数贡献量的固定超参数改为随着预测损失变化而变化的自适应值，增强整体算法的准确性。

附图说明

图1为本发明的方法总体流程示意图。从整体介绍本发明的执行流程，由数据分割、算法模型误差计算、算法模型参数优化更新、测试数据分类四部分组成。

图2为本发明的算法详细结构示意图。详细介绍本发明的核心部分，即模型误差计算以及模型参数优化。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案做详细说明。

本发明的主要技术思路是：本发明采用半监督深度神经网络分类方法和基于协同的双重学生算法对数字图片数据进行识别和分类。克服了全监督方法需求标记信息较多，物资耗费庞大的缺陷，同时也克服了一般半监督方法对无标记数据无较好反馈导致分类准确率较低的缺陷。本发明采用基于协同半监督卷积神经网络算法，采用两个学生模型和教师模型进行不同的初始化和添加噪声，充分研究数据之间的关联，提高算法的精准度。

如图1所示，本发明实施例公开的一种基于协同半监督卷积神经网络的数字图片分类方法，主要步骤如下：

一、对原始的数字图片数据集进行处理，主要包括：

1、将数据集划分成训练数据集和测试数据集，其中训练数据集中包含有少量的标记数据和无标记数据，测试数据集仅包含无标记数据。

2、对训练和测试数据进行处理，包括数据的增强，归一化处理。

3、对训练数据进行翻转、旋转一定的角度、随机白化操作以扩充训练数据集。

二、构建包括两个学生网络模型s1、s2和一个教师网络模型t的半监督图片分类框架：三个模型具有相同的卷积神经网络结构，三个模型所对应的网络参数分别记为θ_t和θ_s1、θ_s2。

三、使用训练数据集计算网络的损失，这个步骤包括两个部分：

1、对于有标记的数据，我们根据学生网络模型对于图片数据的预测输出和其真实标签之间的平方欧式误差来表示其损失函数，随着训练进行，能够直观的看出一致性权重是在逐步加重，这样做的好处在于前期一致性权重较小，分类损失比重较大，有助于网络模型收敛，随着训练加深，一致性加深权重逐步加重，这样模型之前的差别不会太大，有助于模型的稳定性增强。两个学生网络模型在标记数据上的分类损失具体描述为：

2、对于无标记的数据，我们采用KL散度误差，f(x_j；θ_s1，ξ_s1,j)、f(x_j；θ_s2,ξ_s2,j)在无标记的数据的噪声作用下，经过两个学生网络模型计算后预测向量分布；f(x_j；θ_t,ξ_t,j)在无标记数据的噪声作用下，经过教师网络模型计算后的预测向量分布。整个过程趋于平缓，波动较小，易于收敛。无标记数据的处理方法，具体为：采用均值教师算法的思想，将教师网络模型对于无标记数据的预测标签作为其标签，然后采用和标记数据一样的做法计算KL散度，描述如下：

其中分别代表着两个学生网络模型在无标记数据x_j的一致性损失，f(x_j；θ_s1,ξ_s1,j)为无标记数据x_j在噪声ξ_s1,j的作用下，经过第一学生网络模型s1计算后的预测向量分布，f(x_j；θ_s2,ξ_s2,j)为无标记数据x_j在噪声ξ_s2,j的作用下，经过第二学生网络模型s2计算后的预测向量分布；f(x_j；θ_t,ξ_t,j)为无标记数据x_j在噪声ξ_t,j的作用下，经过教师网络模型t计算后的预测向量分布；同时为了减少过拟合现象，在总损失上添加了L₁正则化项，描述如下：

对于第一学生网络模型s1来说，总的损失函数为

对于第二学生网络模型s2来说，总的损失函数为

四、使用损失值来更新网络权重参数

通过反向传播得到学生网络模型的参数，使用教师网络模型对于无标记数据的预测值作为其真实标签指导模型的训练方向，但是原始的均值教师算法中，教师的网络参数是采用学生网络参数的移动均值，采用小批量随机梯度算法得到的参数值，作为迭代更新的值，为了避免高度的数据耦合性，我们通过添加一个额外的学生网络模型，同时使用两个模型参数来更新教师模型的网络参数。具体的参数更新方法为：同时使用两个学生网络模型参数值来更新教师网络模型的网络参数，教师网络模型的参数更新描述如下：

其中α是调节教师模型参数中上一批次的参数贡献和当前批次中学生模型参数贡献的比重，ω_s1和ω_s2用于权衡两个模型参数贡献的占比：

五、应用训练好的网络模型对测试数据进行分类

在最后测试阶段，我们使用训练好的教师网络模型验证测试数据集，利用在最后一层的SoftMax函数作为分类器。将经过监管网络模型计算得到向量归一到0～9十类,取该向量中最大分量值所在的列标作为该图片的类别标签。

图2展示了基于协同半监督卷积神经网络图片分类方法的核心算法的结构示意图，也就是图1中模型误差计算和模型参数优化模块的详细结构。

为证明本发明的效果，将本发明数字图像数据集上分别与现有方法进行了对比。

如表1所示，表中展示了本发明(英文缩写为DS-CT)在街道门牌号码数字图片数据集上，按照不同标记率的分类效果。在SVHN上，每个批次大小为100，每个小批量包含50个标记的样本。初始学习率为0.1，最大学习率为0.03，dropout率为0.5，L₁正则化系数为1e-4。表格上面3种算法数据来自于相关作者文章，在SVHN数据集上的实验结果，所有实验结果均为运行10次取平均所得。表中第一行，250labels、500labels、1000labels、all labels代表在半监督学习中的标记数量，即随机从训练集中选取250个图像、500个图像以及1000个图像作为标记样本，其余的作为无标记样本。表格下面两种算法数据来自于我们的实现。π-model、Temporal Ensemble、以及MT算法都是采用一致性做法。同时MT算法是采用教师-学生模型得到的。从表格数据可以看出无论标签数据的多少，本发明的效果都是最好的，由此可以看出本发明对图片分类任务的有效性。

表1:6种算法在SVHN图片数据集上的分类效果

基于相同的发明构思，本发明实施例提供的一种基于协同半监督卷积神经网络的数字图片分类系统，包括：预处理模块，用于将原始的数字图片数据集进行部分标记，分有标记数据和无标记数据，然后选取一部分作为训练数据集，另一部分作为测试数据集，并对数字图片数据集进行预处理，包括数据增强和归一化处理；网络模型构建模块，用于构建包括第一学生网络模型s1、第二学生网络模型s2和教师网络模型t的半监督图片分类框架，三个模型具有相同的卷积神经网络结构，三个模型所对应的网络参数分别记为θ_t和θ_s1、θ_s2；损失计算模块，用于使用训练数据集计算网络在传播过程中的损失：对于有标记数据，把数据导入到第一学生网络模型s1、第二学生网络模型s2中进行训练，计算学生网络模型对于图像数据的预测输出和其真实标签之间的平方欧氏误差；对于无标记数据，将教师网络模型对于无标记数据预测标签作为其标签，计算第一学生网络模型s1、第二学生网络模型2对无标记数据在不同噪声作用下的KL散度损失；其中教师网络模型的参数θ_t由两个学生网络模型的参数θ_s1、θ_s2及各自对标记数据的分类损失确定；权重优化模块，用于使用有标记的数据的欧氏误差、无标记数据的混合KL散度损失和数据一致性损失的总和来通过反向传播算法优化学生网络模型的权重参数；以及分类模块，用于使用两个学生网络模型的参数值来更新教师网络模型，使用教师模型对数字图片进行分类，获得分类结果。各模块具体实现细节参考上述方法实施例，此处不再赘述。

基于相同的发明构思，本发明实施例提供的一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现所述的基于协同半监督卷积神经网络的数字图片分类方法。

Claims

1.一种基于协同半监督卷积神经网络的数字图片分类方法，其特征在于，包括如下步骤：

(3)使用训练数据集计算网络在传播过程中的损失：

(5)使用两个学生网络模型的参数值来更新教师网络模型，使用教师模型对数字图片进行分类，获得分类结果。

2.根据权利要求1所述的基于协同半监督卷积神经网络的数字图片分类方法，其特征在于，步骤(1)中对原始数字图片的训练数据集和测试数据集进行预处理，包括数据增强和归一化处理，对训练数据集中图片进行翻转、旋转一定的角度、随机白化操作扩充训练数据集。

3.根据权利要求1所述的基于协同半监督卷积神经网络的数字图片分类方法，其特征在于，步骤(3-1)中有标记数据的处理方法采用的是计算学生网络模型对于图像数据的预测输出和其真实标签之间的平方欧氏误差，描述如下：

其中分别代表两个学生网络模型对标记数据的分类损失，f(x_i；θ_s1,ξ_s1,i)代表标记数据x_i在噪声ξ_s1，i的作用下经过第一学生网络模型参数θ_s1之后的预测向量，f(x_i；θ_s2，ξ_s2，i)代表标记数据x_i在噪声ξ_s2，i的作用下经过第二学生网络模型参数θ_s2之后的预测向量，y_i则是数据x_i的真实标签，取p等于2，l₂等于1时就是平方欧氏误差。

4.根据权利要求3所述的基于协同半监督卷积神经网络的数字图片分类方法，其特征在于，步骤(3-2)无标记数据的处理方法，具体为：采用均值教师算法的思想，将教师网络模型对于无标记数据的预测标签作为其标签，然后采用和标记数据一样的做法计算KL散度，描述如下：

其中分别代表着两个学生网络模型在无标记数据x_j的一致性损失，f(x_j；θ_s1，ξ_s1，j)为无标记数据x_j在噪声ξ_s1，j的作用下，经过第一学生网络模型s1计算后的预测向量分布，f(x_j；θ_s2，ξ_s2，j)为无标记数据x_j在噪声ξ_s2，j的作用下，经过第二学生网络模型s2计算后的预测向量分布；f(x_j；θ_t，ξ_t，j)为无标记数据x_j在噪声ξ_t，j的作用下，经过教师网络模型t计算后的预测向量分布；同时为了减少过拟合现象，在总损失上添加了L₁正则化项，描述如下：

对于第一学生网络模型s1来说，总的损失函数为

对于第二学生网络模型s2来说，总的损失函数为

其中β_s1、β_s2为正则化系数；λ(h)为和训练次数h相关的参数，用于控制一致性损失在总损失中的比重，λ(h)是参数随着训练批次h的变化的，其中λ(h)＝η×w(h)，其中w(h)是随训练次数变化的一致性权重，η表示对算法准确率影响的参数。

5.根据权利要求1所述的基于协同半监督卷积神经网络的数字图片分类方法，其特征在于，步骤(4)的参数更新方法，具体为：同时使用两个学生网络模型参数值来更新教师网络模型的网络参数，教师网络模型的参数更新描述如下：

其中α是调节教师模型参数中上一批次的参数贡献和当前批次中学生模型参数贡献的比重，ω_s1和ω_s2用于权衡两个模型参数贡献的占比，h是表示训练批次数。

6.根据权利要求5所述的基于协同半监督卷积神经网络的数字图片分类方法，其特征在于，

其中分别代表两个学生网络模型对标记数据的分类损失。

7.根据权利要求1所述的基于协同半监督卷积神经网络的数字图片分类方法，其特征在于，两个学生网络模型对于图像数据的处理方式是相同的，初始时，随机初始化两个学生网络模型使得两个模型的参数θ_s1和θ_s2不相同，保证两个模型之间的独立性。

8.一种基于协同半监督卷积神经网络的数字图片分类系统，其特征在于，包括：

9.根据权利要求8所述的基于协同半监督卷积神经网络的数字图片分类系统，其特征在于，同时使用两个学生网络模型参数值来更新教师网络模型的网络参数，教师网络模型的参数更新描述如下：

10.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于协同半监督卷积神经网络的数字图片分类方法。