CN112801153B

CN112801153B - 一种嵌入lbp特征的图的半监督图像分类方法及系统

Info

Publication number: CN112801153B
Application number: CN202110067281.2A
Authority: CN
Inventors: 卢官明; 宋统帅; 卢峻禾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2022-08-26
Anticipated expiration: 2041-01-19
Also published as: CN112801153A

Abstract

本发明公开了一种嵌入局部二值模式(LBP)特征的图的半监督图像分类方法及系统。该方法首先建立包含有标签样本和无标签样本的图像库；然后构建一种卷积神经网络模型，并利用图像库中的有标签样本训练出初始模型；进而将有标签样本与无标签样本一起输入初始模型，提取样本的特征向量，以此特征向量构建一个邻接矩阵W_cnn；接着使用输入样本图像的LBP特征再构建一个邻接矩阵W_lbp；将W_cnn与W_lbp相加得到新的邻接矩阵W，根据W构建一个图，通过标签传播得到无标签样本的伪标签；最后基于初始模型使用图像库中所有样本及其标签训练出最终的模型，用于图像分类。本发明通过引入图像的LBP特征来构建图，使得通过标签传播得到的标签的置信度更高，有利于提高图像分类的准确率。

Description

一种嵌入LBP特征的图的半监督图像分类方法及系统

技术领域

本发明涉及一种嵌入局部二值模式(LBP)特征的图的半监督图像分类方法，属于图像处理与模式识别领域。

背景技术

在大数据的时代背景下，从现实世界中获取的数据通常数量巨大，结构复杂，而且其中绝大多数的数据都是无标签的(unlabeled)。这里的“标签”，是指样本对应的模型输出，在分类问题中是样本的所属类别。传统的机器学习方法主要是监督学习(supervisedlearning)，利用有标签的(labeled)样本来训练分类器，而在实际问题中，大多数的情况是数据只有小部分有标签。例如图像分类问题，除了已有的有标签数据，网络上还会时刻产生新的但没有标签的数据。为了利用大量的无标签数据，半监督学习应运而生。半监督学习结合了监督学习与无监督学习(unsupervised learning)，让学习器不依赖外界交互、自动地利用无标签样本来提升学习性能，使得分类准确率更加高，同时这也意味着半监督学习只需要少量有标签样本就可以达到监督学习的效果。要利用无标签样本，必然要做一些将无标签样本所揭示的数据分布信息与类别标签相联系的假设。半监督学习中最常见的是“聚类假设”(cluster assumption)，即假设数据存在簇结构，同一个簇的样本属于同一个类别。另一种常见的假设是“流形假设”(manifold assumption)，即假设数据分布在一个流形结构上，临近的样本拥有相似的输出值。“临近”程度通常用相似程度刻画。事实上无论是聚类假设还是流形假设，本质上都是“相似的样本拥有相似的输出”。

深度学习为计算机视觉任务提供了很多高效的模型，但是这些模型往往需要大量的有标签样本才能训练出较好的特征提取器与分类器，所以视觉数据的需求量是非常大的，但是有标签数据仍然只占据非常小的一部分。一方面标签所有的数据是很不现实的，另一方面，人为的标签并不绝对的准确。例如，在进行计算机辅助医学影像分析时，可以从医院获得大量医学影像，但是希望医学专家把影像中的病灶全部都标识出来是不现实的，此外专业性较强的标签若使用非专业人员标注的话则会导致标签错误，这对监督学习将会产生巨大的负面影响。事实上，无标签样本大量存在且价格低廉，如何利用无标签样本辅助学习是非常现实且有价值的问题。例如在进行网页推荐时，需要请用户标签出感兴趣的网页，很少有用户愿意花大量时间来提供标签，因此有标签样本少，但因特网上存在无数网页可以作为无标签样本来使用。显然，如果只使用少量有标签样本，则利用其训练的模型往往泛化性能较差；另一方面，抛弃大量的无标签样本是对资源的极大浪费。在这种情况下，半监督学习对解决此类问题发挥了重要作用。

基于图的半监督学习近年来受到越来越多的关注，这种方法又称为标签传播(label propagation)。标签传播基于数学的图论与矩阵运算，间接地使用流形假设，让标签从已标签样本扩散到无标签样本。一方面，它与深度学习结合，提高了图像特征提取的质量，另一方面，在小样本情况下规避了深度学习的不利局面。在与其他半监督学习算法结合的情况下，标签传播可以获得更好的结果。因此，近年来基于图的半监督学习已成为机器学习领域的一个热门方向。

发明内容

发明目的：本发明目的在于提供一种嵌入LBP特征的图的半监督图像分类方法及系统，通过引入图像的LBP特征来构建图，使得通过标签传播得到的标签的置信度更高，有利于提高图像分类的准确率。

技术方案：为实现上述发明目的，本发明采用以下技术方案：

一种嵌入LBP特征的图的半监督图像分类方法，该方法包括以下步骤：

(1)建立包含有标签样本和无标签样本的图像库；

(2)构建用于图像分类的卷积神经网络模型，并使用图像库中的有标签样本先训练出初始模型；

(3)将有标签样本与无标签样本一起输入初始模型，提取样本的特征向量，根据特征向量来构建邻接矩阵W_cnn；

(4)使用样本图像的LBP特征构建邻接矩阵W_lbp；

(5)将W_cnn与W_lbp相加得到新的邻接矩阵W，基于所述的邻接矩阵W构建一个图，图的结点集为输入的图像样本，图的边集为所述的邻接矩阵W，通过标签传播得到输入样本中无标签样本的伪标签；

(6)基于初始模型使用图像库中所有样本及其标签训练出最终的模型，用于图像分类。

在具体实施时，所述步骤(2)中的卷积神经网络模型可采用VGG-19、Resnet-18或Densenet-121网络模型。

作为优选，所述步骤(3)中根据提取的样本的特征向量构建大小为n×n邻接矩阵W_cnn，其中n为训练样本总数，W_cnn中第i行第j列的元素为w_ij＝dist(v_i,v_j)，

其中，v_i为第i个样本的特征向量，v_j为第j个样本的特征向量，i,j∈[1,n]，(v_j)^T为v_j的转置，||·||₂为L₂范数。

作为优选，所述步骤(4)中使用样本图像的LBP特征来构建大小为n×n的邻接矩阵W_lbp，W_lbp中第i行第j列的元素w′_ij＝dist(v′_i,v′_j)，

其中，v′_i为第i个样本的LBP特征向量，v′_j为第j个样本的LBP特征向量，i,j∈[1,n]，(v′_j)^T为v′_j的转置。

作为优选，所述步骤(5)中基于邻接矩阵W构建一个图，图的结点集为训练中输入模型的图像样本，图的边集为邻接矩阵W，基于W构造一个标签传播矩阵S＝D^-1/2WD^1/2，其中，

w_ij为W第i行第j列的元素，根据传播矩阵S可以得到一个大小为n×c的矩阵

Z＝(I-αS)^-1Y

其中，α∈[0,1)，Y矩阵是一个大小为n×c的矩阵，I为单位矩阵，c为类别总数，Y中第i行第j列元素y_ij的取值为：

其中，y_i为第i个图像样本的标签对应的数字，在有标签样本中，y_i是整数且y_i∈[1,c]，Y的前l行就是l个有标签样本的标签的onehot编码，得到的Z矩阵是一个标签矩阵，每一行是对应的图像样本的标签向量。

作为优选，所述步骤(6)中的训练过程中的损失函数由两部分损失相加组成，第一部分为输入训练的样本中有标签样本的交叉熵损失；第二部分为输入训练样本中无标签样本的交叉熵损失，每个通过标签传播得到的标签都具有不确定性，第i个图像样本的标签的不确定性u_i＝1-H(z_i)/log(c)，其中z_i是标签矩阵Z的第i行分量，H(z_i)表示z_i的熵，在第二部分损失中，将计算出的损失值与u_i相乘，得到第二部分的最终损失值，损失函数为：

其中，L为交叉熵函数，y′_i为模型预测的第i个图像样本的标签向量，y_i为第i个图像样本的标签向量。

基于相同的发明构思，本发明提供的一种嵌入LBP特征的图的半监督图像分类系统，包括：

样本图像库，用于保存有标签样本和无标签样本的图像；

神经网络初步训练模块，用于使用图像库中的有标签样本训练构建的用于图像分类的卷积神经网络模型，得到初始模型；

邻接矩阵构建模块，用于将有标签样本与无标签样本一起输入初始模型，提取样本的特征向量，根据特征向量来构建邻接矩阵W_cnn；以及使用样本图像的LBP特征构建邻接矩阵W_lbp；并将W_cnn与W_lbp相加得到新的邻接矩阵W；

伪标签生成模块，用于基于所述的邻接矩阵W构建一个图，图的结点集为输入的图像样本，图的边集为所述的邻接矩阵W，通过标签传播得到输入样本中无标签样本的伪标签；

以及神经网络最终训练模块，用于基于初始模型使用图像库中所有样本及其标签训练出用于图像分类的最终模型。

基于相同的发明构思，本发明提供的一种嵌入LBP特征的图的半监督图像分类系统，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的一种嵌入LBP特征的图的半监督图像分类方法。

有益效果：与现有技术相比，本发明具有以下技术效果：

(1)本发明结合了深度神经网络与半监督学习方法。在大数据背景下，能采集到的数据大多属于无标签样本，少量属于有标签样本。相比于传统机器学习方法，深度神经网络的训练需要大量的有标签样本，而半监督学习方法解决了有标签样本不足的问题，所以结合半监督学习的深度神经网络模型有着非常好的应用前景。

(2)本发明通过引入图像的LBP特征来构建图。在已有方法中，初始模型通常直接用于图像样本特征的提取，而此时的模型只是由少数有标签样本训练而来，存在模型过拟合现象，无法对无标签样本提取有效的特征来构建图。本发明通过引入图像的LBP特征来构建图，而LBP特征具有灰度不变性、旋转不变性、计算效率高等优点，使得通过标签传播得到的标签的置信度更高，有利于提高图像分类的准确率。

(3)本发明采取了更为精确的损失函数训练神经网络模型。在以往的方法中，半监督学习的损失函数由原本有标签样本的交叉熵和无标签样本的交叉熵组成，无标签样本的交叉熵直接使用了传播算法计算出的标签。本发明考虑到所有无标签样本的传播而来的标签具有不确定性，即熵，所以在第二部分无标签样本的损失函数里乘以不确定性的因子，可以更加准确的计算损失。

附图说明

图1是本发明实施例的方法流程图。

图2是本发明实施例中的一种LBP特征提取示意图。

图3是本发明实施例中使用的cifar-10图像库部分图像。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，本发明实施例公开的一种嵌入LBP特征的图的半监督图像分类方法，具体包含以下步骤：

(1)建立包含有标签样本和无标签样本的图像库。

本实施例中使用已经采集好的公开的cifar-10图像库。在实际中也可以采用其他的图像库，或者自行构建特殊用途的图像库。本实施例的cifar-10图像库总计有60000个样本，其中50000个为训练集样本，10000个为测试集样本，样本的类别总计有10种：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车，如图3所示。所有样本的图像大小为32像素×32像素。由于这是一个全部有标签的图像库，需要去除部分训练集样本的标签作为半监督学习图像库：在每一类中，随机抽取20个样本作为有标签样本保留标签，其余样本舍弃其标签，即在后续处理中忽略其原本的标签量。最终训练集中只有200个有标签样本，其余训练集样本全部无标签。在这个过程中，20只是一个示例的量，根据实际情况也可换为其他的值，比如40或100。此外还需要将具体类别抽象为1到10数字，并进行onehot编码。

(2)构建一种卷积神经网络模型，模型中包含卷积层、池化层、全连接层等，用于图像分类，并使用图像库中的有标签样本先训练出初始模型；用于图像分类的卷积神经网络模型可以选用VGG-19、Resnet-18、Densenet-121等常用模型作为基础网络。

本实施例中采用一种较为简单的卷积神经网络模型，包括顺序连接的1个数据输入层、2个卷积层和池化层的组合模块、1个全连接层模块、1个softmax分类层；

所述的数据输入层，输入为图像样本，并对图像进行调整大小、旋转、裁剪、归一化处理；

所述的卷积层和池化层的组合模块，包含4个卷积层和1个池化层，卷积层使用ReLU激活函数进行非线性处理，选用k个大小为k₁×k₁的卷积核对输入层的输出进行卷积运算，其中，k在64，128，256，512取值，k₁在3，5，7中取值，池化层选用k₂×k₂的池化核对卷积层的输出进行下采样操作，其中k₂在2，4中取值；

所述的全连接层模块用于将卷积层和池化层的组合模块的输出转换维度，其中，全连接层的输出层神经元数量为图像样本的类别总数c，即全连接层的输出是大小为1×c的特征向量；

所述的softmax分类层，使全连接层输出的特征向量经过softmax后输出一个概率分布向量[p₁,p₂,...,p_c]，这个概率分布向量即为模型识别图像所属类别的概率。

本实施例中，数据输入层的输入为样本图像，将图像调整为224×224×3大小，并对图像进行调整大小、旋转、裁剪、归一化处理。第一个卷积层和池化层的组合模块中，4个卷积层的k分别为64、64、128、128，k₁分别为5、5、3、3，池化层中k₂为4；第二个卷积层和池化层的组合模块中，4个卷积层的k分别为256、256、512、512，k₁全部为3，池化层中k₂为2。将第二个池化层的输出展平后输入全连接层模块，全连接层的输出层神经元数量为10；用于训练初始模型的优化器参数如下：采用随机梯度下降(Stochastic Gradient Descent，SGD)优化算法，初始学习率为0.0001，训练步数180步，学习率随着步数增加而下降。损失函数收敛后，将初始模型保存。

(3)将有标签样本与无标签样本一起输入初始模型，提取样本经过平均池化后进入全连接层的特征向量，根据特征向量来构建邻接矩阵W_cnn。

所述步骤(3)中根据提取的样本的特征向量来构建大小为n×n邻接矩阵W_cnn，其中n为训练样本总数，W_cnn中第i行第j列的元素为w_ij＝dist(v_i,v_j)，

其中，v_i为第i个样本的特征向量，v_j为第j个样本的特征向量，i,j∈[1,n]，(v_i)^T为v_j的转置，||·||₂为L₂范数。本实施案例中，n为50000。

(4)使用样本图像的LBP特征构建邻接矩阵W_lbp。

所述步骤(4)中使用样本图像的LBP特征来构建大小为n×n的邻接矩阵W_lbp，LBP特征提取方法如图2所示，选定一个大小为3×3的算子遍历图像，得到LBP图，LBP图中的每个值都是二进制转十进制的LBP值，最后统计LBP图的直方图信息作为LBP特征，W_lbp中第i行第j列的元素w_ij＝dist(v′_i,v′_j)，

(5)将W_cnn与W_lbp相加得到新的邻接矩阵W，基于所述的邻接矩阵W构建一个图，图的结点集为输入的图像样本，图的边集为所述的邻接矩阵W，通过标签传播得到输入样本中无标签样本的伪标签。

所述步骤(5)中基于邻接矩阵W构建一个图，图的结点集为训练中输入模型的图像样本，图的边集为邻接矩阵W，基于W构造一个标签传播矩阵S＝D^-1/2WD^1/2，其中

Z＝(I-αS)^-1Y

其中α∈[0,1)，Y矩阵是一个大小为n×c的矩阵，I为单位矩阵，n为训练样本总数，c为类别总数，Y中第i行第j列元素y_ij的取值为

其中y_i为第i个图像样本的标签对应的数字，在有标签样本中，y_i是整数且y_i∈[1,c]，l为有标签样本的数目，Y的前l行就是l个有标签样本的标签的onehot编码，得到的Z矩阵是一个标签矩阵，每一行都是对应的输入模型的图像样本的标签向量。本实施案例中，n为50000，l为200，c为10，α为0.99。

所述步骤(5)后，所有输入模型的n个图像样本都有了临时的标签，以监督学习的方式使用这n个样本基于所述的初始模型训练出最终模型，在此实施案例中，用于训练的优化器参数如下：采用随机梯度下降(SGD)优化算法，初始学习率为0.0001，训练步数180步，批次大小为128，学习率随着步数增加而下降。每一步结束后，都执行步骤(3)与步骤(5)，更新矩阵Z，训练180步后，最终得到损失函数值收敛的卷积神经网络模型。损失函数由两部分损失相加组成，第一部分为输入训练的样本中有标签样本的交叉熵损失；第二部分为输入训练样本中无标签样本的交叉熵损失，每个通过标签传播得到的标签都具有不确定性，第i个样本的标签的不确定性u_i＝1-H(z_i)/log(c)，其中z_i是标签矩阵Z的第i行分量，即第i个图像样本的标签向量，H(z_i)表示此标签向量的熵，在第二部分损失中，将计算出的损失值与u_i相乘，得到第二部分的最终损失值。损失函数如下式：

其中L为交叉熵函数，y′_i为模型预测的第i个图像样本的标签向量，y_i为第i个图像样本的标签向量。在损失函数收敛一定步数后，即可得到最终的模型，后续预测只需将图像输入网络模型，输出即为大小1×10的向量，向量中的元素值就是输入图像所属对应类别的概率。

基于相同的发明构思，本发明实施例公开的一种嵌入LBP特征的图的半监督图像分类系统，包括：

样本图像库，用于保存有标签样本和无标签样本的图像；

基于相同的发明构思，本发明实施例公开的一种嵌入LBP特征的图的半监督图像分类系统，包括至少一台计算设备，该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的一种嵌入LBP特征的图的半监督图像分类方法。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种嵌入LBP特征的图的半监督图像分类方法，其特征在于，该方法包括以下步骤：

(1)建立包含有标签样本和无标签样本的图像库；

(4)使用样本图像的LBP特征构建邻接矩阵W_lbp；

(6)基于初始模型使用图像库中所有样本及其标签训练出最终的模型，用于图像分类；训练过程中的损失函数由两部分损失相加组成，第一部分为输入训练的样本中有标签样本的交叉熵损失；第二部分为输入训练样本中无标签样本的交叉熵损失，每个通过标签传播得到的标签都具有不确定性，第i个图像样本的标签的不确定性u_i＝1-H(z_i)/log(c)，其中z_i是标签矩阵Z的第i行分量，c为类别总数，H(z_i)表示z_i的熵，在第二部分损失中，将计算出的损失值与u_i相乘，得到第二部分的最终损失值，损失函数为：

其中，L为交叉熵函数，y′_i为模型预测的第i个图像样本的标签向量，n为样本总数，l为有标签样本的数目，y_i为第i个图像样本的标签向量。

2.根据权利要求1所述的一种嵌入LBP特征的图的半监督图像分类方法，其特征在于，所述步骤(2)中的卷积神经网络模型采用VGG-19、Resnet-18或Densenet-121网络模型。

3.根据权利要求1所述的一种嵌入LBP特征的图的半监督图像分类方法，其特征在于，所述步骤(3)中根据提取的样本的特征向量构建大小为n×n邻接矩阵W_cnn，其中n为训练样本总数，W_cnn中第i行第j列的元素为w_ij＝dist(v_i,v_j)，

4.根据权利要求1所述的一种嵌入LBP特征的图的半监督图像分类方法，其特征在于，所述步骤(4)中使用样本图像的LBP特征来构建大小为n×n的邻接矩阵W_lbp，其中n为训练样本总数，W_lbp中第i行第j列的元素w′_ij＝dist(v′_i,v′_j)，

其中，v′_i为第i个样本的LBP特征向量，v′_j为第j个样本的LBP特征向量，i,j∈[1,n]，(v′_j)^T为v′_j的转置，||·||₂为L₂范数。

5.根据权利要求1所述的一种嵌入LBP特征的图的半监督图像分类方法，其特征在于，所述步骤(5)中基于邻接矩阵W构建一个图，图的结点集为训练中输入模型的图像样本，图的边集为邻接矩阵W，基于W构造一个标签传播矩阵S＝D^-1/2WD^1/2，其中，

Z＝(I-αS)^-1Y

其中，α∈[0,1)，Y矩阵是一个大小为n×c的矩阵，I为单位矩阵，n为训练样本总数，c为类别总数，Y中第i行第j列元素y_ij的取值为：

6.一种嵌入LBP特征的图的半监督图像分类系统，其特征在于，包括：

样本图像库，用于保存有标签样本和无标签样本的图像；

以及神经网络最终训练模块，用于基于初始模型使用图像库中所有样本及其标签训练出用于图像分类的最终模型；训练过程中的损失函数由两部分损失相加组成，第一部分为输入训练的样本中有标签样本的交叉熵损失；第二部分为输入训练样本中无标签样本的交叉熵损失，每个通过标签传播得到的标签都具有不确定性，第i个图像样本的标签的不确定性u_i＝1-H(z_i)/log(c)，其中z_i是标签矩阵Z的第i行分量，c为类别总数，H(z_i)表示z_i的熵，在第二部分损失中，将计算出的损失值与u_i相乘，得到第二部分的最终损失值，损失函数为：

7.一种嵌入LBP特征的图的半监督图像分类系统，其特征在于，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现根据权利要求1-5任一项所述的一种嵌入LBP特征的图的半监督图像分类方法。